Цикл лекций о структуре хроматина
для Высшей Школы Экономики
25 ноября 2021
25 ноября:
2 декабря:
9 декабря:
Pray Nature Education 2008
Первичная структура
Вторичная структура
A-форма
спирали
B-форма
Z-форма
G-квадруплекс
ДНК-шпилька
ДНК образует более сложные структуры за счет связывания белков. В первую очередь, это гистоновые белки (у эукариот):
Alberts "Molecular Biology of the Cell" 6th edition 2015
Robinson, 2016
Для активации экспрессии необходима сборка белкового комплекса на специальных регуляторных последовательностях ДНК - энхансерах.
Энхансер
Промотор
Dean 2006
Wasserman & Sandelin. Applied bioinformatics for the identification of regulatory elements. Nat. Rev. Genet. 2004
Один ген может регулироваться несколькими энхансерами,
один энхансер может регулировать несколько генов:
Ros 2006 "Histology Atlas with Correlated Cell and Molecular Biology"
Fluorescent in situ hybridization
Bolzer et al., PLoS Biol. 2005
Speicher & Carter Nature 2005
Fluorescent in situ hybridization
The goal of the Common Fund’s 4D Nucleome (4DN) program is to study the three-dimensional organization of the nucleus in space and time (the 4th dimension).
...
The 4DN program has generated a variety of tools and resources so scientists can continue to learn about the importance of nuclear organization. Program deliverables currently available through the public 4DN Portal include nearly 2000 datasets from hundreds of experiments, 52 software packages and 23 protocols and reagents for researchers to use.
(2020)
Data Portal:
Фиксация формальдегидом
Рестрикция ДНК
Лигирование
Очистка ДНК
Библиотека ДНК-ДНК контактов
3C: Dekker et al. 2002 Science
Фиксация формальдегидом
Рестрикция ДНК
Лигирование
Очистка ДНК
Секвенирование
Картирование
Lieberman-Aiden et al. 2009 Science
Лигирование
Lieberman-Aiden et al. 2009 Science
Цвет: частота взаимодействий регионов ДНК
Bonev et al. 2016 Nature Reviews
Bonev et al. 2016 Nature Reviews
Bonev et al. 2016 Nature Reviews
Архитектурные контакты
Промотор-энхансерные взаимодействия
Polycomb-петли
Bonev et al. 2016 Nature Reviews
Fudenberg et al. 2016 Cell Reports
когезин - выпетливающий фактор
CTCF - граничный элемент
MirnyLab Youtube channel
Упрощенная визуализация ключевых компонентов:
ДНК, экструдера (когезин) и барьерного элемента (CTCF)
Ganji et al. 2018 Science
Ganji et al. 2018 Science
Mirny Lab Youtube channel
ДНК как активно живущий "город", наполненный активными машинками-экструдерами
Rao et al. 2014 Cell
когезин - выпетливающий фактор
CTCF - граничный элемент
Anania and Lupiáñez, 2020; Lupiáñez et al. 2015
Брахидактилия - генетическое врожденное заболевания, патология формирование кисти
Anania and Lupiáñez, 2020; Lupiáñez et al. 2015
F-рука
Anania and Lupiáñez, 2020; Lupiáñez et al. 2015
Полидактилия
Несколько петель
"Hi-C" карта
3D-структура
Домен (ТАД)
Шпилька
Псевдоузел (практически не встречается)
Соответствие?
Одиночная
петля
(бактерия)
Человек: 2 м ДНК в 10 мкм ядро
100-этажный дом в рисовое зерно
Fulco et al. 2019
CRISPRi-FlowFISH
Beagrie et al. 2017
Nguyen et al. 2020
Статистика депозита данных Hi-C в публичную базу SRA:
By Geoffrey Fudenberg for Open2C talk at Keystone Symposia 2021
Немного простой математики (для одного эксперимента Hi-C)
длина ДНК клетки человека:
~2 м
National Human Genome Research Institute www.genome.gov
длина ДНК клетки человека:
~2 м
длина генома человека:
National Human Genome Research Institute www.genome.gov
~1 м
Немного простой математики (для одного эксперимента Hi-C)
длина ДНК клетки человека:
размер генома человека:
количество всевозможных попарных контактов ДНК:
в 100Kb-бинах
в нуклеотидах
длина ДНК клетки человека:
~2 м
длина генома человека:
~1 м
размер одного нуклеотида = 0.34 нм = 0.00000000034 м
~3000000000 нт
3000000000·3000000000 =
9000000000000000000 нт
компьютерное представление:
~10 Эксабайт
(19 нулей)
Немного простой математики (для одного эксперимента Hi-C)
Немного простой математики (для одного эксперимента Hi-C)
длина ДНК клетки человека:
длина ДНК клетки человека:
~2 м
длина генома человека:
~1 м
~ 1 Гигабайт
размер генома человека:
количество всевозможных попарных контактов ДНК:
в 100Kb-бинах
в нуклеотидах
~3000000000 нт
30000·30000 =
900000000 нт
компьютерное представление:
~10 Эксабайт
(19 нулей)
~30000 бинов
3000000000·3000000000 =
9000000000000000000 нт
Варианты хранения:
игрушечный пример:
[[2,0,1], [0,2,0], [1,0,2]]
left right n_contacts 1 1 2 1 3 1 2 2 2 3 3 2
Варианты хранения:
игрушечный пример:
[[2,0,1], [0,2,0], [1,0,2]]
left right n_contacts 1 1 2 1 3 1 2 2 2 3 3 2
+
Chesi et al. 2019
2. Анализировать особенности (фичи, features) данных Hi-C
}
Fraser et al. Microbiology and Molecular Biology Reviews 2015
Bonev et al. 2016 Nature Reviews
Falk et al. Nature 2019
^^^ Сделали усреднение ^^^
получили средние контакты между парами хромосомам
Hi-C карты для трех хромосом:
Bonev et al. 2016 Nature Reviews
одна из гипотетических моделей:
Filippova et al. Algorithms for Molecular Biology 2014
чем "квадраты" вдоль диагонали:
Forcato et al. Nature Methods 2017
based on Crane, 2015
Инструмент для Python: cooltools insulation with tutorial
1. для каждого бина генома получаем
некоторую меру инсуляции
2. берем набор эпигенетических данных
3. подбираем и обучаем модель машинного обучения
(в данном случае biLSTM):
4. получаем ранжирование эпигенетических факторов по важности для формирования структуры хроматина:
Wang et al. 2018
5. Позиционирование факторов предсказывает границы ТАДов:
Bonev et al. 2016 Nature Reviews
одна из гипотетических моделей:
Lieberman-Aiden, 2009
Зависимость частоты контактов от геномного расстояния:
Lieberman-Aiden et al. Nature 2009
1. Нормализация матрицы контактов на P(s):
Lieberman-Aiden et al. Nature 2009
2. Усиление контрастности:
Lieberman-Aiden et al. Nature 2009
2. Оценка сходства между каждой парой строк:
(очень упрощая)
чем выше сигнал по углам карты,
тем более выражены компартменты
1. Найдем в Hi-C компартменты,
2. Нормируем Hi-C на P(s),
3. Переставим местами строки так, чтобы похожие были рядом,
4. Огрубим карту с помощью усреднения соседних пикселей.
Инструмент для Python: cooltools compartments with tutorial
Архитектурные петли
Промотор-энхансерные взаимодействия
Polycomb-петли
Bonev et al. 2016 Nature Reviews
Rao et al. Cell 2014
Hi-C Computational Unbiased Peak Search
Rao et al. Cell 2014
Позиции петель млекопитающих часто содержат мотив связывания фактора CTCF:
Forcato et al. Nature Methods 2017
Огромное количество алгоритмов, как и в случае поиска ТАДов:
Flyamer Bioinformatics 2019
Можем взять все позиции связывания CTCF и построить среднюю картину петли:
https://github.com/Phlya/coolpuppy
позиции CTCF
средняя петля
Flyamer et al. Nature 2017
Single-cell Hi-C - протокол, похожий на Hi-C, но для единичных клеток:
Ulyanov, Galitsyna et al. 2021, Nature Communications
На примере single-cell Hi-C данных мухи, очень мало данных:
Разбираемся с петлями и ТАДами с помощью Juicebox:
https://aidenlab.org/juicebox/
1. Загрузите данные для клеточной линии GM12878 из Juicebox Archive.
2. Приблизьте карту на регион одной хромосомы. Поменяйте цветовую шкалу при необходимости
3. Найдите хотя бы одну петлю и хотя бы один ТАД.
Какое разрешение подходит для их визуализации?
4. Загрузите 2D аннотации (петли и домены типа Combined).
Как связаны между собой разметки петель и ТАДов?
5. Добавьте данные RNA-Seq. Как они соотносятся с позициями петель и ТАДов?
Разбираемся с разными экспериментами через HiGlass:
1. Перейдите на Two Linked View раздел.
Какие типы клеток перед вами?
2. Одинаковая ли структура хроматина в заданном регионе?
3. В каких типах клеток (из двух) гены OXR1, ABRA, ANGPT1 находятся в "активном" хроматине?
4. Какие структуры хроматина ассоциированы с активными генами?
Вопрос: Используя информацию из литературы и публичных баз данных, как можно объяснить дифференциальную активность генов OXR1, ABRA, ANGPT1 между двумя приведенными клеточными типами?
Ссылка на форму для развернутого ответа:
https://docs.google.com/forms/d/1F6N47Wu8MFJZ6_d8cHYsAZRWwKa3R6ps4gSPqbgEeYg
(ответы принимаются до 23:59 4 декабря)