Цикл лекций о структуре хроматина
2 декабря 2021
Ссылка на форму:
время проведения:
11:10 до 11:30
(строгий дедлайн)
Ulianov et al. Genome Biology 2016
Fudenberg et al. 2016 Cell Reports
когезин - выпетливающий фактор
CTCF - граничный элемент
Микроскопия:
Микроскопия с флуоресцентными маркерами (FISH):
FISH на двух метках:
FISH для полных хромосом:
3C: Dekker et al. Science 2002
Фиксация формальдегидом
Рестрикция ДНК
Лигирование
Очистка ДНК
Библиотека ДНК-ДНК контактов
Фиксация конформации хромосом
Фиксация формальдегидом
Рестрикция ДНК
Лигирование
Очистка ДНК
Секвенирование
Картирование
Лигирование
ВЫСОКОпроизводительная фиксация конформации хромосом
Adopted from Schmitt Nature Reviews 2016
Adopted from Imakaev et al. Nature Methods 2012
0. Контроль качества данных NGS
1. Картирование ридов:
-> получение файла с картированиями (.sam)
2. Конвертация файла с картированиями (parse):
-> получение файла с парами контактов (.pairs)
- дедупликация
3. Получение карты геномных контактов (.cool):
- бинирование
- нормализация и корректировка
5. Контроль качества Hi-C
6. Поиск особенностей (фич) карт Hi-C
<- в следующий раз
Установка: вы работаете в биоинформатической лаборатории по исследованию эволюционных процессов в хроматине. Вам даны:
Ваши задачи:
1) определить организм, для которого выполнен Hi-C;
2) провести процедуру обработки данных Hi-C;
3) вынести вердикт: хорошо ли сработал протокол Hi-C и секвенирование
4) провести интерпретацию результата и предложить гипотезы об особенностях укладки хроматина организма
https://forms.gle/dqBa4ENySyCywD2T6
Максимально 10 баллов за ответ. Ошибки можно компенсировать за счет последнего задания на биологическую интерпретацию результатов.
Дедлайн: 9 декабря в 11:10
(будем разбирать правильные ответы!)
1. Логин через терминал:
или Putty для Windows.
(инструкции: https://www.ssh.com/ssh/putty/windows/#sec-Configuration-options-and-saved-profiles)
2. Активируйте удобный bash-терминал:
3. Создайте директорию проекта:
4. Настройка рабочей среды и ее проверка:
$ ssh -p5222 username@92.242.58.92 или ssh -p32222 username@92.242.58.92
$ mkdir practice_chromatin
$ cd practice_chromatin
$ /usr/share/data-minor-bioinf/chromatin/anaconda/condabin/conda init
$ bash
$ conda activate chromatin
$ cooltools --version
$ bash
3. База данных секвенирования:
4. Ваш уникальный идентификатор данных:
https://docs.google.com/spreadsheets/d/1rJA3Cz1itIv8Z_cBjMaBK1vpKnYe7kOKzGrsrCmrw9E/edit?usp=sharing
ls /mnt/storage/chromatin/genomes/
В папках содержится информация:
1. Прочтения секвенирования, первые и вторые из пар:
/mnt/storage/chromatin/fastq/<YOUR CODE>_R1.fastq
/mnt/storage/chromatin/fastq/<YOUR CODE>_R2. fastq
2. Файл с размерами хромосом данного организма:
/mnt/storage/chromatin/genomes/<YOUR GENOME ID>/<YOUR GENOME ID>.fa.sizes
3. Индекированный геном организма:
/mnt/storage/chromatin/genomes/<YOUR GENOME ID>/index/bwa/<YOUR GENOME ID>.fa*
ls /mnt/storage/chromatin/fastq/
Не доверяйте результатам только по одному риду. Попробуйте несколько штук из разных фрагментов файлов, чтобы избежать попадания в контаминированные риды (например, симбионтами, бакретиями в лабе или ДНК лаборанта-экспериментатора...)
less /mnt/storage/chromatin/fastq/1_R1.fastq
Перед Вами может оказаться:
- бактерия с одной хромосомой
- эукариот с геномом, собранным до хромосом
- эукариот с геномом, собранным до контигов
less /mnt/storage/chromatin/genomes/AaegL5/AaegL5.fa.sizes
$ fastqc ${yourfile.fastq} -o ./
(*) после знака $ в фигурных скобках указано имя файла, которое нужно заменить на свое
Картирование, переводит
fastq (файл с ридами) в sam (файл с выравниваниями):
$ bwa mem -t 1 ${genome_file.fa.gz} ${fastq_file1} ${fastq_file2} > ${output.sam}
htop
$ bwa mem -t 1 ${genome_file.fa.gz} ${fastq_file1} ${fastq_file2} > ${output.sam} &
! Секвенирование парноконцевое
Фиксация формальдегидом
Рестрикция ДНК
Лигирование
Очистка ДНК
Лигирование
Imakaev et al. Nature Methods 2012
хороший сценарий картирования
риды (.fastq)
выравнивания (.sam/.bam)
контакты (.pairs)
тип контакта (техническая информация pairtools)
пара ридов не картировалась
множественные картирования
химерные прочтения - один рид перекрывает несколько фрагментов генома
Adopted from Lajoie et al., The Hitchhiker's guide to Hi-C analysis: Practical guidelines.
Methods 2015
Один из первых методов решения проблемы химерных ридов (сейчас остался в истории):
Сквозные прочтения
(readthrough)
Алгоритм bwa mem позволяет картировать химеры:
Бины генома - это последовательные окна геномных координат одинакового размера.
Каждая ячейка (или пиксель) контактной карты содержит количество всех контактов, пришедших рестриктных фрагментов, соответствующих таким бинам:
Бинированая карта контактов
Imakaev et al. Nature Methods 2012
Нормировка матрицы Hi-C приводит матрицу к бистохастичному виду. Иными словами, выравнивается кумулятивная частота контактов регионов генома (Cumulative Contact Frequency, CCF):
Samborskaya et al. PeerJ 2020
Два основных типа:
Adopted from Schmitt et al. Nature Reviews 2016
Schmitt et al. Nature Reviews 2016
Lieberman-Aiden, 2009
Вероятность контакта хроматина
между двумя участками
зависит от геномного расстояния между ними
P(s)-график
log-log P(s)-график
Sanborn et al. PNAS 2015
Lieberman-Aiden et al. 2009
Фрактальная глобула - модель, близко описывающая наблюдаемые свойства P(s):
Oddes 2018
Закон P(s) нарушен?
Или что-то пошло не так с Hi-C?
Правильная последовательность ДНК (сборка)
Ошибка сборки: ДНК устроена не так, как мы думали!
Обычная сборка генома по ридам ДНК:
Улучшение сборки с помощью Hi-C:
Пример использования: https://youtu.be/IMmVp8FodmY
0. Контроль качества данных NGS
1. Картирование данных парноконцевого NGS
2. Получение пар контактов Hi-C и их дедупликация
3. Бинирование и нормализация
4. Контроль качества
$ bwa mem -t 1 ${genome_file.fa.gz} ${fastq_file1} ${fastq_file2} > ${output.sam}
$ pairtools parse -c ${chromosome_sizes_file} ${input.sam} -o ${output.pairs} \
--drop-seq --drop-sam --drop-readid --min-mapq 30
$ bwa mem -t 1 ${genome_file.fa.gz} ${fastq_file1} ${fastq_file2} > ${output.sam}
$ pairtools parse -c ${chromosome_sizes_file} ${input.sam} -o ${output.pairs} \
--drop-seq --drop-sam --drop-readid --min-mapq 30
$ pairtools dedup --output-stats ${output.dedup.stats} ${output.pairs} \
-o ${output.nodups.pairs}
multiqc --module pairtools ./
$ pairtools stats -o ${output.stats} ${output.nodups.pairs}
Типы картирований:
Разные типы пар контактов:
Количество контактов для разного геномного расстояния:
P(s):
$ cooler cload pairs -c1 2 -c2 4 -p1 3 -p2 5 ${chromsizes}:1000000 ${input.nodup.pairs} ${out.cool}
$ cooler balance ${out.cool}
$ cooler info ${out.cool}
(*) 100000 - это размер одного бина Hi-C карты, иначе говоря, 100 Kb
Попробуйте разные разрешения контактных карт для визуализации. На бактериях можно использовать размер бина 5-10 Kb, на крупных геномах - от 50 Kb до 1 Mb.
$ cooler show ${in.cool} chr1 -o ${image.png}
Попробуйте разные параметры визуализации:
тип шкалы (log or linear),
максимальное и минимальное значение и прочие.
Можно выбрать разное разрешение карт на предыдущем шаге.
Задача: добиться лучшей визуализации структурных элементов хроматина
Установка: вы работаете в биоинформатической лаборатории по исследованию эволюционных процессов в хроматине. Вам даны:
Ваши задачи:
1) определить организм, для которого выполнен Hi-C;
2) провести процедуру обработки данных Hi-C;
3) вынести вердикт: хорошо ли сработал протокол Hi-C и секвенирование
4) провести интерпретацию результата и предложить гипотезы об особенностях укладки хроматина организма
https://forms.gle/dqBa4ENySyCywD2T6
Максимально 10 баллов за ответ. Ошибки можно компенсировать за счет последнего задания на биологическую интерпретацию результатов.
Дедлайн: 9 декабря в 11:10
(будем разбирать правильные ответы!)
1. Логин через терминал:
или Putty для Windows.
(инструкции: https://www.ssh.com/ssh/putty/windows/#sec-Configuration-options-and-saved-profiles)
2. Активируйте удобный bash-терминал:
3. Создайте директорию проекта:
4. Настройка рабочей среды и ее проверка:
$ ssh -p5222 username@92.242.58.92 или ssh -p32222 username@92.242.58.92
$ mkdir practice_chromatin
$ cd practice_chromatin
$ /usr/share/data-minor-bioinf/chromatin/anaconda/condabin/conda init
$ conda activate chromatin
$ cooler --version
$ bash
3. База данных секвенирования:
4. Ваш уникальный идентификатор данных:
https://docs.google.com/spreadsheets/d/1rJA3Cz1itIv8Z_cBjMaBK1vpKnYe7kOKzGrsrCmrw9E/edit?usp=sharing
ls /mnt/storage/chromatin/genomes/
В папках содержится информация:
1. Прочтения секвенирования, первые и вторые из пар:
/mnt/storage/chromatin/fastq/<YOUR CODE>_R1.fastq
/mnt/storage/chromatin/fastq/<YOUR CODE>_R2. fastq
2. Файл с размерами хромосом данного организма:
/mnt/storage/chromatin/genomes/<YOUR GENOME ID>/<YOUR GENOME ID>.fa.sizes
3. Индекированный геном организма:
/mnt/storage/chromatin/genomes/<YOUR GENOME ID>/index/bwa/<YOUR GENOME ID>.fa*
ls /mnt/storage/chromatin/fastq/