Цикл лекций о структуре хроматина
3 декабря 2020
Ulianov et al. Genome Biology 2016
Микроскопия:
Микроскопия с флуоресцентными маркерами (FISH):
FISH на двух метках:
FISH для полных хромосом:
3C: Dekker et al. Science 2002
Фиксация формальдегидом
Рестрикция ДНК
Лигирование
Очистка ДНК
Библиотека ДНК-ДНК контактов
Фиксация конформации хромосом
Фиксация формальдегидом
Рестрикция ДНК
Лигирование
Очистка ДНК
Секвенирование
Картирование
Лигирование
ВЫСОКОпроизводительная фиксация конформации хромосом
Adopted from Schmitt Nature Reviews 2016
Adopted from Imakaev et al. Nature Methods 2012
0. Контроль качества данных NGS
1. Картирование ридов:
-> получение файла с картированиями (.sam)
2. Конвертация файла с картированиями (parse):
-> получение файла с парами контактов (.pairs)
- дедупликация
3. Получение карты геномных контактов (.cool):
- бинирование
- нормализация и корректировка
5. Контроль качества Hi-C
6. Поиск особенностей (фич) карт Hi-C
<- в следующий раз
! Секвенирование парноконцевое
Фиксация формальдегидом
Рестрикция ДНК
Лигирование
Очистка ДНК
Лигирование
хороший сценарий картирования
риды (.fastq)
выравнивания (.sam/.bam)
контакты (.pairs)
тип контакта (техническая информация pairtools)
не столь хорошие сценарии картирования...
картирование не произошло
не столь хорошие сценарии картирования...
множественное картирование
не столь хорошие сценарии картирования...
химерные прочтения - один рид перекрывает несколько фрагментов генома
Сквозные прочтения
(readthrough)
Бины генома - это последовательные окна геномных координат одинакового размера.
Каждая ячейка (или пиксель) контактной карты содержит количество всех контактов, пришедших рестриктных фрагментов, соответствующих таким бинам:
Бинированая карта контактов
Imakaev et al. Nature Methods 2012
Lieberman-Aiden, 2009
Вероятность контакта хроматина
между двумя участками
зависит от геномного расстояния между ними
P(s)-график
log-log P(s)-график
Oddes 2018
Закон P(s) нарушен?
Или что-то пошло не так с Hi-C?
Правильная последовательность ДНК (сборка)
Ошибка сборки: ДНК устроена не так, как мы думали!
Обычная сборка генома по ридам ДНК:
Улучшение сборки с помощью Hi-C:
0. Контроль качества данных NGS
1. Картирование данных парноконцевого NGS
2. Получение пар контактов Hi-C и их дедупликация
3. Бинирование и нормализация
4. Контроль качества
Вы работаете в биоинформатической лаборатории по исследованию эволюционных процессов в хроматине. Вам даны:
Ваши задачи:
1) провести процедуру обработки данных;
2) определить организм;
3) вынести вердикт: хорошо ли сработал протокол Hi-C и секвенирование, требуется ли пересборка генома.
Вы работаете в команде, и Вам достаточно выполнить только часть обработки Hi-C, чтобы разобраться.
Вот доступные позиции в лаборатории:
Роль | |
---|---|
Специалист по данным NGS | Контроль качества данных NGS |
Специалист по картированию | Картирование данных Hi-C |
Специалист по качеству Hi-C | Контроль качества данных Hi-C |
Специалист по хроматину | Анализ контактных карт |
Специалист по биологии | Анализ видовой принадлежности и свойств генома |
Команда состоит из <= 5 участников и получает один набор данных. Один участник может выполнять несколько ролей, но никакие два участника не могут иметь одинаковый набор ролей.
В итоговом отчете Вам нужно:
В суммарный балл входят:
1. Логин через терминал:
или Putty для Windows.
(инструкции: https://www.ssh.com/ssh/putty/windows/#sec-Configuration-options-and-saved-profiles)
2. Активируйте удобный bash-терминал:
3. Создайте директорию проекта:
4. Проверьте, что рабочая среда настроена:
$ ssh -p5222 username@92.242.58.92 или ssh -p32222 username@92.242.58.92
$ mkdir practice_chromatin
$ cd practice_chromatin
$ bwa -help
$ bash
/usr/share/data-minor-shared/input_data/
$ ls /usr/share/data-minor-shared/input_data/team00/
В папке содержится информация:
1. Прочтения секвенирования, первые и вторые из пар:
data_1.fastq
data_2.fastq
2. Файл с размерами хромосом данного организма:
chomosomes.sizes.txt
3. Индекированный геном организма:
genome.fa.gz
genome.fa.gz.amb
genome.fa.gz.ann
genome.fa.gz.bwt
genome.fa.gz.pac
genome.fa.gz.sa
$ fastqc ${yourfile.fastq}
(*) в фигурных скобках указано имя файла, которое можно заменить на свое
$ bwa mem -t 1 ${genome_file.fa.gz} ${fastq_file1} ${fastq_file2} > ${output.sam}
$ pairtools parse -c ${chromosome_sizes_file} ${input.sam} -o ${output.pairs} \
--drop-seq --drop-sam --drop-readid --min-mapq 30
$ bwa mem -t 1 ${genome_file.fa.gz} ${fastq_file1} ${fastq_file2} > ${output.sam}
$ pairtools parse -c ${chromosome_sizes_file} ${input.sam} -o ${output.pairs} \
--drop-seq --drop-sam --drop-readid --min-mapq 30
$ pairtools dedup --output-stats ${output.dedup.stats} ${output.pairs} \
-o ${output.nodups.pairs}
multiqc --module pairtools ./
$ pairtools stats -o ${output.stats} ${output.nodups.pairs}
Типы картирований:
Разные типы пар контактов:
Количество контактов для разного геномного расстояния:
P(s):
$ cooler cload pairs -c1 2 -c2 4 -p1 3 -p2 5 ${chromsizes}:1000000 ${input.nodup.pairs} ${out.cool}
$ cooler balance ${out.cool}
$ cooler info ${out.cool}
(*) 100000 - это размер одного бина Hi-C карты, иначе говоря, 100 Kb
$ cooler show ${in.cool} chr1 -o ${image.png}