IT-инфраструктура
вычислительные ресурсы Щукинской 5с6

- Данная презентация выполнена на HTML5.
- Если хотите увидеть план рассказа и вернуться обратно - дважды нажмите <Esc>.
- Презентация состоит из блоков.
- Чтобы перейти к следующему блоку вращайте презентацию вправо.
- Чтобы получить более детальную информацию по данному блоку вращайте презентацию вниз.
Как пользоваться этой презентацией
Типы данных
- BCL - сырой итог секвенирования, светимость. Одна для 24 человек, весит ~1.2ТБ
- FASTQ - сырые риды одного человека (фрагменты генома по 150 букв), для 24 человек весят ~1.8ТБ
- BAM - риды одного человека, выровненные на референсный геном, для 24 человек весят ~1.4ТБ
- gVCF/VCF - генетические варианты одного человека, весят несколько ГБ (на 3 порядка меньше BCL, FASTQ и BAM)
- combined VCF - генетические варианты нескольких человек вместе
Типы серверов
- UVD (узел ввода данных) - принимают данные с секвенаторов, осуществляют стадию демультипликации BCL -> FASTQ
- Dragen - принмают FASTQ, осуществляют FASTQ->BAM+gVCF
- UDH - хранят данные, на части из них развернут CephFS, другая часть используется как холодное хранилище (дисковые полки)
- VU (вычислительный узел) - 200 штук, исопльзуются для расчетов





Серверные в Щукинская 5с6

Состав оборудования серверных 026-027 (-1 этаж):

Состав оборудования комнаты 0014 (-2 этаж):

Состав оборудования комнаты 042 (-1 этаж):
Мы планируем использовать под дисковое пространство (50/50 Ceph и полки) освобождающиеся 8 стоек (ПАК МАСУ + пустые стойки).

Состав оборудования комнаты 034 (-1 этаж):

Конвейер данных (Бурков)

Конвейер данных (Шестаков)

Хранилища данных
Мы храним не менее 2 копий данных в 3 хранилищах: горячем (Ceph), холодном (дисковые полки UDH) и архивном (магнитные ленты).
С горячего хранилища ведем расчеты, в холодном – храним копию в оперативном доступе на случай неполадок горячего, архивным подстраховываемся от потери части данных в холодном.
Чтобы хранить 100 тысяч геномов, нужно иметь пространство для 200 тысяч полезного хранения .
Хранилища данных
формат | горячее | холодное | архивное |
---|---|---|---|
BCL | + | - | + |
FASTQ | + | + | - |
BAM+gVCF | + | + | - |
В ближайшие 3 месяца мы надеемся добавить в архивное хранилище также форматы BAM+gVCF и FASTQ.
Горячее: CephFS
Достоинства:
- высочайшая скорость обмена данными (20-100+ Гбайт/с), 20 тысяч геномов загружаются на расчет за 10-30 минут
- эффективное расходование дискового пространства (отношение полезного пространства к сырому – до 75%)
- данные, разбросанные по десяткам серверов, представляются пользователю как единый диск
- можно разграничить доступы пользователей к каждой подпапке этого диска
- интеграция с популярнейшими системами контейнеризации, виртуализации и обработки больших данных Kubernetes, OpenShift, OpenStack, Spark
Горячее: CephFS
Недостатки:
- высокая сложность системы, требуются компетентные сотрудники для обслуживания
- требовательность к вычислительным ресурсам серверов и сети (нужны мощные процессоры на серверах и быстрая сеть)
- нетривиально организовать доступ к данным с ОС Windows
- ненулевой риск потери всех данных разом, чувствительность к бесперебойному электропитанию и работе сети
Холодное: дисковые полки
Достоинства:
- простота
- относительная толерантность к потере электропитания и сети
- возможность за ~2 недели забрать все данные с полки и переложить в CephFS
- неплохая эффективность расходования дискового пространства (отношение полезного пространства к сырому - порядка 50-66%)
- существует ненулевой шанс потерять одновременно только 1 полку – в таком случае ее данные можно восстановить из архивного хранилища (с лент)
Холодное: дисковые полки
Недостатки:
- неудобный интерфейс, данные разбросаны по разным машинам
- одна полка не может одновременно обслуживать несколько клиентов, проводить на них серьезные высокопроизводительные биоинформатические расчеты фактические невозможно
Архивное: магнитные ленты
Достоинства:
- низкая стоимость хранения, большой объем
- независимость хранящейся кассеты на магнитной ленте от питания - записал и отнес в другое здание
Недостатки:
- невозможно быстро поднять данные с лент – в лучшем случае, одну полку за месяц
График доступного дискового пространства по времени

Что лимитрует рост?
- 4 серверных помещения в 6 корпусе, по 20 стоек каждое (каждая стойка – около 10 вычислительных серверов или около 2ПБ хранения данных в одной копии)
- 800 киловатт питания на все серверные всего 6 корпуса; каждая стойка – 10 киловатт
- ожидаемый реалистический срок сдачи нового корпуса – Q1 2022 (есть последовательные стадии в техпроцессе – “нельзя надеть пиджак, пока не надел рубашку”)
- некуда сажать дополнительных сисадминов в 6 корпусе
- непросто нанимать высококлассных сотрудников уровня тимлида (во-первых, не идут, во-вторых, уходят, в-третьих – процесс наема растягивается более чем на месяц из-за неэффективного, неавтоматизированного документооборота и делопроизводства)
Доступ к данным
CephFS представляет единую распределенную файловую систему гигантского размера.
Она позволяет гибко разграничивать доступы пользователей к различным поддиректориям. В частности, можно выдать права конкретному пользователю на доступ только к конкретной поддиректории только на чтение.
Доступ к данным
В данный момент доступы к данным в CephFS имеют группы Митрофанова, Зотовой, Траспова и дата-инженеры нашей команды.
Проекты решений для внешних коллабораторов
- Доступ через контейнеры (Kubernetes/OpenShift), основное решение на данный момент
- Доступ через виртуальные машины OpenStack
- ВАРМы (виртуальные рабочие места, эфемерные – то есть уничтожаемые каждые сутки) на базе vmWare VDI
График предстоящих закупок
- "Очередь 1.5": 15 декабря 2020: 2/3 034 серверной, 2/3 042 серверной
- Микрозакупка пользовательского софта и оборудования: 4 квартал 2020 - пользовательское оборудование
- "Очередь 1.75": 4 квартал 2020 1/3 034 серверной, 1/3 042 серверной
- Очередь 2: сдача в 4 квартале 2021 - новый ЦОД

Зоны ответственности ОМГ и МАСУ
Зоны ответственности отдела МАСУ
- интернет в здании (ведется через Погодинскую), VPN-шлюз (удаленный доступ)
- электронная почта и exch01.cspmz.ru
- телефония (на данный момент мы подняли свою АТС на Щукинской, но она соединена с АТС на Погодинской, чтобы сеть телефонов была единой)
- домен cspmz.ru и пользовательские компьютеры в этом домене (в т.ч. отдела АиПМБРЗ и НЦ МБР)
- видеонаблюдение, СКУД
- электронный документооборот
Зоны ответственности ОМГ
-
локальная сеть, будущий выход в интернет
-
вычислительный комплекс и хранение данных в серверных 026, 027, 034, 042, 0014 и кроссовые помещения
-
конвейеры обработки данных NGS
-
ЛИС
-
техподдержка пользователей в домене pak-cspmz.ru на -2, 1, 2, 3 и 4 этажах, диск О и другие общие диски
-
телефонные номера на Щукинской
IT-инфраструктура
By vasjaforutube1
IT-инфраструктура
- 25