Согласование плана работ на сервисную паузу

Предлагаю:

  1. Согласовать решения, которые не должны вызвать больших противоречий (может быть, даже у Сергея)
  2. Обсудить повестку вопросов, которые вызовут большие споры

Простые вопросы

  1. Развертывание в 042 Ceph3, дисковых полок, модель хранения данных;
  2. Борьба с искусственной сложностью: 1 dag наблюдения за состоянием секвенаторов вместо 3;
  3. Борьба с искусственной сложностью: отход от 2 баз данных с плоскими несвязанными таблицами к 1 базе с реляциями;
  4. *Утренние дежурства: перелогин на секвенаторах
  5. Отправка данных с секвенаторов сразу в Ceph, потребность в UVD
  6. Структура директорий в новых Ceph
  7. Права доступа к данным
  8. Модель доступа к серверам с точки зрения ИБ
  9. Гарантии доставки данных

Предлагаемые шаги по Ceph3 и полкам

  1. 28 декабря - 11 января: ведем работы по развертыванию Ceph3
  2. 11 января - приходят дисковые полки (суммарно 60 штук) и их серверы-контроллеры. Сеть для них будет только в феврале - это проблема. Настраиваем их, параллельно работаем над Ceph3, параллельно работаем над кодом пайплайнов, чтобы он работал по новой модели.
  3. 18 января начинаем создавать резервные копии всех данных, которые сейчас хранятся в Ceph1 и Ceph2, на дисковых полках; начинаем период испытаний Ceph3.
  4. 25 января начинаем тестировать код пайплайнов, чтобы он работал с Ceph3.
  5. 1 февраля считаем Ceph3 промышленным.
  6. Копируем данные из Ceph1 и Ceph2 в Ceph3 и на полки. Когда все точно скопировано, разрушаем Ceph1 и Ceph2, и пересобираем из них единый Ceph2 объемом около 10ПБ (ориентировочно, в марте).

Гарантии по дисковым полкам

  • Кто отвечает за доступы к ним (точки монтирования, права доступа)?
  • Функция, определяющая, на какой полке должен лежать определенный фрагмент данных.

Конвергенция к одному DAG'у для отслеживания SequenceComplete, CopyComple и т.п.

Сейчас мы имеем 3 разных DAG'а для мониторинга секвенаторов. Это во-первых ненужное усложнение, сложившаяся по историческим причинам. Во-вторых, оно не позволяет реализовать некоторые варианты логики, например, новые запросы С.Митрофанова.

Конвергенция к одной базе данных

Сейчас мы имеем 2 базы данных для хранения статусов. Первая база данных - наследство от Влада Пахомова. Не содержит реляций, неудобна в работе. Вторая база содержит всю ту же информацию и больше.

Требуется:

  • гарантировать безотказную работу второй базы (даже на время релиза)
  • сохраняя первую базу в read-only-режиме, поэтапно полностью перевести логику триггеров на использование второй базы данных, сохраняя первую только как проекцию
  • полностью перейти на вторую базу

Согласование плана задач на сервисную паузу

By vasjaforutube1

Согласование плана задач на сервисную паузу

  • 23