Итоги года

(SRE Talkbot)

Команда

Q1

  • Доступность DP и входящего (доработки) ✅
  • Переезд в прод2 ✅
  • Анализ причин недоступности ⛏️
  • Доступность исходящего ✅
  • Нагрузочное тестирование в проде ⌛⚙️

Доступность DP и входящего (доработки)

  • Цель: измерять техническую и продуктовую доступность
  • В Q1 доделывали продуктовые метрики
  • По итогам смогли одним числом показать доступность

Переезд в прод2

  • Старый прод заканчивал своё существование
  • До: Были перевезены секретари и входящий
  • Оставался исходящий и другие сервисы
  • Успешно перевезли всё!

Анализ расхода бюджета ошибок

  • Выяснить самые нестабильные источники и как они влияют на нас
  • Были прослушаны звонки с ошибками
    • Выделено влияние от интеграций
    • Помогло в формировании SLA
  • Продолжение в Q2

Доступность исходящего

  • Одним числом видеть доступность
  • Согласование SLA/SLI/SLO
  • Доработки по метрикам и их внесение в Slaser

Доступность за Q1 (февраль)

  • Период формирования
  • Проблемы с телефонией
  • Мало ресурсов
  • Проблемные релизы

Доступность Q1 (март)

  • Входящий: 98,36% 📈

Исходящий: 96,97% 📈

  • Проблемы с телефонией
  • Плохо держим нагрузку
  • Сбои на других системах из-за плановых работ

Q2

  • Зафиксировать контракты с интеграциями ✅
  • Масштабирование ✅
  • Доступность секретарей ⛏️
  • Анализ причин недоступности ▶️ ✅
  • Нагрузочное тестирование в проде ⌛⌛⚙️

Зафиксировать контракты с интеграциями

  • ТЦРМ, Телефония
  • Имели метрики, но не имели целей доступности
  • Успешно завершили и зафиксировали SLO

Масштабирование

  • Продукт хочет расти: увеличение обзвонов, ускорение секретаря
  • Проблемы с быстрой обработкой
  • Провели анализ - как оптимальнее вырасти
  • Увеличились на:
    • 57 ЦПУ
    • 72 Гб памяти
    • 3 ЦПУ и 6 Гб памяти на канарейке
  • Начали держать нагрузку без нарушений SLA

Доступность секретарей

  • Половина была покрыта
  • Согласование с аналитиками
  • Доработки на стороне Talkbot и MLB(TBP)
  • Не всё успели

Анализ причин недоступности

  • Вынесли в систематическую работу

Доступность Q2 (апрель)

Входящий: 100%📈

Исходящий: 99.7%📈

  • При этом, тех. доступность: 99.3%
    • Не выдерживали нагрузки

Доступность Q2 (май)

Входящий: 99,86%📉

Исходящий: 99,6%📉

  • Проблемы с телефонией
  • Проблемы с походом в базу в рантайме
  • Проблема с неравномерной нагрузкой на апи

Доступность Q2 (июнь)

Входящий: 98,31%📉

Исходящий: 99,81%📈

  • Сбои внешних систем

Q3

  • Доступность секретарей ▶️ ✅
  • Анализ чёрных сбоев ✅
  • Нагрузочное тестирование в проде ✅
  • Переход на Redis Cluster вместо Redis Sentinel ⌛
  • Алертинг продуктовых фичей ⌛

 

В сентябре к нам присоединился Владимир

Доступность секретарей

  • Добили намеченные метрики
  • Начали измерять доступность по двум секретарям

Анализ чёрных сбоев

  • Как чёрные сбои на нас влияют?
  • Как не зависеть от них?
  • Разобрать примеры

 

  • DRP
  • Circuit Breaker
  • Премортемы

Нагрузочное тестирование в проде

  • Придумать как делать
  • Провести один раз
  • Интерпретировать результаты

 

  • Узнали, что можем держать 3000 РПС
  • С трудом выдержим падение ДЦ
  • Редисы, postgres, API - слабые места

Доступность Q3 (июль)

Входящий: 99,16%📈

Исходящий: 99,44%📉

  • Таймауты телефонии
  • Начались проблемы с WebOffice
  • Проблемы с релизами процедур

Доступность Q3 (август)

Входящий: 98,15%📉

Исходящий: 98,84%📉

  • Сбои телефонии
  • Нестабильный WebOffice
  • Проблемы на ТЦРМ с процедурами

Доступность Q3 (сентябрь)

Входящий: 94,78%📉

Исходящий: 85,89%📉

  • WebOffice
  • Процедуры
  • Таймауты Телефонии

Q4

  • Переход на Redis Cluster вместо Redis Sentinel ✅±
  • Алертинг продуктовых фичей ✅±
  • Disaster Recovery Plan ⌛
  • Очевидные дашборды ⌛
  • Календарь/Лог релизов ⌛

 

В октябре к нам присоединился Никита

Артём стал CRO

Переход на Redis Cluster вместо Redis Sentinel

  • Даст больше ресурсов -> сможем больше держать
  • Sentinel может работать не очень стабильно из-за сети
  • Кластер подготовлен, остаётся только его использовать

Алертинг продуктовых фичей

  • Отделить качество от доступности
  • QA описали критичные фичи в Q2
  • Алерты готовы, льются в боевой канал
  • Пока не договорились кто будет на них реагировать

Доступность Q4 (октябрь)

Входящий: 97,11%📈

Исходящий: 72,62📉

  • Таймауты Телефонии
  • Ряд неудачных релизов смежников
  • Некорректный VDN
  • VoiceKit
  • WebOffice

Попали в АнтиТоп недоступности

Доступность Q4 (ноябрь)

Входящий: 98,27%📈

Исходящий: 97,66%📈

  • WebOffice
  • Таймауты Телефонии
  • Проблемы в процедурах

 

  • Начали проводить LSR больше
  • Фокус на AI и их отслеживание
  • Изменение Incident Management

Доступность Q4 (декабрь)

Входящий: 98,48%📈

Исходящий: 98,57%📈

  • WebOffice
  • Телефония
  • Процедуры

Итоги года(SRE Talkbot)

By tempestmon

Итоги года(SRE Talkbot)

  • 107