Итоги года
(SRE Talkbot)
Команда

Q1
- Доступность DP и входящего (доработки) ✅
- Переезд в прод2 ✅
- Анализ причин недоступности ⛏️
- Доступность исходящего ✅
- Нагрузочное тестирование в проде ⌛⚙️
Доступность DP и входящего (доработки)
- Цель: измерять техническую и продуктовую доступность
- В Q1 доделывали продуктовые метрики
- По итогам смогли одним числом показать доступность
Переезд в прод2
- Старый прод заканчивал своё существование
- До: Были перевезены секретари и входящий
- Оставался исходящий и другие сервисы
- Успешно перевезли всё!
Анализ расхода бюджета ошибок
- Выяснить самые нестабильные источники и как они влияют на нас
- Были прослушаны звонки с ошибками
- Выделено влияние от интеграций
- Помогло в формировании SLA
- Продолжение в Q2
Доступность исходящего
- Одним числом видеть доступность
- Согласование SLA/SLI/SLO
- Доработки по метрикам и их внесение в Slaser
Доступность за Q1 (февраль)
- Период формирования
- Проблемы с телефонией
- Мало ресурсов
- Проблемные релизы

Доступность Q1 (март)
- Входящий: 98,36% 📈
Исходящий: 96,97% 📈
- Проблемы с телефонией
- Плохо держим нагрузку
- Сбои на других системах из-за плановых работ
Q2
- Зафиксировать контракты с интеграциями ✅
- Масштабирование ✅
- Доступность секретарей ⛏️
- Анализ причин недоступности ▶️ ✅
- Нагрузочное тестирование в проде ⌛⌛⚙️
Зафиксировать контракты с интеграциями
- ТЦРМ, Телефония
- Имели метрики, но не имели целей доступности
- Успешно завершили и зафиксировали SLO
Масштабирование
- Продукт хочет расти: увеличение обзвонов, ускорение секретаря
- Проблемы с быстрой обработкой
- Провели анализ - как оптимальнее вырасти
- Увеличились на:
- 57 ЦПУ
- 72 Гб памяти
- 3 ЦПУ и 6 Гб памяти на канарейке
- Начали держать нагрузку без нарушений SLA
Доступность секретарей
- Половина была покрыта
- Согласование с аналитиками
- Доработки на стороне Talkbot и MLB(TBP)
- Не всё успели
Анализ причин недоступности
- Вынесли в систематическую работу
Доступность Q2 (апрель)
Входящий: 100%📈
Исходящий: 99.7%📈
- При этом, тех. доступность: 99.3%
- Не выдерживали нагрузки
Доступность Q2 (май)
Входящий: 99,86%📉
Исходящий: 99,6%📉
- Проблемы с телефонией
- Проблемы с походом в базу в рантайме
- Проблема с неравномерной нагрузкой на апи
Доступность Q2 (июнь)
Входящий: 98,31%📉
Исходящий: 99,81%📈
- Сбои внешних систем
Q3
- Доступность секретарей ▶️ ✅
- Анализ чёрных сбоев ✅
- Нагрузочное тестирование в проде ✅
- Переход на Redis Cluster вместо Redis Sentinel ⌛
- Алертинг продуктовых фичей ⌛
В сентябре к нам присоединился Владимир
Доступность секретарей
- Добили намеченные метрики
- Начали измерять доступность по двум секретарям
Анализ чёрных сбоев
- Как чёрные сбои на нас влияют?
- Как не зависеть от них?
- Разобрать примеры
- DRP
- Circuit Breaker
- Премортемы
Нагрузочное тестирование в проде
- Придумать как делать
- Провести один раз
- Интерпретировать результаты
- Узнали, что можем держать 3000 РПС
- С трудом выдержим падение ДЦ
- Редисы, postgres, API - слабые места
Доступность Q3 (июль)
Входящий: 99,16%📈
Исходящий: 99,44%📉
- Таймауты телефонии
- Начались проблемы с WebOffice
- Проблемы с релизами процедур
Доступность Q3 (август)
Входящий: 98,15%📉
Исходящий: 98,84%📉
- Сбои телефонии
- Нестабильный WebOffice
- Проблемы на ТЦРМ с процедурами
Доступность Q3 (сентябрь)
Входящий: 94,78%📉
Исходящий: 85,89%📉
- WebOffice
- Процедуры
- Таймауты Телефонии
Q4
- Переход на Redis Cluster вместо Redis Sentinel ✅±
- Алертинг продуктовых фичей ✅±
- Disaster Recovery Plan ⌛
- Очевидные дашборды ⌛
- Календарь/Лог релизов ⌛
В октябре к нам присоединился Никита
Артём стал CRO
Переход на Redis Cluster вместо Redis Sentinel
- Даст больше ресурсов -> сможем больше держать
- Sentinel может работать не очень стабильно из-за сети
- Кластер подготовлен, остаётся только его использовать
Алертинг продуктовых фичей
- Отделить качество от доступности
- QA описали критичные фичи в Q2
- Алерты готовы, льются в боевой канал
- Пока не договорились кто будет на них реагировать
Доступность Q4 (октябрь)
Входящий: 97,11%📈
Исходящий: 72,62📉
- Таймауты Телефонии
- Ряд неудачных релизов смежников
- Некорректный VDN
- VoiceKit
- WebOffice
Попали в АнтиТоп недоступности
Доступность Q4 (ноябрь)
Входящий: 98,27%📈
Исходящий: 97,66%📈
- WebOffice
- Таймауты Телефонии
- Проблемы в процедурах
- Начали проводить LSR больше
- Фокус на AI и их отслеживание
- Изменение Incident Management
Доступность Q4 (декабрь)
Входящий: 98,48%📈
Исходящий: 98,57%📈
- WebOffice
- Телефония
- Процедуры
Итоги года(SRE Talkbot)
By tempestmon
Итоги года(SRE Talkbot)
- 107