БОЛТАЛКА
Online - RL
response
new_state
R = KAIF + CRINGE + CONTEXT
Online - RL
- улучшили дистилляцию продовой модельки в питюн
(причем так, что корзине у нее качество выше чем у продовой)
- Запускаем AB эксперименты с online-RL
- Подготовлены свежие модели награды (см. далее)
- Начали добавлять возможность использовать
внешнюю инфу в схеме с RLем
Сессионные метрики (aka reward)
- новая метрика контекстов + кубик
- обновлены кайфули и кринжули
- обновлен кубик для АБ экспов
(теперь подходит для любых таблиц)
- новый пул для реранкера, размеченный толокерами
(туда отправлены "хорошие" сессии)
Модель награды через попарные сравнения
My English is bad i ogorcheniy
- Сравнили модели BB3 и BB1
(BB3 > BB1)
* Blender Bot
- Рассмотрели два пути цап-царапнуть BB3:
- зелибобизация
- обучение модели у нас на данных ВВ3
- Перевели логи Алисы на англичанский
Зелибобик захватывает Алису
(как было раньше)
CatBoost
(all other dudes)
Зелибобик захватывает Алису
(all other dudes)
(как будет теперь)
CatBoost
Зелибобик
WoZ
- Собралось 10k диалогов WoZ
- 2.1T0v5 хорошо обучается на этом датасете, научилась разговаривать с пользователем, учтывая его профиль
deck
By cydoroga
deck
- 325