БОЛТАЛКА

Online - RL

response
new_state
R = KAIF + CRINGE + CONTEXT

Online - RL

  • улучшили дистилляцию продовой модельки в питюн
    (причем так, что корзине у нее качество выше чем у продовой)
     
  • Запускаем AB эксперименты с online-RL
     
  • Подготовлены свежие модели награды (см. далее)
     
  • Начали добавлять возможность использовать
    внешнюю инфу в схеме с RLем

Сессионные метрики (aka reward)

  • новая метрика контекстов + кубик

     
  • обновлены кайфули и кринжули

     
  • обновлен кубик для АБ экспов
    (теперь подходит для любых таблиц)
     
  • новый пул для реранкера, размеченный толокерами
    (туда отправлены "хорошие" сессии)

Модель награды через попарные сравнения

My English is bad i ogorcheniy

  • Сравнили модели BB3 и BB1
    (BB3 > BB1)
    * Blender Bot
     
  • Рассмотрели два пути цап-царапнуть BB3:
    • зелибобизация
    • обучение модели у нас на данных ВВ3
       
  • Перевели логи Алисы на англичанский

Зелибобик захватывает Алису

(как было раньше)

CatBoost
(all other dudes)

Зелибобик захватывает Алису

(all other dudes)

(как будет теперь)

CatBoost
Зелибобик

WoZ

  • Собралось 10k диалогов WoZ
     
  • 2.1T0v5 хорошо обучается на этом датасете, научилась разговаривать с пользователем, учтывая его профиль
Made with Slides.com