Академия Яндекса: Дзен-митап: Анализ рекомендаций до/без А/Б тестов - видео HD
00:27:55
Академия Яндекса: разработка 366 роликов
1600 просмотров
Дзен-митап: Анализ рекомендаций до/без А/Б тестов - видео.
Спикер: Ильдар Сафило, МТС
В докладе говорим о том, как принимаются решения о выкатке новой фичи с рекомендательными системами в А/Б тест. А также о том, как визуально и качественно оценивать работу моделей, и в каких задачах это все может пригодиться.
В докладе говорим о том, как принимаются решения о выкатке новой фичи с рекомендательными системами в А/Б тест. А также о том, как визуально и качественно оценивать работу моделей, и в каких задачах это все может пригодиться.
развернуть свернуть
0:28 — О себе
1:00 — План доклада
1:36 — Почему А/Б тесты долгие и что с этим делать?
1:43 — Метрики для рекомендаций в различных доменах
2:08 — Проблема: Быстрые/долгие метрики
2:58 — Проблема: Различные группы пользователей («горячие», «теплые» и «холодные» пользователи)
3:31 — Проблема: Эффект новизны
4:11 — Резюме по проблемам
4:29 — Методы решения проблем
5:28 — Оценка моделей А/Б тестов в оффлайне. Исследователи в бою
6:21 — Оценка моделей А/Б тестов в оффлайне. Осторожные исследователи
7:53 — Beyond Accuracy метрики
8:15 — Разнообразие и новизна (Diversity & Novelty)
8:50 — Общее разнообразие (Aggregate diversity)
9:08 — Коэффициент Gini
9:22 — Разнообразие внутри полки (Intra-List Diversity)
9:41 — «Персональность» рекомендаций (Intra-User Diversity)
9:53 — Глобальная новизна (Mean Inverse User Frequency)
10:17 — Персональная новизна (Unexpectedness)
10:26 — Почему так важны Beyond Accuracy метрики?
11:10 — Как увеличить разнообразие с помочью DPP? (YouTube case: )
13:18 — Экспертные группы и аватары. Качественная оценка. Визуальный анализ. Аватары/Персоны. Как проводить визуальный анализ? Как использовать результаты?
16:09 — Учет бизнес-логики перед выкаткой в А/Б.
17:02 — Пример перехода от I2I к U2I с учетом хотелок бизнеса
19:22 — Пример рекомендации фильмов в полке рекомендуемое
19:50 — Пример задач, где тестируется совсем новая функциональность. Кросс-доменные рекомендации
25:31 — Итог
27:30 — Полезные ссылки