Оффлайн-тесты рекомендательных моделей

Оффлайн-тестирование рекомендаций — это способ оценить модель или логику рекомендаций на исторических данных, без запуска в продакшене.

Пример сценария

Допустим, вы в Spotify. У вас есть гипотеза:

Если мы усилим вес новых треков в миксе Discover Weekly, пользователи будут открывать больше новых артистов.

Вариант A: запустить A/B и рисковать UX 😬 — дорого, долго, и может всё испортить.

Вариант B: оффлайн-симуляция 🤓 — тестируем на исторических пользовательских действиях.

Вам нужны логи пользовательского поведения:

Это и есть ваша «земля» — на ней будет играть симуляция.

Вы моделируете альтернативную логику рекомендаций:

Прогоняете её на прошлом поведении:

→ Что бы модель рекомендовала пользователю X 10 апреля?
→ А он на самом деле выбрал что?

Сравниваете, насколько альтернативная модель могла бы:

лучше угадать, что человек послушал (точность, hit rate, MRR);
предложить более разнообразный контент (diversity, novelty);
увеличить вовлечённость (например, послушал бы больше минут, больше артистов).

Новая модель с 15% новинок даёт +8% diversity и +4% coverage, но –3% по точности.

→ Значит, возможно, вылетает релевантность — стоит балансировать.
→ Или идти в прод уже на A/B, но с фильтрами/таргетом.

Можно создавать агентов, которые имитируют поведение пользователей: