Российские ученые представили наилучшую версию популярного рекомендательного алгоритма BPR — Игнатий Цукергохер

Российские ученые представили наилучшую версию популярного рекомендательного алгоритма BPR

Ученые из лаборатории исследований искусственного интеллекта T-Bank AI Research повысили точность рекомендательных систем на 50%. Основой разработки стал один из самых популярных алгоритмов для подбора рекомендаций BPR (Bayesian Personalized Ranking).

Научная работа опубликована в открытом доступе и может быть использована российскими и иностранными разработчиками для оптимизации рекомендательных систем. Это поможет бизнесу улучшить свои метрики, в том числе конверсию и средний чек, за счет более точного попадания в интересы аудитории. Покупатели будут быстрее находить нужные им товары в интернет-магазинах, а пользователи соцсетей получат более персонализированный контент в лентах новостей и подписок.

Ученые провели более 15 000 экспериментов на внутренних данных Т-Банка с различными комбинациями параметров модели, чтобы найти наиболее эффективный вариант алгоритма. В общей сложности исследователи потратили более 200 000 GPU-часов на проведение экспериментов.

Открытие российских ученых признано международным научным сообществом и представлено на главной всемирной конференции по рекомендательным системам ACM RecSys, которая прошла с 14 по 18 октября в Бари, Италия. В мероприятии принимают участие лучшие эксперты и исследователи рекомендательных систем, а к презентации работ в этом году допустили только 17% заявителей.

Суть открытия

В рекомендательных системах существует проблема, с которой часто сталкиваются разработчики: одна модель может иметь множество различных имплементаций, то есть вариантов того, как этот алгоритм можно запрограммировать и использовать на практике. Алгоритм BPR — один из самых популярных среди исследователей более чем с 7 000 упоминаний в научных статьях по рекомендательным системам. При создании рекомендательной модели на основе BPR исследователь или инженер машинного обучения может найти десятки различных вариантов этого алгоритма в открытых источниках. Эти версии разрабатываются независимо друг от друга и могут существенно различаться по своей эффективности. 

В ходе экспериментов ученые из научно-исследовательской лаборатории T-Bank AI Research выявили, что новая версия BPR с точно настроенными параметрами значительно превосходит находящиеся в открытом доступе варианты алгоритма по качеству рекомендаций. В некоторых случаях улучшенная версия превысила другие модели почти на 50% по точности, в частности, модель из популярного опенсорс-фреймворка RecBole.

Исследователи пересмотрели и доработали все компоненты модели, учитывая влияние каждого из них. В частности, обнаружили, что выбор регуляризации и отрицательной выборки имеет решающее значение для эффективности модели. А оптимизатор SGD, в свою очередь, является решающим фактором в достижении хороших результатов с помощью модели BPR, поскольку он тесно связан с процессом отрицательной выборки. Благодаря учету этих параметров удалось создать более эффективное решение на уровне state-of-the-art нейронных сетей — лучших моделей, которые можно использовать для достижения результатов в задаче.

На графике изображены результаты воспроизведения оригинального алгоритма в сравнении с моделями из разных опенсорс-фреймворков. Как видно из графика, модель, собранная исследователями Т-Банка, превосходит модели из большинства опенсорс-фреймворков.

Оптимизированная модель также статистически значимо обходит модель Mult-VAE — она точнее более чем на 10%. Mult-VAE — это модель для рекомендательных систем, основанная на нейронных сетях, разработанная исследователями из Netflix. Сравнение сделано по метрике NDCG@100 на Million Song Dataset — метрика позволяет оценить, насколько точно первые 100 рекомендаций, сделанные моделью, соответствуют интересам пользователя.

Подробное описание модели и результаты экспериментов доступны в статье Revisiting BPR: A Replicability Study of a Common Recommender System Baseline. Наилучшую опенсорс-имплементацию алгоритма BPR и дополнительные материалы можно найти на GitHub.

Лаборатория T-Bank AI Research

T-Bank Al Research — это одна из немногих российских лабораторий, которые занимаются фундаментальными научными исследованиями на базе бизнеса. Лаборатория входит в состав Центра искусственного интеллекта Т-Банка.

Ученые из T-Bank Al Research исследуют наиболее перспективные области ИИ: обработку естественного языка (NLP), компьютерное зрение (CV) и рекомендательные системы (RecSys). По результатам экспериментов они пишут научные статьи для наиболее авторитетных международных научных конференций: NeurIPS, ICML, ACL, CVPR и других.

За три года существования команды более 20 статей были приняты на крупнейшие конференции и воркшопы в области ИИ. Научные работы T-Bank Al Research цитируются учеными из университетов Беркли и Стэнфорда, а также исследовательского проекта Google по изучению искусственного интеллекта Google DeepMind.

Команда курирует исследовательские лаборатории T-Bank Lab в МФТИ и Omut AI в Центральном университете и помогает талантливым студентам совершать научные открытия.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *