LogoLogo

Louëdec, Jonathan. Stratégies de bandit pour les systèmes de recommandation

Louëdec, Jonathan (2016). Stratégies de bandit pour les systèmes de recommandation.

[img]PDF - nécessite un logiciel de visualisation PDF comme GSview, Xpdf or Adobe Acrobat Reader
1107Kb

Résumé en francais

Les systèmes de recommandation actuels ont besoin de recommander des objets pertinents aux utilisateurs (exploitation), mais pour cela ils doivent pouvoir également obtenir continuellement de nouvelles informations sur les objets et les utilisateurs encore peu connus (exploration). Il s'agit du dilemme exploration/exploitation. Un tel environnement s'inscrit dans le cadre de ce que l'on appelle " apprentissage par renforcement ". Dans la littérature statistique, les stratégies de bandit sont connues pour offrir des solutions à ce dilemme. Les contributions de cette thèse multidisciplinaire adaptent ces stratégies pour appréhender certaines problématiques des systèmes de recommandation, telles que la recommandation de plusieurs objets simultanément, la prise en compte du vieillissement de la popularité d'un objet ou encore la recommandation en temps réel.

Sous la direction du :
Directeur de thèse
Chevalier, Max
Garivier, Aurélien
Mothe, Josiane
Ecole doctorale:Mathématiques, informatique, télécommunications de Toulouse (MITT)
laboratoire/Unité de recherche :Institut de Recherche en Informatique de Toulouse (IRIT), UMR 5505 ; Institut de Mathématiques de Toulouse (IMT), UMR 5219
Mots-clés libres :Stratégies de bandit - Apprentissage en temps réel - Systèmes de recommandation - Recherche d'information
Sujets :Informatique
Déposé le :10 Apr 2017 09:36