LogoLogo

Kompaoré, Nongdo Désiré. Fusion de systèmes et analyse des caractéristiques linguistiques des requêtes : vers un processus de RI adaptatif

Kompaoré, Nongdo Désiré (2008). Fusion de systèmes et analyse des caractéristiques linguistiques des requêtes : vers un processus de RI adaptatif.

[img]PDF - nécessite un logiciel de visualisation PDF comme GSview, Xpdf or Adobe Acrobat Reader
4Mb

Résumé en francais

La recherche d'information (RI) est un domaine de recherche qui est de plus en plus visible, surtout avec la profusion de données (textes, images, vidéos, etc) sur Internet. Nous nous intéressons dans cette thèse à la RI à partir de documents textuels non structurés. Trois éléments sont essentiels dans un processus de RI : un besoin d'information (généralement exprimé sous la forme d’une requête), un système de recherche d'information (SRI), et une collection de documents. Ainsi, la requête est soumise au SRI qui recherche dans la collection les documents les plus pertinents pour la requête. La variabilité relative à l'expression de la requête, la relation entre la requête et les documents, ainsi que celle liée aux caractéristiques des SRI utilisés conduisent à des variabilités dans les réponses obtenues (Buckley et al., 2004). Ainsi, le système A peut être très performant pour une requête donnée et être très médiocre pour une autre requête, alors que le système B conduira à des résultats inversés. Notre thèse se situe dans ce contexte. Notre objectif est de proposer des méthodes de recherche pouvant s'intégrer dans un modèle de recherche capable de s'adapter à différents contextes. Nous considérons par exemple que les caractéristiques linguistiques (CL) des requêtes, les performances locales des systèmes ainsi que leurs caractéristiques sont des éléments définissant différents contextes. Nous proposons plusieurs processus afin d'atteindre cet objectif. D'une part, nous utilisons un profil linguistique des requêtes (Mothe et Tanguy, 2005) qui nous permet d'établir une classification des requêtes à base de leurs CL. Nous utilisons à cet effet des techniques statistiques d'analyse de données telles que la classification ascendante hiérarchique (CAH) et les k-means. Les requêtes ne sont plus alors considérées de manière isolée, mais sont vues comme des groupes possédant des CL similaires. L'hypothèse sous-jacente que nous faisons est qu'il existe des contextes dans lesquels certains SRI sont plus adaptés que d'autres. Nous étudions alors les performances des systèmes sur les classes de requêtes obtenues (contextes). Nous proposons quatre méthodes de fusion afin de combiner les résultats obtenus pour une requête donnée, par différents SRI. Une série d'expérimentations valide nos propositions. L'ensemble de ces travaux s'appuie sur l'évaluation au travers des campagnes d'évaluation de TREC.

Sous la direction du :
Directeur de thèse
Mothe, Josiane
Ecole doctorale:Mathématiques, informatique, télécommunications de Toulouse (MITT)
laboratoire/Unité de recherche :Institut de Recherche en Informatique de Toulouse (IRIT), UMR 5505
Mots-clés libres :Recherche d’information - fusion de données - classification de requêtes - caractérisation linguistique - analyse canonique
Sujets :Informatique
Déposé le :09 Jan 2009 15:37