LogoLogo

Hlaoua, Lobna. Reformulation de requêtes par réinjection de pertinence dans les documents semi-structurés

Hlaoua, Lobna (2007). Reformulation de requêtes par réinjection de pertinence dans les documents semi-structurés.

[img]PDF - nécessite un logiciel de visualisation PDF comme GSview, Xpdf or Adobe Acrobat Reader
1939Kb

Résumé en francais

Les travaux de cette thèse s'intéressent à la reformulation de requêtes par réinjection de pertinence dans les documents semi-structurés de type XML, en utilisant différentes sources d'évidences (le contenu et la structure). Nous proposons de réinjecter les termes pertinents sélectionnés selon leur distribution dans les éléments pertinents et non pertinents ainsi que leur proximité vis-à-vis des termes de la requête initiale. Nous avons appliqué la réinjection de la pertinence négative en introduisant le facteur bruit pour la sélection des termes pertinents. Une autre source d'évidence que nous avons aussi utilisée est l'information structurelle. Nous traduisons ainsi la notion de structure pertinente, dont l'existence est prouvée grâce à une étude empirique. Nous proposons l'algorithme Smallest Common Ancestor (SCA) pour l'extraction des structures pertinentes dans des collections homogènes. Nous proposons aussi un processus permettant d'extraire des structures pertinentes dans le cas des collections hétérogènes. Nous proposons également de faire cohabiter les deux sources d'évidence (contenu et structure) dans une approche combinée. Nous proposons trois méthodes de combinaison : combinaison "naïve", combinaison avec dépendance contextuelle et combinaison flexible. Quelle que soit l'approche proposée, la réécriture de la requête est formalisée selon une grammaire. L'ensemble de ces méthodes a été appliqué pour les deux types de requêtes structurées et non structurées. Les résultats montrent l'intérêt des deux approches proposées (réinjection de contenu et réinjection de structures), la combinaison des deux sources d'évidence permet également d'améliorer les performances.

Sous la direction du :
Directeur de thèse
Boughanem, Mohand
Ecole doctorale:Mathématiques, informatique, télécommunications de Toulouse (MITT)
laboratoire/Unité de recherche :Institut de Recherche en Informatique de Toulouse (IRIT), UMR 5505
Mots-clés libres :Réinjection de pertinence - Recherche d'Information Structurée - XML - termes pertinents - structure pertinente - combinaison de sources d'évidence
Sujets :Informatique
Déposé le :02 Sep 2008 12:04