LogoLogo

Ben Aouicha, Mohamed. Une approche algébrique pour la recherche d'information structurée

Ben Aouicha, Mohamed (2009). Une approche algébrique pour la recherche d'information structurée.

[img]PDF (Accès restreint. S'adresser à l'accueil de la BU Sciences de Toulouse) - Accès intranet - nécessite un logiciel de visualisation PDF comme GSview, Xpdf or Adobe Acrobat Reader
1402Kb

Résumé en francais

L'objectif principal d'un SRI classique est de retrouver les documents dont le contenu est conforme à une requête donnée. Dans cette optique, les documents sont représentés par un ensemble de mots-clés décrivant leurs contenus. La structure du document n'est pas prise en considération ni au niveau de la requête, ni au niveau de la réponse pour retourner les parties pertinentes : la réponse à une requête reste le document tout entier. Aujourd'hui, l'utilisation de l'information apportée par la structure devient une nécessité dans le domaine d'accès à l'information. Cette nécessité provient d'un type de document qui est très bien répandu sur Internet, utilisé comme un standard d'échange sur le Web : le langage XML (eXtensible Markup Langage) qui est utilisé comme format de données structurées sur le Web, et qui impose au SRI de retrouver des unités d'information qui ne sont pas nécessairement le document entier. L'appariement document/requête doit alors être réalisé d'une façon telle que les granules documentaires dont la structure présente de légères différences avec la structure de la requête reçoivent un score. Il peut également être vu comme l'inverse de l'effort nécessaire pour la construction incrémentale d'un arbre à partir d'un autre. Grâce à la flexibilité apportée par la phase d'indexation, nous avons défini un algorithme basé sur le principe de relaxation des requêtes, qui permet de comparer les arbres requête et documents et de retourner les sous arbres potentiellement pertinents. Selon les sous arbres retournés à chaque document, nous avons défini une fonction de ressemblance entre la requête et le document. Cette fonction est une agrégation du score provenant de la structure et celui provenant du contenu des documents XML traités. L'algorithme que nous proposons pour la comparaison d'arbres permet de localiser les sous arbres similaires à l'arbre représentant la requête. Ce premier appariement permet de fournir des scores orientés structure dans une échelle hautement graduée. En effet, l'extension que nous appliquons sur les représentations du document et de la requête et qui constituent le point de départ de notre algorithme de recherche augmentent la structure par des liens de descendance pondérés. L'algorithme de recherche de structures pertinentes est basé sur les valeurs de ses liens. Les structures sont plus pertinentes que les fragments sont plus larges, plus ramifiés et plus réels (si les poids des liens de descendance sont plus élevés). Le traitement du contenu est réalisé indépendamment de la structure. La séparation entre les deux types d'appariement permet de mesurer l'impact de chacun. Nous nous sommes basés sur les modélisations arborescentes des documents XML. Cette modélisation permet de façon naturelle de traiter la structure et le contenu d'un document XML d'une manière indépendante. L'objectif principal de notre méthode est de combiner l'information portée par la structure et celle portée par le contenu. On distingue dans la littérature deux principes courants, la plupart des modèles de RI utilisent la propagation des scores : on propage le score d'un noeud pertinent à une requête (en terme de contenu) à ses ancêtres. Les autres modèles se basent sur la propagation du contenu : au lieu de la propagation du score, on propage le contenu d'un noeud à un autre via les liens de descendance et on calcule son score indépendamment. Nous adoptons deux manières pour propager le texte d'un noeud feuille à ces ancêtres, la première se base sur la profondeur (le seul critère considéré dans la littérature), la deuxième se base sur la profondeur et la largeur (exprimé en fonction du nombre de fils) d'un document XML. Nous nous sommes basés sur la séparation entre le traitement du contenu et de la structure. Cette séparation nous a permis de tirer profit des techniques de comparaison d'arbres pour le traitement de la structure, et des techniques de recherche d'information pour traiter le contenu. D'autre part, elle nous a été bénéfique pour mesurer l'apport de chaque orientation de recherche. Par ailleurs, et dans des conditions réelles d'utilisation, la séparation entre le contenu et la structure permet une utilisation plus libérée du système, en effet l'utilisateur pourra orienter sa recherche vers le contenu ou la structure selon son besoin en information. Le traitement séparé du contenu et de la structure de chaque élément XML engendre deux scores : un score pour le contenu et un score pour la structure. Leur combinaison en un score définitif permet de les ordonner selon leur pertinence potentielle. Nous avons développé deux techniques pour la combinaison des scores : une technique basée sur une combinaison linéaire et une deuxième technique basée sur les distributions des scores. L'évaluation de notre modèle, grâce au prototype que nous avons développé, montre l'intérêt de nos propositions

Sous la direction du :
Directeur de thèse
Boughanem, Mohamed
Abid, Mohamed
Tmar, Mohamed
Ecole doctorale:Mathématiques, informatique, télécommunications de Toulouse (MITT)
laboratoire/Unité de recherche :Institut de Recherche en Informatique de Toulouse (IRIT), UMR 5505
Mots-clés libres :Recherche d'information - XML - Arbres étendus - Propagation de texte
Sujets :Informatique
Déposé le :12 Oct 2009 18:02