LogoLogo

Laitang, Cyril. Impact de la structure des documents XML sur le processus d'appariement dans le contexte de la recherche d'information semi-structurée

Laitang, Cyril (2013). Impact de la structure des documents XML sur le processus d'appariement dans le contexte de la recherche d'information semi-structurée.

[img]PDF - nécessite un logiciel de visualisation PDF comme GSview, Xpdf or Adobe Acrobat Reader
3744Kb

Résumé en francais

Nos travaux s'inscrivent dans le cadre de la recherche d'information sur documents semi-structurésde type XML. La recherche d'information structurée (RIS) a pour objectif de retourner des granules documentaires précis répondant aux besoins d'information exprimés par l'utilisateur au travers de requêtes. Ces requêtes permettent de spécifier, en plus des conditions de contenu, des contraintes structurelles sur la localisation de l'information recherchée. L'objectif de nos travaux est d'étudier l'apport de la structure des documents dans le processus d'appariement documents-requêtes. Puisque les contraintes structurelles des requêtes peuvent être représentées sous la forme d'un arbre et que, parallèlement, la structure du document, de nature hiérarchique, peut elle-même utiliser le même type de représentation, nous avons proposé plusieurs modèles de mesure de la similarité entre ces deux structures. La mesure de la similarité entre deux structures arborescentes ayant été étudiée par le domaine de la théorie des graphes, nous avons tout d'abord cherché à adapter les algorithmes de ce domaine à notre problématique. Suite à une étude approfondie de ces algorithmes au regard de la RIS, notre choix s'est porté sur la distance d'édition entre arbres (Tree Edit Distance - TED). Cet algorithme permet, au travers de l'application récursive de séquences de suppression et de substitution, de mesurer le degré d'isomorphisme (le degré de similarité) entre deux arbres. Constatant que ces algorithmes sont coûteux en mémoire et en calcul, nous avons cherché à en réduire la complexité et le temps d'exécution au travers d'approches de résumé et de la mise en place d'un algorithme de TED au coût de complexité plus bas. Etant donné que la TED est normalement utilisée avec des coûts d'opération fixes peut adaptés à notre problématique, nous en avons également proposé de nouveaux basés sur la distance dans le graphe formé par la grammaire des documents : la DTD. Notre deuxième proposition se base sur les Modèles de Langue. En recherche d'information, ces derniers sont utilisés afin de mesurer la pertinence au travers de la probabilité qu'un terme de la requête soit généré par un document. Nous avons utilisés les Modèles de Langue pour mesurer, non pas la probabilité de pertinence du contenu, mais celle de la structure. Afin de former un vocabulaire document et requête à même d'être utilisé par notre modèle de langue structurel nous avons utilisé une technique de relaxation pondérée (la relaxation est le relâchement des contraintes). Nous avons également proposé une méthode pour apparier le contenu des documents et celui des requêtes. L'appariement seul des structures étant insuffisant dans une problématique de recherche d'information : la pertinence d'un granule documentaire est jugée en priorité sur la pertinence de l'information textuelle qu'il contient. De ce fait, nous avons proposé une approche de mesure de la pertinence de ce contenu. Notre méthode utilise la structure de l'arbre afin d'opérer une propagation de la pertinence du texte en prenant en compte l'environnement des éléments traversés ainsi que le contexte global du document. Nos différents modèles ont été expérimentés sur deux tâches de la campagne d'évaluation de référence de notre domaine : Initiative for XML Retrieval. Cette campagne a pour but de permettre l'évaluation de systèmes de recherche d'information XML dans un cadre normalisée et comporte plusieurs tâches fournissant des corpus, des mesures d'évaluation, des requêtes, et des jugements de pertinence. Nous avons à ce propos participé à cette campagne en 2011.Pour nos expérimentations, les tâches que nous avons choisi d'utiliser sont : * La tâche SSCAS d'INEX 2005 qui utilise une collection d'articles scientifiques d'IEEE. Cette collection est orientée texte dans la mesure où la structure exprimée dans les documents qu'elle contient est similaire à celle d'un livre (paragraphe, sections). * La tâche Datacentric d'INEX 2010 dont la collection est extraite d'IMDB. Cette collection est orientée données dans la mesure où les termes des documents sont très spécifiques et peu redondants et que la structure est porteuse de sens. Nos différentes expérimentations nous ont permis de montrer que le choix de la méthode d'appariement dépend de la collection considérée. Dans le cadre d'une collection orienté texte, la structure peut être prise en compte de manière non stricte et plusieurs sous-arbres extraits du document peuvent être utilisés simultanément pour évaluer la similarité structurelle. Inversement, dans le cadre d'une collection orientée donnée, la prise en compte stricte de la structure est nécessaire. Etant donné que les éléments recherchés portent une sémantique, il est alors important de détecter quelle partie du document est à priori pertinente. La structure à apparier doit être la plus précise et minimale possible. Enfin, nos approches de mesures de la similarité structurelle se sont montrées performantes et ont amélioré la pertinence des résultats retournés par rapport à l'état de l'art, à partir du moment où la nature de la collection a été prise en compte dans la sélection des arbres structurels en entrée.

Sous la direction du :
Directeur de thèse
Boughanem, Mohand
Pinel-Sauvagnat, Karen
Ecole doctorale:Mathématiques, informatique, télécommunications de Toulouse (MITT)
laboratoire/Unité de recherche :Institut de Recherche en Informatique de Toulouse (IRIT), UMR 5505
Mots-clés libres :XML - Recherche d'information semi-structurée - Distance d'édition d'arbres - Modèles de langue - DTD
Sujets :Informatique
Déposé le :03 Feb 2014 14:16