LogoLogo

Mousset, Paul. Modèles neuronaux pour la représentation et l'appariement d'objets géotextuels

Mousset, Paul (2020). Modèles neuronaux pour la représentation et l'appariement d'objets géotextuels.

[img]
Preview
PDF - nécessite un logiciel de visualisation PDF comme GSview, Xpdf or Adobe Acrobat Reader
3553Kb

Résumé en francais

Stimulée par l'usage intensif des téléphones mobiles, l'exploitation conjointe des données textuelles et des données spatiales présentes dans les objets géotextuels (p. ex. tweets, photos Flickr, critiques de points d'intérêt) est devenue la pierre angulaire à de nombreuses applications utilisées quotidiennement, telles que la gestion de crise, l'assistance touristique ou la recommandation de points d'intérêts (POIs). Du point de vue scientifique, ces tâches reposent de façon critique sur la représentation d'objets spatiaux et la définition de fonctions d'appariement entre ces objets. Dans de précédents travaux, ce problème a principalement été traité au moyen de modèles linguistiques qui reposent sur une estimation coûteuse de probabilité de la pertinence des mots dans les régions spatiales. Cependant, ces approches traditionnelles se sont révélées peu efficaces face aux textes issus des réseaux sociaux. En effet, ces derniers sont généralement de courte longueur, utilisent des mots non conventionnels ou ambiguës et peuvent difficilement être mis en correspondance avec d'autres documents, notamment à cause de l'inadéquation du vocabulaire. De fait, les approches proposées jusqu'à présent conduisent généralement à de faibles taux de rappel et de précision. Les travaux réalisés dans cette thèse s'inscrivent dans ce contexte et visent à réduire la discordance de vocabulaire dans les représentations et l'appariement de tweets géotaggés et de POIs. Nous proposons ainsi de tirer parti des contextes géographiques et de la sémantique distributionnelle pour résoudre la tâche de prédiction sémantique de l'emplacement. Notre travail se compose de deux principales contributions : (1) améliorer les plongements lexicaux pouvant être combinés pour construire des représentations d'objets, grâce aux répartitions spatiales des mots ; (2) exploiter les réseaux de neurones profonds pour réaliser un appariement sémantique de tweets avec des POIs. Concernant l'amélioration des représentations de textes, nous proposons une approche de régularisation a posteriori qui intègre l'information spatiale dans l'apprentissage des plongements lexicaux. L'objectif sous-jacent est de révéler d'éventuelles relations sémantiques locales entre les mots, ainsi que la multiplicité des sens d'un même mot. Pour déceler les spécificités locales des différents sens d'un mot, nous proposons deux solutions, l'une s'appuyant sur une technique de partitionnement spatial, via l'algorithme des k-moyennes, l'autre sur un partitionnement probabiliste à l'aide d'estimation de densités (KDE). Les plongements lexicaux sont ensuite corrigés à l'aide d'une fonction de régularisation qui intègre les répartitions spatiales pour déterminer les relations sémantiques locales entre les mots. Concernant l'utilisation des réseaux de neurones profonds pour la tâche de prédiction sémantique de l'emplacement, nous proposons un modèle neuronal axé sur l'interaction, conçus pour l'appariement de paires de tweet-POI. Contrairement aux architectures existantes, notre approche s'appuie sur un apprentissage conjoint des interactions locales et globales entre les paires tweet-POI. Dans notre modèle, les signaux d'appariement exact des interactions locales mot à mot, corrigés par un facteur d'amortissement spatial, sont traités à l'aide d'histogrammes d'appariement. Les interactions locales permettent de révéler des motifs de similarités de paires de mots guidés par l'information spatiale. Les interactions globales considèrent quant à elles, la force de l'interaction entre le tweet et le POI à la fois du point de vue spatial, à travers une distance géographique entre les objets géotextuels, et du point de vue sémantique via une proximité sémantique de leur représentation latente. L'ensemble de nos contributions ont fait l'objet d'évaluations expérimentales sur des tâches dédiées à évaluer à la fois la qualité des représentations des objets géotextuels, et l'efficacité de leur utilisation en recherche d'information.

Sous la direction du :
Directeur de thèse
Tamine, Lynda
Pitarch, Yoann
Ecole doctorale:Mathématiques, informatique, télécommunications de Toulouse (MITT)
laboratoire/Unité de recherche :Institut de Recherche en Informatique de Toulouse (IRIT), UMR 5505
Mots-clés libres :Réseau de neurones - Géotexte - Recherche d'information
Sujets :Informatique
Déposé le :16 Oct 2020 11:17