LogoLogo

Belbachir, Faiza. Approches basées sur les modèles de langue pour la recherche d'opinions

Belbachir, Faiza (2014). Approches basées sur les modèles de langue pour la recherche d'opinions.

[img]PDF (Accès restreint. S'adresser à l'accueil de la BU Sciences de Toulouse) - Accès intranet - nécessite un logiciel de visualisation PDF comme GSview, Xpdf or Adobe Acrobat Reader
2320Kb

Résumé en francais

Avec l'évolution du Web, de nombreuses formes de contenu ont été générées par les utilisateurs, y compris les pages personnelles, les discussions et les blogs. Ces derniers sont un moyen facile pour l'expression des avis personnels, le partage des sentiments, ou pour commenter différents sujets. La présence d'information de nature subjective (opinion) apparaît de manière très visible dans les blogs. Ces opinions ont une grande importance dans plusieurs domaines (politique, commercial, ou industriel) d'où la nécessité de les détecter automatiquement. Nos travaux de thèse s'inscrivent dans le contexte de la recherche d'information et s'intéressent plus précisément à l'information de type opinion. Le challenge majeur dans ce cadre est d'arriver à sélectionner des documents qui sont à la fois pertinents à un sujet donné et porteurs d'opinions sur ce sujet. Si la recherche d'information thématique, permet de répondre au critère de pertinence, une des problématiques majeure de cette tâche est de répondre au second critère. En effet outre la question relative à l'identification de documents porteurs d'opinions (nous parlons ainsi de documents subjectifs) ; il faudrait que l'opinion exprimée dans le document porte sur le sujet. Ceci n'est évidemment pas certain car un document peut traiter différents sujets. Parmi les différentes approches existantes dans la détection d'opinion, certaines se basent sur des lexiques de termes subjectifs et d'autres sur l'apprentissage automatique. Dans le cadre de cette thèse nous nous sommes intéressés aux deux types d'approches en palliant certaines de leurs limites. Notre contribution porte sur trois principaux volets. En premier lieu nous proposons une approche lexicale pour la détection d'opinion dans les blogs. Pour ce faire, nous exploitons différentes ressources subjectives, ouvertes, disponibles telles que IMDb, ROTTEN, CHESLY et MPQA qui constituent la source d'opinions. Nous supposons que si un document est similaire à cette source, il est vraisemblablement porteur d'opinions. Pour estimer cette vraisemblance, nous proposons de modéliser le document à tester et la source d'opinion par des modèles de langue et de mesurer la similarité des deux modèles. Plus cette similarité est grande et plus le document est vraisemblablement subjectif. Notre deuxième contribution porte sur la proposition d'une approche de détection d'opinion basée sur l'apprentissage automatique. Pour cela, nous proposons différentes caractéristiques pertinentes telles que l'Émotivité, la Subjectivité, L'Adressage, La Réflexivité permettant de répondre à la tâche en question. Notre troisième contribution concerne la polarité de l'opinion qui consiste à déterminer si un document subjectif a une opinion positive ou négative sur le sujet. De ce fait, nous proposons de prendre en compte un aspect du domaine, permettant de montrer que la polarité d'un terme peut dépendre du domaine dans lequel il est utilisé

Sous la direction du :
Directeur de thèse
Boughanem, Mohand
Ecole doctorale:Mathématiques, informatique, télécommunications de Toulouse (MITT)
laboratoire/Unité de recherche :Institut de Recherche en Informatique de Toulouse (IRIT), UMR 5505
Mots-clés libres :Recherche d'information - Détection d'opinions - Détection de polarité - Modèles de langue
Sujets :Informatique
Déposé le :14 Oct 2014 16:17