LogoLogo

Mbarki, Mohamed. Gestion de l'hétérogénéité documentaire : le cas d'un entrepôt de documents multimédia

Mbarki, Mohamed (2008). Gestion de l'hétérogénéité documentaire : le cas d'un entrepôt de documents multimédia.

[img]PDF - nécessite un logiciel de visualisation PDF comme GSview, Xpdf or Adobe Acrobat Reader
5Mb

Résumé en francais

La société de la connaissance est basée sur trois axes : la diffusion et l'usage de l'information via les nouvelles technologies, la déduction des connaissances induites par cette information et les impacts économiques qui peuvent en découler. Proposer aux acteurs et plus particulièrement aux "décideurs" de cette société des outils qui leur permettent d'élaborer de la "connaissance" ou du moins des "éléments de connaissance" à partir de l'information disponible semblent être assez difficile à assurer. Cette difficulté est due au dynamisme de l'environnement et la diversité des facteurs influençant la production, l'extraction et la communication des informations. En effet, ces informations sont englobées dans des documents qui sont collectés à partir des sources disséminées (Internet, Workflow, bibliothèques numériques, etc.). Ces documents sont ainsi hétérogènes sur le fond et sur la forme (ils peuvent concerner des domaines divers, sont plus ou moins structurés, peuvent être liés à des structures diverses, contiennent plusieurs type de média, sont stockés dans plusieurs type de supports, etc.). Les défis actuels sont de concevoir de nouvelles applications pour exploiter cette grande masse de documents très hétérogènes. Les travaux présentés dans cette thèse, visent à faire face à ces défis et notamment à proposer des solutions permettant de "gérer et créer de la connaissance" à partir de l'intégration de toute l'information disponible sur les documents hétérogènes. La manipulation des entrepôts de documents multimédia constitue le cadre applicatif de nos propositions. Notre approche s'articuler autour de trois axes complémentaires : (1) la représentation, (2) le stockage (ou l'intégration) et (3) l'exploitation des documents hétérogènes. La représentation des documents concerne la détermination des informations à conserver et la façon selon laquelle elles doivent être organisées pour mieux appréhender et prévoir leurs usages. La solution que nous avons choisie pour répondre à ces besoins se base sur la proposition d'un modèle qui intègre plusieurs niveaux de description imbriqués et complémentaires (une couche générique et une couche spécifique, une description logique et une description sémantique). Afin de gérer des documents hétérogènes, il faut pouvoir les stocker dans l'entrepôt selon le modèle proposé. Nous élaborons ainsi un processus d'intégration qui permet de définir des méthodes d'extraction de structures des documents à intégrer, de vérifier l'existence de structures identiques ou de structures approchantes dans l'entrepôt (comparaison de structures et classification automatique), d'offrir la possibilité de définir des règles de transformation des structures (classification dirigée), de proposer librement la composition de nouvelles structures et d'insérer les contenus de documents. Pour assurer l'exploitation des documents intégrés, nous proposons des outils permettant de manipuler aussi bien la structure que le contenu (accès sémantique) par le biais de deux techniques complémentaires : (1) la recherche d'information documentaire qui permet de trouver des granules documentaires ou des documents entiers selon des critères de recherches bien spécifiques. (2) L'analyse multidimensionnelle qui consiste à visualiser les informations documentaires de l'entrepôt selon plusieurs dimensions. La validation de nos propositions se base sur la réalisation d'un outil de gestion d'entrepôt de documents multimédia intitulé MDOCREP (Multimedia DOCument REPository). Ce prototype permet de gérer des entrepôts de documents multimédia en assurant notamment l'intégration, la classification, l'interrogation et la visualisation multidimensionnelles des documents. La fiabilité du notre approche et la performance de ce prototype ont été validées à travers l'utilisation d'un corpus formé par des documents hétérogènes extraits de sources diverses et qui ne sont pas associés à un domaine particulier.

Sous la direction du :
Directeur de thèse
Soulé-Dupuy, Chantal
Vallès-Parlangeau, Nathalie
Ecole doctorale:Mathématiques, informatique, télécommunications de Toulouse (MITT)
laboratoire/Unité de recherche :Institut de Recherche en Informatique de Toulouse (IRIT), UMR 5505
Mots-clés libres :Hétérogénéité documentaire - entrepôt - modélisation - extraction de structure - classification - comparaison de structures - adaptation de structures - intégration de structure - intégration de contenu - exploitation - recherche documentaire - analyse multidimensionnelle
Sujets :Informatique
Déposé le :02 Jul 2008 17:45