LogoLogo

Le Blouch, Olivier. Décodage acoustico-phonétique et applications à l'indexation audio automatique

Le Blouch, Olivier (2009) Décodage acoustico-phonétique et applications à l'indexation audio automatique.

[img]PDF - nécessite un logiciel de visualisation PDF comme GSview, Xpdf or Adobe Acrobat Reader
1717Kb

Résumé en francais

Aujourd'hui, la quantité de documents audio numériques disponibles ne cesse de croître et le traitement automatique de ces données potentiellement très hétérogènes devient primordial. Dans cette thèse, nous étudions la faisabilité d'applications d'indexation automatique robustes des documents parlés basée sur un moteur de décodage acoustico-phonétique de la parole (DAP). Le DAP permet de transcrire automatiquement un signal de parole en phonèmes, unités plus petites que les mots mais permettant potentiellement de conserver l'intelligibilité du discours. Nous mettons en évidence, dans un premier temps, l'intérêt d'intégrer l'information syllabique dans un système de DAP. Ce moteur, basé sur une modélisation originale des syllabes, est évalué sur le corpus de test de la campagne ESTER. La seconde partie de notre étude s'articule autour d'un moteur de détection de mots-clés basé sur le flux phonétique issu de notre DAP. Nous proposons un système simple, rapide, et robuste aux fausses alarmes, s'affranchissant d'un calcul classique du critère de maximum de vraisemblance. Nous introduisons pour cela des méthodes adaptées de gestion des erreurs de phonétisation, des phénomènes de coarticulation et de filtrage des fausses alarmes. Nous proposons en particulier des techniques d'expansion phonétique par utilisation de grammaires. Le système est évalué tout au long de cette étude par la détection de noms de pays dans le corpus de test ESTER. Nous présentons pour terminer le système complet actuellement implémenté et intégré dans la plateforme de démonstration de Orange Labs dédiée à la recherche et à la navigation dans les contenus.

Sous la direction du :
Directeur de thèse
André-Obrecht, Régine
Collen, Patrice
Ecole doctorale:Mathématiques, informatique, télécommunications de Toulouse (MITT)
laboratoire/Unité de recherche :Institut de Recherche en Informatique de Toulouse (IRIT), UMR 5505
Mots-clés libres :Décodage phonétique - Expansion phonétique - Indexation audio - Grammaire - Reconnaissance vocale - Recherche documentaire - Détection de mots-clés - Syllabe
Sujets :Informatique
Déposé le :19 Feb 2010 14:14