LogoLogo

Arias Aguilar, José Anibal. Méthodes spectrales pour le traitement automatique de documents audio

Arias Aguilar, José Anibal (2008). Méthodes spectrales pour le traitement automatique de documents audio.

[img]PDF - nécessite un logiciel de visualisation PDF comme GSview, Xpdf or Adobe Acrobat Reader
3783Kb

Résumé en francais

Plusieurs problèmes de traitement audio comprennent l'extraction de caractéristiques pertinentes à partir des ensembles de paramètres 'bruts'. Une étape de ce ré-traitement peut être la réduction de la dimensionalité des données tandis que l'on préserve les signatures informatives qui par exemple, différencient les phonèmes de la parole ou identifient les tons d'un instrument de musique. Si la variabilité acoustique est décrite par un ensemble réduit de caractéristiques, on peut imaginer que les données font partie d'une variété de faible imensionalité emboîtée dans un espace de haute dimension. Ces représentations peuvent fournir des informations utiles sur la nature et l'organisation des données et être exploitées en tâches de classification ou regroupement.Dans notre première contribution nous faisons une analyse des signaux acoustiques à l'aide des méthodes spectrales de réduction de la dimensionalité. Nous décrivons l'utilisation de ces méthodes avec l'information acoustique en entrée (séquences de paramètres cepstraux) et nous examinons les projections obtenues. Nous étudions la dimensionalité intrinsèque des vecteurs ainsi que la variance originale retenue dans les composantes principales de leurs représentations de faible dimensionalité. Grâce à la disponibilité de l'étiquetage phonétique du corpus OGI, nous analysons aussi la distribution des principales classes phonétiques dans les projections.Dans notre seconde contribution, nous appliquons la théorie du regroupement spectral aux séquences audio. Pour faire cela, nous définissons une nouvelle mesure de similarité, fondée sur la distance euclidienne et la proximité temporelle entre vecteurs. Cette métrique est utile pour adapter les matrices classiques du regroupement spectral aux séquences de vecteurs. Un des résultats de cette modification est la détection de variations abruptes de la séquence d'entrée, ce qui permet de définir une segmentation temporelle sur le signal. Ensuite, nous traitons les segments résultants à l'aide du Kernel PCA pour les étiqueter avec le nom de la classe phonétique la plus proche selon leur énergie : silence, consonne ou voyelle.Nous proposons enfin une démarche permettant de transformer des séquences audio de longueur variable en vecteurs de taille fixe. Cette transformation nous permet d'explorer les contenus des bases de données acoustiques. D'abord, on modélise les paramètres cepstraux de chaque séquence de la base de données par un GMM, ensuite, on fait l'estimation de la divergence symétrique de Kullback-Leibler entre deux GMM à l'aide d'un échantillonage de Monte-Carlo. Ces dissimilarités statistiques sont utilisées comme entrées de l'algorithme d'échelle multidimensionnelle (MDS), qui produit un système de représentation de faible dimensionalité pour chaque GMM donc pour chaque séquence d'entrée. Dans ces espaces les vecteurs-séquences sont traités avec des algorithmes à noyau et des méthodes de regroupement. On montre des résultats obtenus en différentes bases de données

Sous la direction du :
Directeur de thèse
André-Obrecht, Régine
Ecole doctorale:Mathématiques, informatique, télécommunications de Toulouse (MITT)
laboratoire/Unité de recherche :Institut de Recherche en Informatique de Toulouse (IRIT), UMR 5505
Mots-clés libres :Méthodes spectrales - fonctions noyaux - réduction de la dimensionalité - segmentation du signal - regroupement - classification
Sujets :Informatique
Déposé le :17 Jul 2009 16:27