LogoLogo

Saade, Philippe. Fusion tardive asynchrone appliquée à la reconnaissance des gestes

Saade, Philippe (2017). Fusion tardive asynchrone appliquée à la reconnaissance des gestes.

[img]PDF - nécessite un logiciel de visualisation PDF comme GSview, Xpdf or Adobe Acrobat Reader
4Mb

Résumé en francais

Dans cette thèse, nous nous intéressons à la reconnaissance de l'activité humaine. Nous commençons par proposer notre propre définition d'une action : une action est une séquence prédéfinie de gestes simples et concaténés. Ainsi, des actions similaires sont composées par les mêmes gestes simples. Chaque réalisation d'une action (enregistrement) est unique. Le corps humain et ses articulations vont effectuer les mêmes mouvements que celles d'un enregistrement de référence, avec des variations d'amplitude et de dynamique ne devant pas dépasser certaines limites qui conduiraient à un changement complet d'action. Pour effectuer nos expérimentations, nous avons capturé un jeu de données contenant des variations de base, puis fusionné certains enregistrements avec d'autres actions pour former un second jeu induisant plus de confusion au cours de la classification. Ensuite, nous avons capturé trois autres jeux contenant des propriétés intéressantes pour nos expérimentations avec la Fusion Tardive Asynchrone (ou Asynchronous Late Fusion notée ALF). Nous avons surmonté le problème des petits jeux non discriminants pour la reconnaissance d'actions en étendant un ensemble d'enregistrements effectués par différentes personnes et capturés par une caméra RGB-D. Nous avons présenté une nouvelle méthode pour générer des enregistrements synthétiques pouvant être utilisés pour l'apprentissage d'algorithmes de reconnaissance de l'activité humaine. La méthode de simulation a ainsi permis d'améliorer les performances des différents classifieurs. Un aperçu général de la classification des données dans un contexte audiovisuel a conduit à l'idée de l'ALF. En effet, la plupart des approches dans ce domaine classifient les flux audio et vidéo séparément, avec des outils différents. Chaque séquence temporelle est analysée séparément, comme dans l'analyse de flux audiovisuels, où la classification délivre des décisions à des instants différents. Ainsi, pour déduire la décision finale, il est important de fusionner les décisions prises séparément, d'où l'idée de la fusion asynchrone. Donc, nous avons trouvé intéressant d'appliquer l'ALF à des séquences temporelles. Nous avons introduit l'ALF afin d'améliorer la classification temporelle appliquée à des algorithmes de fusion tardive tout en justifiant l'utilisation d'un modèle asynchrone lors de la classification des données temporelles. Ensuite, nous avons présenté l'algorithme de l'ALF et les paramètres utilisés pour l'optimiser. Enfin, après avoir mesuré les performances de classifications avec différents algorithmes et jeux de données, nous avons montré que l'ALF donne de meilleurs résultats qu'une solution synchrone simple. Etant donné qu'il peut être difficile d'identifier les jeux de données compatibles avec l'ALF, nous avons construit des indicateurs permettant d'en extraire des informations statistiques. Nous avons développé des indices : l'ASI et l'ASIP, combinés en un indice final (ASIv) afin de fournir des informations concernant la compatibilité des données avec l'ALF. Nous avons comparé les résultats entre la solution synchrone et l'ALF sur la segmentation de série d'enregistrements. Ceux-ci ont montré que l'ALF améliore les performances. Nous avons analysé le mouvement humain et, après avoir donné une définition générale d'une action, nous avons amélioré cette définition et proposé une "définition visuelle". Ainsi, grâce à l'ALF, nous avons pu identifier les parties et les articulations d'une action les plus discriminantes et les afficher dans une image. Nous avons proposé en perspectives quelques points importants dont : - Définition d'un processus pour identifier le nombre de parties de l'ALF à l'aide du ASIv - Réduction de la complexité en repérant les articulations et les caractéristiques discriminantes grâce à l'ALF - Etude du choix des descripteurs de la MD-DTW puisque l'algorithme en dépend - Mise en œuvre d'un DNN à des fins de comparaison - Développement formel d'un coefficient de confiance.

Sous la direction du :
Directeur de thèse
Joly, Philippe
Awada, Ali
Ecole doctorale:Mathématiques, informatique, télécommunications de Toulouse (MITT)
laboratoire/Unité de recherche :Institut de Recherche en Informatique de Toulouse (IRIT), UMR 5505
Mots-clés libres :Fusion tardive - Reconnaissance de gestes - Classification de gestes - Analyse temporelle - Simulation des gestes
Sujets :Informatique
Déposé le :30 Jan 2018 11:30