LogoLogo

Mariette, Jérôme. Apprentissage statistique pour l'intégration de données omiques

Mariette, Jérôme (2017). Apprentissage statistique pour l'intégration de données omiques.

[img]PDF - nécessite un logiciel de visualisation PDF comme GSview, Xpdf or Adobe Acrobat Reader
6Mb

Résumé en francais

Les avancées des nouvelles techniques de séquençage ont permis de produire des données hétérogènes, volumineuse, de grande dimension et à différentes échelles du vivant. L'intégration de ces différentes données représente un défi en biologie des systèmes, défi qu'il est critique d'aborder pour tirer le meilleur parti possible de l'accumulation d'informations biologiques pour leur interprétation et leur exploitation dans un but finalisé. Cette thèse regroupe plusieurs contributions méthodologiques utiles à l'exploration simultanée de plusieurs jeux de données omiques de natures hétérogènes. Pour aborder cette question, les noyaux et les méthodes à noyaux offrent un cadre naturel, car ils permettent de prendre en compte la nature propre de chacun des tableaux de données tout en permettant leur combinaison. Toutefois, lorsque le nombre d'observations à traiter est grand, les méthodes à noyaux souffrent d'un manque d'interprétabilité et d'une grande complexité algorithmique. Une première partie de mon travail a porté sur l'adaptation de deux méthodes exploratoires à noyaux : l'analyse en composantes principales (K-PCA) et les cartes auto- organisatrices (K-SOM). Les adaptations développées portent d'une part sur le passage à l'échelle du K-SOM et de la K-PCA au domaine des omiques et d'autre part sur l'amélioration de l'interprétabilité des résultats. Dans une seconde partie, je me suis intéressé à l'apprentissage multi-noyaux pour combiner plusieurs jeux de données omiques. L'efficacité des méthodes proposées est illustrée dans le contexte de l'écologie microbienne : huit jeux de données du projet TARA oceans ont été intégrés et analysés à l'aide d'une K-PCA.

Sous la direction du :
Directeur de thèse
Villa-Vialaneix, Nathalie
Gaspin, Christine
Ecole doctorale:Sciences écologiques, vétérinaires, agronomiques et bioingénieries (SEVAB)
laboratoire/Unité de recherche :Unité de Mathématiques et Informatique Appliquées de Toulouse (MIAT), INRA UR875
Mots-clés libres :Données omiques - Intégration de données - Noyaux - ACP - Cartes auto-organisatrices
Sujets :Informatique
Déposé le :28 Jun 2018 15:16