LogoLogo

Gonzalez, Ignacio. Analyse canonique régularisée pour des données fortement multidimensionnelles

Gonzalez, Ignacio (2007). Analyse canonique régularisée pour des données fortement multidimensionnelles.

[img]PDF - nécessite un logiciel de visualisation PDF comme GSview, Xpdf or Adobe Acrobat Reader
1503Kb

Résumé en francais

Motivé par la mise en évidence des relations entre l'expression de gènes et d'autres variables biologiques, notre travail consiste à présenter et développer une méthodologie répondant à ce problème. Parmi les méthodes statistiques abordant ce sujet, l'Analyse Canonique (AC) semblait bien appropriée, mais la haute dimensionalité est actuellement l'un des obstacles majeurs pour les techniques statistiques d'analyse de données issues de biopuces. Naturellement l'axe de ce travail a été la recherche de solutions tenant compte de cet aspect crucial dans la mise en oeuvre de l'AC. Parmi les approches envisagées pour contourner ce problème, nous nous sommes intéressés à des méthodes de régularisation. Ainsi, la méthode développée ici, appelée Analyse Canonique Régularisée (ACR), est basée sur le principe de régularisation ridge introduit initialement en régression linéaire multiple. L'ACR nécessitant le choix de deux paramètres de réglage pour sa mise en oeuvre, nous avons proposé la méthode de validation croisée par sous-groupes pour traiter ce problème. Nous avons présenté en détail des applications de l'ACR à des données fortement multidimensionnelles provenant d'études génomiques ainsi qu'à des données provenant d'autres domaines. Sur ce point on s'est intéressé à une visualisation des données aidant à l'interprétation des résultats obtenus. À cet effet, nous avons proposé un certaine nombre de méthodes graphiques : représentations des variables (graphiques des corrélations), représentations des individus ainsi que des représentations alternatives comme les graphiques de réseaux et les cartes de double classification (heatmaps). Pour la mise en oeuvre de l'AC, nous avons développé le package CCA (disponible en ligne sur le site cran.r-project.org). Ce package permet le traitement de données avec plus de variables que d'unités expérimentales par l'ACR, la manipulation des valeurs manquantes et la réalisation des graphiques aidant à l'interprétation des résultats. Enfin, dans le cadre des méthodes de rétrécissement (shrinkage) nous avons introduit la méthode CCALAS ayant comme objectif d'obtenir une sorte de sélection des variables et ainsi de simplifier l'interprétation des représentations graphiques en AC. Cette approche basée sur la méthode LASSO ouvre les voies pour différentes perspectives de travail tant au niveau méthodologique qu'au niveau de la mise en oeuvre.

Sous la direction du :
Directeur de thèse
Baccini, Alain
Leon, José
Ecole doctorale:Mathématiques, informatique, télécommunications de Toulouse (MITT)
laboratoire/Unité de recherche :Institut de Mathématiques de Toulouse (IMT), UMR 5219
Mots-clés libres :Analyse Canonique - Analyse Canonique Régularisée - validation croisée - régularisation ridge - méthode LASSO - représentations graphiques
Sujets :Mathématiques
Déposé le :21 Feb 2008 17:06