Dissertations / Theses: 'Analyse exploratoire de données multivariées'

1

Verbanck, Marie. "Analyse exploratoire de données transcriptomiques : de leur visualisation à l'intégration d’information extérieure." Rennes, Agrocampus Ouest, 2013. http://www.theses.fr/2013NSARG011.

Full text

Abstract:

Nous proposons de nouvelles méthodologies statistiques exploratoires dédiées au traitement des données transcriptomiques (puce à ADN). Les données transcriptomiques offrent une image du transcriptome qui lui-même est le résultat des phénomènes d'activation ou d'inhibition de l'expression des gènes. Cependant, cette image du transcriptome est bruitée. C'est pourquoi, nous abordons premièrement la problématique de débruitage des données transcriptomiques. Ainsi, nous proposons une version régularisée de l'analyse en composantes principales. Cette version régularisée permet de mieux reconstituer et visualiser le signal sous-jacent de données bruitées. Par ailleurs, nous pouvons nous demander si la connaissance du seul transcriptome est suffisante pour démêler la complexité des relations entre gènes. Nous proposons donc d'intégrer d'autres sources d'information sur les gènes, de façon active, dans l'analyse des données transcriptomiques. Deux grands mécanismes semblent intervenir dans la régulation de l'expression, les protéines régulatrices et les réseaux de régulation d'une part, la localisation chromosomique et l'architecture du génome d'autre part. Premièrement, nous nous focalisons sur la régulation par l'intermédiaire de protéines régulatrices ; nous proposons un algorithme de classification des gènes basé sur l'intégration de connaissances fonctionnelles sur les gènes, fournies par les annotations Gene Ontology. Cet algorithme fournit des clusters de gènes similaires du point de vue de l'expression et des annotations fonctionnelles et qui sont ainsi de meilleurs candidats à l'interprétation. Enfin, nous proposons de relier l'étude des données transcriptomiques à la localisation chromosomique au sein d'une méthodologie développée en collaboration avec des généticiens
We propose new methodologies of exploratory statistics which are dedicated to the analysis of transcriptomic data (DNA microarray data). Transcriptomic data provide an image of the transcriptome which itself is the result of phenomena of activation or inhibition of gene expression. However, the image of the transcriptome is noisy. That is why, firstly we focus on the issue of transcriptomic data denoising, in a visualisation framework. To do so, we propose a regularised version of principal component analysis. This regularised version allows to better estimate and visualise the underlying signal of noisy data. In addition, we can wonder if the knowledge of only the transcriptome is enough to understand the complexity of relationships between genes. That is why we propose to integrate other sources of information about genes, and in an active way, in the analysis of transcriptomic data. Two major mechanisms seem to be involved in the regulation of gene expression, regulatory proteins (for instance transcription factors) and regulatory networks on the one hand, chromosomal localisation and genome architecture on the other hand. Firstly, we focus on the regulation of gene expression by regulatory proteins; we propose a gene clustering algorithm based on the integration of functional knowledge about genes, which is provided by Gene Ontology annotations. This algorithm provides clusters constituted by genes which have both similar expression profiles and similar functional annotations. The clusters thus constituted are then better candidates for interpretation. Secondly, we propose to link the study of transcriptomic data to chromosomal localisation in a methodology developed in collaboration with geneticists