Dissertations / Theses: 'Série de données'

1

Meyer, Nicolas. "Méthodes statistiques d'analyse des données d'allélotypage en présence d'homozygotes." Université Louis Pasteur (Strasbourg) (1971-2008), 2007. https://publication-theses.unistra.fr/public/theses_doctorat/2007/MEYER_Nicolas_2007.pdf.

Full text

Abstract:

Les donnéees d'allélotypage contiennent des mesures réealisées par Polymerase Chain Reaction sur une série de microsatellites de l'ADN a¯n de déterminer l'existence d'un déséquilibre allélique pour ces microsatellites. D'un point de vue statistique, ces données sont caractérisées par un nombre important de données manquantes (en cas d'homozygotie du microsatellite), par des matrices carrées ou comportant plus de variables que de sujets, des variables biniomiales, des effectifs parfois faibles et éventuellement de la colinéarité. Les méthodes statistiques fréquentistes ont un nombre important de limites qui font choisir un cadre bayésien pour analyser ces données. En analyse univariée, l'intérêt du facteur de Bayes est exploré et différentes variantes selon l'absence ou la présence de données manquantes sont comparées. Différents types d'imputations multiples sont ensuite étudiés. Des modµeles de type méta-analyses sont également évalués. En analyse multivariéee, un modµele de type Partial Least Square est développé. Le modµele est appliqué sous une forme de modµele linéaire généralisé (régression logistique) et combiné avec l'algorithme Non Iterative Partial Least Squares, ce qui permet de gérer simultanément toutes les limites propres aux données d'alléotypage. Les propriétés de ce modµele sont explorées. Il est ensuite appliqué µa des données d'allélotypage portant sur 33 microsatellites de 104 patients porteurs d'un cancer du colon pour prédire le stade Astler-Coller de la tumeur. Un modµele avec toutes les interactions possibles entre couples de microsatellites est également réaliseé
Allelotyping data contain measures done using Polymerase Chain Reaction on a batch of DNA microsatellites in order to ascertain the presence or not of an allelic imbalance for this microsatellites. From a statistical point of view, those data are characterised by a high number of missing data (in case of homozygous microsatellite), square or °at matrices, binomial data, sample sizes which may be small with respect to the number of variables and possibly some colinearity. Frequentist statistical methods have a number of shortcomings who led us to choose a bayesian framework to analyse these data. For univariate analyses, the Bayes factor is explored and several variants according to the presence or absence of missing data are compared. Di®erent multiple imputations types are then studied. Meta-analysis models are also assessed. For multivariate analyses, a Partial Least Square model is developed. The model is applied under a generalised linear model (logistic regression) and combined with a Non Iterative Partial Least Squares algorithm which 3 makes it possible to manage simultaneously all the limits of allelotyping data. Properties of this model are explored. It is then applied on allelotyping data on 33 microsatellites of 104 patients who have colon cancer to predict the tumor Astler-Coller stage. A model with all possible microsatellites pairs interactions is also run