Segui questo link per vedere altri tipi di pubblicazioni sul tema: Dépistage génétique – Méthodes statistiques.

Tesi sul tema "Dépistage génétique – Méthodes statistiques"

Cita una fonte nei formati APA, MLA, Chicago, Harvard e in molti altri stili

Scegli il tipo di fonte:

Vedi i top-43 saggi (tesi di laurea o di dottorato) per l'attività di ricerca sul tema "Dépistage génétique – Méthodes statistiques".

Accanto a ogni fonte nell'elenco di riferimenti c'è un pulsante "Aggiungi alla bibliografia". Premilo e genereremo automaticamente la citazione bibliografica dell'opera scelta nello stile citazionale di cui hai bisogno: APA, MLA, Harvard, Chicago, Vancouver ecc.

Puoi anche scaricare il testo completo della pubblicazione scientifica nel formato .pdf e leggere online l'abstract (il sommario) dell'opera se è presente nei metadati.

Vedi le tesi di molte aree scientifiche e compila una bibliografia corretta.

1

Ogloblinsky, Marie-Sophie. "Statistical strategies leveraging population data to help with the diagnosis of rare diseases". Electronic Thesis or Diss., Brest, 2024. http://www.theses.fr/2024BRES0039.

Testo completo
Abstract (sommario):
La forte hétérogénéité génétique et les modes de transmission complexes des maladies rares posent le défi d'identifier le variant causal si un seul patient le porte, en utilisant des données de séquençage et des méthodes d'analyse standard. Pour aborder ce problème, la méthode PSAP utilise des distributions nulles par gène de scores de pathogénicité CADD pour évaluer la probabilité d'observer un génotype donné dans la population générale. L'objectif de ce travail était de répondre au manque de diagnostic des maladies rares grâce à des méthodes statistiques. Nous proposons PSAP-genomic-regions, une extension de la méthode PSAP au génome non codant, en utilisant comme unités de test des régions prédéfinies reflétant la contrainte fonctionnelle à l'échelle du génome entier. Nous avons implémenté PSAP-genomic regions et sa version initiale PSAP-genes dans Easy-PSAP, un workflow Snakemake intuitif et adaptable, accessible aussi bien aux chercheurs qu'aux cliniciens. Appliqué à des familles touchées par de l'infertilité masculine, Easy-PSAP a permis la priorisation de variants candidats pertinents dans des gènes connus et nouveaux. Nous nous sommes ensuite concentrés sur le digénisme, le mode le plus simple de transmission complexe, qui implique l'altération simultanée de deux gènes pour développer une maladie. Nous avons décrit et évalué les méthodes actuelles publiées dans la littérature pour détecter le digénisme et proposé de nouvelles stratégies pour améliorer le diagnostic de ce mode de transmission complexe
High genetic heterogeneity and complex modes of inheritance in rare diseases pose the challenge of identifying an n-of-one sequencing data and standard analysis methods. To tackle this issue, the PSAP method uses gene-specific null distributions of CADD pathogenicity scores to assess the probability of observing a given genotype in a healthy population. The goal of this work was to address rare disease lack of diagnosis through statistical strategies. We propose PSAP-genomic-regions an extension of the PSAP method to the non-coding genome, using as testing units predefined regions reflecting functional constraint at the scale of the whole genome.We implemented PSAP-genomic-regions and the initial PSAP-genes in Easy-PSAP a user-friendly and versatile Snakemake workflow, accessible to both researchers and clinicians. When applied to families affected by male infertility, Easy-PSAP allowed the prioritization of relevant candidate variants in known and novel genes. We then focused on digenism, the most simple mode of complex inheritance, which implicates the simultaneous alteration of two genes to develop a disease. We reviewed and benchmarked current methods in the literature to detect digenism and put forward new strategies to improve the diagnostic of this complex mode of inheritance
Gli stili APA, Harvard, Vancouver, ISO e altri
2

Boulez, Florence. "Étiologies moléculaires des insuffisances surrénales primaires congénitales : développements statistiques pour la validation du séquençage parallèle massif". Thesis, Lyon, 2018. http://www.theses.fr/2018LYSE1057.

Testo completo
Abstract (sommario):
L'insuffisance surrénale primaire (ISP) se caractérise par un déficit en hormones stéroïdiennes lié à un trouble du cortex surrénal qui expose au risque d'insuffisance aiguë et de menace vitale. Actuellement, 80% des formes pédiatriques d'ISP sont d'origine génétique et 5% restent sans étiologie génétique identifiée. Les récentes découvertes de mutations de gènes du stress oxydant ouvrent le champ des recherches d'anomalies génétiques non spécifiques de la glande surrénale. Le séquençage parallèle massif (MPS) autorise aujourd'hui la réalisation de millions de séquences et l'étude simultanée de plusieurs gènes de plusieurs patients ce qui permet d'accélérer le diagnostic. C'est aussi la technique de choix pour la recherche de nouveaux gènes. Cependant, parmi les défis de cette nouvelle technologie, il est possible de citer la gestion de la très grande quantité de données qu'elle génère et le besoin d'une validation rigoureuse préalable à son utilisation à des fins diagnostiques.Le premier objectif du présent travail était d'établir un diagnostic génétique dans une cohorte de patients atteints d'ISP et de rechercher de nouveaux gènes. L'étude des génotypes et des phénotypes permet de comprendre les mécanismes physiopathologiques pour les engager dans le traitement et le conseil génétique.Le second objectif était le développement de méthodes bio-informatiques et d'inférence statistique pour faciliter le transfert du séquençage classique (Sanger) vers la technique MPS. Ce développement comprend l'analyse graphique de la qualité du séquençage, l'ajustement de modèles log-linéaires pour comparer les propriétés de différents « pipelines », et l'ajustement de modèles additifs généralisés pour estimer les contributions des sources d'erreurs de séquençage. Les analyses statistiques ont considéré chaque paire de bases comme unité statistique et chaque patient comme étude indépendante, ce qui confère à l'analyse simultanée de tous les patients le caractère d'une méta-analyse
Primary adrenal insufficiency (PAI) is characterized by an impaired production of steroid hormones due to an adrenal cortex defect. This condition exposes to the risk of acute insufficiency which may be life-threatening. Today, 80% of pediatric forms of PAI have a genetic origin but 5% have no clear genetic support. Recently discovered mutations in genes relative to the oxidative stress have opened the way to research works on genes unrelated to the adrenal gland. Massive Parallel Sequencing (MPS) is now able to perform millions of sequences and study simultaneously several genes in several patients, which accelerates the diagnosis. Above all, MPS is the preferred technique for new gene discoveries. However, among the challenges of this new technology one may cite the management of the huge amount of data MPS generates and the need for a strict validation process before the use of MPS for diagnosis purposes.The first objective of the present work was to establish a genetic diagnosis in a cohort of patients with PAI and search for new genes. Study the genotypes and phenotypes allows a better understanding of the physiopathological mechanisms of PAI and offering appropriate care for the patients and counseling for families. The second objective was the development of bioinformatic and statistical inference methods to help shifting from the classical Sanger sequencing to MPS. This shift involves a graphical analysis of the quality of sequencing, an adjustment of log-linear models to allow comparing the properties of different pipelines, an adjustment of the generalized additive models to allow estimating the contributions of various sources of sequencing errors. The statistical methods have considered each DNA base-pair as a statistical unit and each patient as a separate study which confers the simultaneous study of all patients the status of a meta-analysis
Gli stili APA, Harvard, Vancouver, ISO e altri
3

Meyer, Nicolas. "Méthodes statistiques d'analyse des données d'allélotypage en présence d'homozygotes". Université Louis Pasteur (Strasbourg) (1971-2008), 2007. https://publication-theses.unistra.fr/public/theses_doctorat/2007/MEYER_Nicolas_2007.pdf.

Testo completo
Abstract (sommario):
Les donnéees d'allélotypage contiennent des mesures réealisées par Polymerase Chain Reaction sur une série de microsatellites de l'ADN a¯n de déterminer l'existence d'un déséquilibre allélique pour ces microsatellites. D'un point de vue statistique, ces données sont caractérisées par un nombre important de données manquantes (en cas d'homozygotie du microsatellite), par des matrices carrées ou comportant plus de variables que de sujets, des variables biniomiales, des effectifs parfois faibles et éventuellement de la colinéarité. Les méthodes statistiques fréquentistes ont un nombre important de limites qui font choisir un cadre bayésien pour analyser ces données. En analyse univariée, l'intérêt du facteur de Bayes est exploré et différentes variantes selon l'absence ou la présence de données manquantes sont comparées. Différents types d'imputations multiples sont ensuite étudiés. Des modµeles de type méta-analyses sont également évalués. En analyse multivariéee, un modµele de type Partial Least Square est développé. Le modµele est appliqué sous une forme de modµele linéaire généralisé (régression logistique) et combiné avec l'algorithme Non Iterative Partial Least Squares, ce qui permet de gérer simultanément toutes les limites propres aux données d'alléotypage. Les propriétés de ce modµele sont explorées. Il est ensuite appliqué µa des données d'allélotypage portant sur 33 microsatellites de 104 patients porteurs d'un cancer du colon pour prédire le stade Astler-Coller de la tumeur. Un modµele avec toutes les interactions possibles entre couples de microsatellites est également réaliseé
Allelotyping data contain measures done using Polymerase Chain Reaction on a batch of DNA microsatellites in order to ascertain the presence or not of an allelic imbalance for this microsatellites. From a statistical point of view, those data are characterised by a high number of missing data (in case of homozygous microsatellite), square or °at matrices, binomial data, sample sizes which may be small with respect to the number of variables and possibly some colinearity. Frequentist statistical methods have a number of shortcomings who led us to choose a bayesian framework to analyse these data. For univariate analyses, the Bayes factor is explored and several variants according to the presence or absence of missing data are compared. Di®erent multiple imputations types are then studied. Meta-analysis models are also assessed. For multivariate analyses, a Partial Least Square model is developed. The model is applied under a generalised linear model (logistic regression) and combined with a Non Iterative Partial Least Squares algorithm which 3 makes it possible to manage simultaneously all the limits of allelotyping data. Properties of this model are explored. It is then applied on allelotyping data on 33 microsatellites of 104 patients who have colon cancer to predict the tumor Astler-Coller stage. A model with all possible microsatellites pairs interactions is also run
Gli stili APA, Harvard, Vancouver, ISO e altri
4

Accrachi, El Hadji Ousseynou. "Nouveau cadre statistique pour la cartographie-fine". Master's thesis, Université Laval, 2021. http://hdl.handle.net/20.500.11794/67891.

Testo completo
Abstract (sommario):
Des études d’association à l’échelle du génome (GWAS) ont permis l’identification de milliers de régions du génome comportant des variants génétiques associés à des traits et qui peuvent être à l’origine de certaines maladies complexes. Cependant faire des tests biologiques pour tous les variants génétiques découverts à l’aide de GWAS est pratiquement impossible. Ainsi, les études de cartographie-fine visent à déterminer un ensemble cible de variants génétiques susceptibles d’être associés à un trait d’intérêt. Les principales difficultés pour les méthodes statistiques pour la cartographie-fine sont la présence de milliers de variants génétiques pour seulement une centaine d’individus et la présence d’une forte structure de corrélation, ou déséquilibre de liaison (LD) entre les variants génétiques. Il existe de nombreuses contributions dans les études de cartographie-fine notamment CAVIAR [19], CAVIAR-Gene [30], PAINTOR [28], fastPAINTOR [27] etc. Ces études se basent sur des méthodes statistiques de sélection d’un ensemble crédible de variants génétiques pour aider à prioriser les variants et à discerner les conséquences fonctionnelles du risque de maladies des variants sélectionnés. Dans ce mémoire, nous proposons un nouveau cadre statistique avec une procédure de sélection de variants génétiques (SNPs). Nous utilisons une méthode conditionnelle ou bayésienne pour identifier les SNPs susceptibles d’être causaux. Ainsi la statistique d’association d’un SNP est réécrite et sa loi asymptotique est déterminée. Notre procédure de sélection est itérative et grâce à une loi a priori, elle calcule les probabilités a posteriori pour qu’un SNP soit significatif pour le trait d’intérêt. À chaque étape les statistiques d’association des SNPs sont calculées et le SNP avec la plus forte probabilité a posteriori est choisi. Dans nos simulations, nous montrons que la correction sur la loi asymptotique de la statistique d’association apporte une amélioration significative dans la sélection des SNPs qui ont un lien avec le trait d’intérêt
Gli stili APA, Harvard, Vancouver, ISO e altri
5

Leclerc, Martin. "Tests d'association génétique pour des durées de vie en grappes". Doctoral thesis, Université Laval, 2016. http://hdl.handle.net/20.500.11794/26667.

Testo completo
Abstract (sommario):
Tableau d’honneur de la Faculté des études supérieures et postdoctorales, 2015-2016
Les outils statistiques développés dans cette thèse par articles visent à détecter de nouvelles associations entre des variants génétiques et des données de survie en grappes. Le développement méthodologique en analyse des durées de vie est aujourd'hui ininterrompu avec la prolifération des tests d'association génétique et, de façon ultime, de la médecine personnalisée qui est centrée sur la prévention de la maladie et la prolongation de la vie. Dans le premier article, le problème suivant est traité : tester l'égalité de fonctions de survie en présence d'un biais de sélection et de corrélation intra-grappe lorsque l'hypothèse des risques proportionnels n'est pas valide. Le nouveau test est basé sur une statistique de type Cramérvon Mises. La valeur de p est estimée en utilisant une procédure novatrice de bootstrap semiparamétrique qui implique de générer des observations corrélées selon un devis non-aléatoire. Pour des scénarios de simulations présentant un écart vis-à-vis l'hypothèse nulle avec courbes de survie qui se croisent, la statistique de Cramer-von Mises offre de meilleurs résultats que la statistique de Wald du modèle de Cox à risques proportionnels pondéré. Le nouveau test a été utilisé pour analyser l'association entre un polymorphisme nucléotidique (SNP) candidat et le risque de cancer du sein chez des femmes porteuses d'une mutation sur le gène suppresseur de tumeur BRCA2. Un test d'association sequence kernel (SKAT) pour détecter l'association entre un ensemble de SNPs et des durées de vie en grappes provenant d'études familiales a été développé dans le deuxième article. La statistique de test proposée utilise la matrice de parenté de l'échantillon pour modéliser la corrélation intra-famille résiduelle entre les durées de vie via une copule gaussienne. La procédure de test fait appel à l'imputation multiple pour estimer la contribution des variables réponses de survie censurées à la statistique du score, laquelle est un mélange de distributions du khi-carré. Les résultats de simulations indiquent que le nouveau test du score de type noyau ajusté pour la parenté contrôle de façon adéquate le risque d'erreur de type I. Le nouveau test a été appliqué à un ensemble de SNPs du locus TERT. Le troisième article vise à présenter le progiciel R gyriq, lequel implante une version bonifiée du test d'association génétique développé dans le deuxième article. La matrice noyau identical-by-state (IBS) pondérée a été ajoutée, les tests d'association génétique actuellement disponibles pour des variables réponses d'âge d'apparition ont été brièvement revus de pair avec les logiciels les accompagnant, l'implantation du progiciel a été décrite et illustrée par des exemples.
The statistical tools developed in this manuscript-based thesis aim at detecting new associations between genetic variants and clustered survival data. Methodological development in lifetime data analysis is today ongoing with the proliferation of genetic association testing and, ultimately, personalized medicine which focuses on preventing disease and prolonging life. In the first paper, the following problem is considered: testing the equality of survival functions in the presence of selection bias and intracluster correlation when the assumption of proportional hazards does not hold. The new proposed test is based on a Cramér-von Mises type statistic. The p-value is approximated using an innovative semiparametric bootstrap procedure which implies generating correlated observations according to a non-random design. For simulation scenarios of departures from the null hypothesis with crossing survival curves, the Cramer-von Mises statistic clearly outperformed the Wald statistic from the weighted Cox proportional hazards model. The new test was used to analyse the association between a candidate single nucleotide polymorphism (SNP) and breast cancer risk in women carrying a mutation in the BRCA2 tumor suppressor gene. A sequence kernel association test (SKAT) to detect the association between a set of genetic variants and clustered survival outcomes from family studies is developed in the second manuscript. The proposed statistic uses the kinship matrix of the sample to model the residual intra-family correlation between survival outcomes via a Gaussian copula. The test procedure relies on multiple imputation to estimate the contribution of the censored survival outcomes to the score statistic which is a mixture of chi-square distributions. Simulation results show that the new kinship-adjusted kernel score test controls adequately for the type I error rate. The new test was applied to a set of SNPs from the TERT locus. The third manuscript aims at presenting the R package gyriq which implements an enhanced version of the genetic association test developed in the second manuscript. The weighted identical-by-state (IBS) kernel matrix is added, genetic association tests and accompanying software currently available for age-at-onset outcomes are briefly reviewed, the implementation of the package is described, and illustrated through examples.
Gli stili APA, Harvard, Vancouver, ISO e altri
6

Guedj, Mickaël. "Méthodes Statistiques pour l’analyse de données génétiques d’association à grande échelle". Evry-Val d'Essonne, 2007. http://www.biblio.univ-evry.fr/theses/2007/2007EVRY0015.pdf.

Testo completo
Abstract (sommario):
Les avancées en Biologie Moléculaire ont accéléré le développement de techniques de génotypage haut-débit et ainsi permis le lancement des premières études génétiques d'association à grande échelle. La dimension et la complexité des données issues de ce nouveau type d'étude posent aujourd'hui de nouvelles perspectives statistiques et informatiques nécessaires à leur analyse, constituant le principal axe de recherche de cette thèse. Après une description introductive des principales problématiques liées aux études d'association à grande échelle, nous abordons plus particulièrement les approches simple-marqueur avec une étude de puissance des principaux test d’association, les approches multi-marqueurs avec le développement d’une méthode fondée sur la statistique du Score Local, et enfin le problème du test-multiple avec l'estimation du Local False Discovery Rate à travers un simple modèle de mélange gaussien
The increasing availability of dense Single Nucleotide Polymorphisms (SNPs) maps due to rapid improvements in Molecular Biology and genotyping technologies have recently led geneticists towards genome-wide association studies with hopes of encouraging results concerning our understanding of the genetic basis of complex diseases. The analysis of such high-throughput data implies today new statistical and computational problematic to face, which constitute the main topic of this thesis. After a brief description of the main questions raised by genome-wide association studies, we deal with single-marker approaches by a power study of the main association tests. We consider then the use of multi-markers approaches by focusing on the method we developed which relies on the Local Score. Finally, this thesis also deals with the multiple-testing problem: our Local Score-based approach circumvents this problem by reducing the number of tests; in parallel, we present an estimation of the Local False Discovery Rate by a simple Gaussian mixed model
Gli stili APA, Harvard, Vancouver, ISO e altri
7

Di, Giacomo Daniela. "Développement de méthodes moléculaires pour la détection et l'interprétation de mutations : applications aux cancers du colon et aux prédispositions génétiques aux cancers du sein et de l'ovaire". Rouen, 2013. http://www.theses.fr/2013ROUENR02.

Testo completo
Abstract (sommario):
The first part of this thesis work is focused on the sensitive detection of KRAS and BRAF mutations in primary tumors of patients affected by metastatic colon cancer. The first line treatment of these patients in the department of Oncology of the S. Salvatore hospital in L'Aquila is based on a triple chemotherapy combined with an anti-angiogenic treatment (anti-VGFR; Bebacizumab). In order to determine the KRAS and BRAF status of these tumors we used a protocol based on the SnaPshot method. In a series of 59 patients, 3I tumors (53%) were found wild-type and 28 (47%) had mutations in codons 12 or 13 of KRAS. No mutation was found in BRAF. We found no significant clinical difference, using this therapeutic protocol, between the KRAS wild-type group and the mutant group. However, the KRAS mutation c. 35G>A (Glyl2Asp), found in 15 patients (25%), was found significantly associated with a worse prognosis of overall survival. The second part of this thesis is centered on the interpretation of variants of unknown significance (VUS), found in families with genetic predisposition to breast and ovarian tumors. We focused our work on the effect of VUS on mRNA splicing, by using a functional splicing assay based on the transient transfection of splicing reporter minigenes. BRCA2 exon 7 was selected as a model of exonic regulation of splicing. We tested a total of 32 sequence variants or mutations in this exon and found that 11 increased at various levels the exclusion of this exon, whereas 22 were neutral or induced slight increases of inclusion. By using a minigene that detects splicing enhancer activity, we showed, for most of the 11 variants, an alteration of exonic splicing regulatory elements. Moreover, we used this large series of sequence changes with experimentally demonstrated effects on splicing to validate a method recently proposed by Ke et al. , 2011 (L. Chasin group) for the prediction of the effects of mutations on exonic splicing regulation
La prima parte di questo lavoro di tesi riguarda la ricerca sensibile di mutazioni nei geni KRAS e BRAF in tumori primari di pazienti affetti da cancro del colon metastatico. Il trattamento in prima linea di questi pazienti, seguiti nel reparto di Oncologia dell'Ospedale S. Salvatore di L'Aquila, è basato su una triplice chemioterapia combinata con un trattamento anti-angiogenico (anti-VGFR; Bevacizumab). Per il genotipaggio del DNA tumorale abbiamo utilizzato la metodica SNaPshot, seguendo il protocollo messo a punto a Rouen, nei laboratori di Genetica somatica dei tumori. Questa metodica, infatti, permette di rilevare mutazioni anche in campioni contenenti una bassa percentuale di cellule tumorali. Su una serie di 59 pazienti, 31 (53%) sono risultati wild-type e 28 (47%) mutati KRAS (codoni 12 e 13). In questa serie di pazienti non sono state rilevate mutazioni nel gene BRAF. Per quanto riguarda l'evoluzione clinica, nel corso del protocollo terapeutico utilizzato, non è stata trovata nessuna differenza significativa tra il gruppo KRAS wild-type e KRAS mutato. Tuttavia, per questi pazienti trattati con triplice chemioterapia più Bevacizumab, la mutazione c. 35G>A (Gly12Asp), sul gene KRAS, trovata in 15 pazienti (25%), è stata associata significativamente ad una prognosi sfavorevole di sopravvivenza globale. La seconda parte di questa tesi è incentrata sull'interpretazione di varianti di sequenza di significato sconosciuto (VUS), trovate in famiglie con predisposizione genetica al tumore del seno e dell'ovaio, con un interesse particolare sull'effetto che queste varianti di sequenza hanno sullo splicing dell'RNA messaggero. Questo lavoro è stato realizzato in gran parte nell'Unità INSERM U1079, della facoltà di Medicina e Farmacia dell'Università di Rouen, utilizzando sistematicamente un test funzionale di splicing basato sulla trasfezione transitoria di minigeni che portano il cambio di sequenza. In una prima fase, il test, che si avvale di routine dell'utilizzo del minigene pCAS-2 messo a punto nell'Unità INSERM U1079, è stato utilizzato per studiare delle serie importanti di VUS trovate nella rete dei laboratori di diagnostica molecolare francesi o nei laboratori di diagnostica molecolare di L'Aquila e di Roma. Il progetto è stato focalizzato successivamente su un esone particolare del gene BRCA2, l'esone 7, selezionato come modello di regolazione esonica di splicing. Il lavoro descritto in questa tesi si incentra su un totale di 32 varianti di sequenza di questo esone analizzate nel minigene pCAS-2, nonché una gran parte anche nel minigene pcDNA-Dup, sviluppato nei laboratori INSERM U1079, che permette di individuare le variazioni di attività "enhancer di splicing" associate con i cambi di sequenza. Queste 32 varianti sono state anche classificate in due gruppi, in base al loro effetto sulla regolazione esonica di splicing: 11 aumentano, con livelli differenti, l'esclusione dell'esone 7 di BRCA2; 22 non aumentano l'esclusione. Questa importante serie di varianti di sequenza con effetti accertati sulla regolazione dello splicing ci ha permesso di validare un nuovo metodo per prevedere mutazioni esoniche di splicing (Ke et al. , 2011). Gli autori di questo metodo hanno condotto un'analisi sperimentale high-throughput sugli effetti di tutti i possibili 4096 esameri, inseriti in esoni modello, in diverse posizioni e assegnando a ciascun esamero uno "score" di inclusione/esclusione dell'esone. Noi abbiamo utilizzato questi scores per sviluppare una strategia di predizione dell'effetto delle varianti di sequenza studiate sperimentalmente nell'esone 7 di BRCA2. E' da notare come le predizioni del nuovo metodo basato sugli scores di esameri definiti da Ke et al. , 2011, sono risultate perfettamente concordanti con i risultati ottenuti, fatta eccezione per due VUS situate nella stessa posizione nucleotidica, per le quali non è stato osservato l'effetto previsto sullo splicing. I contributi maggiori di questa sezione della tesi sono stati la cartografia dettagliata degli elementi di regolazione esonici di splicing nell'esone 7 di BRCA2 e la validazione di una metodica di predizione dell'effetto che varianti di sequenza hanno su questa regolazione. Abbiamo dimostrato che questa nuova metodica di predizione è più affidabile dei metodi precedenti e proponiamo che questa possa essere incorporata attraverso programmi informatici adeguati nell'analisi di routine delle numerose varianti di sequenza osservate nelle attività di sequenziamento di nuova generazione. Questo lavoro contribuisce all'interpretazione delle VUS trovate in geni predisponenti al cancro in quanto dimostra che le variazioni di sequenza dell'esone, spesso hanno un impatto sulla maturazione dell'RNA messaggero, non solo per le modificazioni dei siti di splicing, ma anche per l'alterazione degli elementi esonici di regolazione. Gli effetti di queste alterazioni sono molto spesso parziali, il che rende difficile definire la loro eventuale patogenicità. Si propone di rafforzare studi multicentrici in modo da poter combinare i dati provenienti da diverse fonti, tra cui la struttura familiare, la segregazione di VUS, i dati clinici e le caratteristiche del tumore per definire un consenso per l'interpretazione di questi difetti parziali splicing
La première partie de ce travail de thèse porte sur la détection sensible des mutations des gènes KRAS et BRAF dans les tumeurs primaires de patients atteints de cancer du colon métastasique. Le traitement de première ligne de ces patients, suivis dans le service d'Oncologie de l'Hôpital universitaire San Salvatore de L'Aquila, est basé sur une triple chimiothérapie combinée avec un traitement anti-angiogénique (anti-VGFR ; Bevacizumab). Nous avons utilisé pour le génotypage de l'ADN tumoral la méthode SNaPshot, d'après le protocole mis au point à Rouen, dans le laboratoire de Génétique Somatique des Tumeurs, car cette méthode permet de détecter des mutations même dans des échantillons contenant une faible proportion de cellules tumorales. Sur une série de 59 patients, 31 (53%) ont été trouvés sauvages et 28 (47%) ont été trouvés mutés dans KRAS (codons 12 et 13). Aucune mutation BRAF n'a été trouvée dans cette série. Aucune différence significative parmi les groupes KRAS sauvage et KRAS muté n'a été trouvée dans l'évolution clinique, au cours du protocole thérapeutique utilisé. Cependant, pour ces patients traités par triple chimiothérapie plus Bevacizumab, la mutation c. 35G>A (Glyl2Asp), trouvée dans 15 patients (25%), était associée significativement à un mauvais pronostic de survie globale. La deuxième partie de cette thèse a porté sur l'interprétation des variations de séquence de signification inconnue (VSI), trouvées dans des familles avec prédisposition génétique aux cancers du sein et de l'ovaire, avec un intérêt particulier pour l'effet de ces variations de séquence sur l'épissage de l'ARN messager. Ce travail a été réalisé en grande partie dans l'Unité Inserm U1079, à la Faculté de Médecine et Pharmacie de l'Université de Rouen, en utilisant systématiquement les tests fonctionnels crépissage basés sur la transfection transitoire de minigènes, portant les changements de séquence. Dans une première phase, le test de routine basé sur le minigène pCAS-2, développé dans l'Unité Inserm U1079, a été utilisé pour étudier des séries importantes de VSI trouvés dans les laboratoires de diagnostic moléculaire du réseau BRCA français ou dans les laboratoires de diagnostic moléculaire de L'Aquila et de Rome. Le projet a été ensuite focalisé sur un exon particulier du gène BRCA2, l'exon 7, choisi comme modèle de régulation exonique de l'épissage. Les travaux décrits dans cette thèse portent sur un total de 32 changements de séquence de cet exon, testés dans le minigène pCAS-2 et en grande partie également dans le minigène pcDNA-Dup, développé dans le laboratoire Inserm U1079, qui permet de détecter les variations d'activité « enhancer d'épissage » associées avec les changements de séquence. Ces 32 changements ont été ainsi classés en deux groupes, selon leur effet sur la régulation exonique de l'épissage : 11 augmentent, avec des degrés différents, l'exclusion de l'exon 7 de BRCA2, et 22 n'augmentent pas l'exclusion. Cette série importante de variations de séquence avec effets établis sur la régulation de l'épissage nous a permis de valider une nouvelle méthode pour la prédiction des mutations exoniques d'épissage (Ke et al. , 2011). Ces auteurs ont réalisé une analyse expérimentale à haut débit de l'effet de tous les 4096 hexamères possibles, insérés dans des exons modèles, à plusieurs positions et ont attribué à chaque hexamère un « score » d'inclusion/exclusion d'exon. Nous avons utilisé ces scores pour développer une stratégie prédictive de l'effet des variations de séquence étudiées expérimentalement dans l'exon 7 de BRCA2. De façon remarquable, le prédictions de la nouvelle méthode basée sur les scores d'hexamères définis par Ke et al. , 2011 ont été parfaitement concordantes avec les résultats obtenus, à l'exception de deux VSI, situés à la même position nucléotidique, pour lesquels un effet prévu sur l'épissage n'a pas été observé. Les contributions majeures de cette partie du travail de thèse sont la cartographie détaillée des éléments de régulation exonique de l'épissage dans l'exon 7 de BRCA2 et la validation d'une méthode de prédiction de l'effet de changements de séquence sur cette régulation. Nous avons montré que cette nouvelle méthode de prédiction est plus fiable que les méthodes précédentes et nous proposons qu'elle soit intégrée, sous la forme de programmes informatiques appropriés, dans l'analyse de routine des nombreuses variations de séquence observées dans les activités de séquençage de nouvelle génération. Ce travail contribue à l'interprétation des VSI trouvés dans les gènes de prédisposition aux cancers, car il montre que les variations exoniques de séquence ont souvent un impact sur la maturation de l'ARN messager, non seulement par la modification des sites d'épissage, mais aussi par l'altération d'éléments de régulation exonique. Les effets de ces altérations sont le plus souvent partiels, ce qui complique la définition de leur pathogénicité éventuelle. Nous proposons le renforcement d'études multicentriques permettant de combiner les données provenant de plusieurs sources, notamment la structure familiale, la ségrégation du VSI, les données cliniques et les caractéristiques tumorales, afin de définir un consensus pour l'interprétation de ces défauts partiels de l'épissage
Gli stili APA, Harvard, Vancouver, ISO e altri
8

Roldan, Dana Leticia. "Détection de QTL : interaction entre dispositif expérimental et méthodes statistiques". Toulouse 3, 2011. http://thesesups.ups-tlse.fr/1395/.

Testo completo
Abstract (sommario):
Les régions du génome portant des polymorphismes associés à la variation des caractères quantitatifs sont nommées en anglais " quantitatif trait loci " (QTL). Jusqu'à récemment la cartographie des QTL était principalement basée sur des marqueurs microsatellites. La densité de cartes de microsatellites est telle que la détection des associations entre les marqueurs et les QTLs ne peut être basée que sur l'analyse de liaison (LA), où la structure familiale est importante. Une fois qu'une région chromosomique a été identifiée comme porteuse d'un QTL putatif, plus de marqueurs doivent être développés pour obtenir une densité plus élevée dans cette région. Cette cartographie fine doit réduire suffisamment l'incertitude sur la position du QTL pour que l'identification des mutations de(s) gène(s) devienne faisable. Les nouveaux marqueurs SNP rendent possible cet objectif et permettent la cartographie fine du QTL sur la base du déséquilibre de liaison (LD) entre certains allèles marqueurs et le QTL. Le choix de la structure génétique de la population expérimentale pour cette cartographie fine par l'analyse conjointe des transmissions intrafamille et du déséquilibre de liaison dans la population générale (approche dites LDLA) se pose après une étape de primo localisation par analyse de liaison, ou directement quand la primo détection et la localisation fine sont confondues dans une seule étape de cartographie. Cette question est abordée dans ce travail. La démarche de cette thèse a été construite en trois étapes : (i) Validation d'une nouvelle méthode LDLA de type régression linéaire (Legarra et Fernando, 2009) et comparaison numérique par simulations de cette méthode avec la méthode de composantes de variance basée sur l'estimation des probabilités IBD (identical by descendant) de Meuwissen et al. , (2002). La méthode par régression est généralement aussi précise et toujours beaucoup plus rapide que la méthode de Meuwissen et al. (2002). (ii) Optimisation, sur la base de la méthode de régression, des protocoles expérimentaux définis par le nombre de descendants par père et le type de structure (demi-frères et un mélange de pleins-et demi-frères). Nous trouvons que le QTL est localisé plus précisément en utilisant les méthodes LDLA que LA et que la structure du dispositif expérimental et la taille des haplotypes ont un impact considérable sur la précision de la localisation d'un QTL. Un équilibre entre le nombre et la taille des familles est à déterminer selon les caractéristiques de l'application pratique (longueur du segment exploré, densité en marqueurs, taille de la population totale etc. . . ). (iii) Application des méthodes de cartographie au cas de la production de laine chez le mouton, un exemple possible parmi d'autres caractères. Dans un premier temps, nous avons appliqué l'analyse de liaison à une population de Merinos Argentins sur laquelle ont été mesurés des caractères de production de laine. Cette population comprenait 617 individus répartis en 10 familles de demi-frères de père. 48 microsatellites ont été utilisés pour marquer 280,7 cM dans des régions du génome à priori intéressantes. Des QTL ont été trouvés, notamment un QTL affectant le caractère coefficient de variation du diamètre de fibres à 67,6 cM sur le chromosome 11. Dans une seconde étape, nous avons évalué, pour les caractéristiques particulières de cette population, les recommandations de la partie (ii) pour l'organisation d'un protocole LDLA de cartographie fine dans cette population réelle. Plusieurs situations ont été envisagées en changeant le nombre de descendants par famille et la densité des marqueurs. Ce travail nous a permis de faire des recommandations pratiques pour affiner la localisation des QTL de laine
Genomic regions carrying polymorphisms associated with variation in quantitative traits are termed quantitative trait loci (QTL). Until recently, mapping QTL was mainly based on microsatellite markers. The density of these markers is such that detection of associations between markers and QTL can only be based on linkage analysis (LA), and a family structured design is needed. Once a chromosomal region has been identified to carry a putative QTL, more markers should be developed at a higher density within that region. Tightly linked markers are needed for sufficiently narrowing down the putative QTL position such that finding actual gene mutations becomes feasible. The new SNP markers make this objective realistic, allowing fine mapping based on linkage disequilibrium (LD) of these markers and QTL across families. Designing experiments aiming at fine mapping QTL combining LD and LA (LDLA) is a question raised after a primo localisation obtained from classical family LA, or directly where primo and fine localisation steps are confounded. Questions related to this designing problem were addressed in this thesis: how should one balance family size and number in LDLA design? What is the best LDLA protocol to fine map QTL that were previously roughly localised in a classical LA analysis?. Three steps were followed: (i) Evaluation of a new LDLA method based on regression (Legarra and Fernando, 2009) and numerical comparison of this method with a variance component IBD (identical by descendant) based method (Meuwissen et al. , 2002). The regression approach appeared to be generally as precise as the Meuwissen et al. (2002) method and always much faster. (ii) Design optimization, using this LDLA regression technique, in terms of number of progenies by sire, and type of families (half-sib to mixture full- and half-sib). We found that QTL is more exactly localised with LDLA rather than LA and that experimental structure as well as haplotypes sizes have a big impact on this localisation. A balance between family number and size must be found depending on the case characteristics (explored segment length, marker density, total population size, etc. . . ). (iii) Application of the mapping method to the wool production traits, an example among other of quantitative traits. In the first stage familial linkage analysis was applied to real half-sibs Merino sheep population measured for wool traits. This population consisted in 617 individuals belonging to 10 sire half-sibs. Forty eight microsatellites were used, covering 280. 70 cM in candidate areas. QTLs were found, in particular affecting the fibre diameter coefficient of variation at position 67. 60 cM on OAR11. In a second stage, we evaluated, considering the specificity of our ovine population, the recommendations established after the step (ii) concerning the organisation of a LDLA design. This work allowed as to make practical conclusions for a fine mapping of wool trait QTL in our population
Gli stili APA, Harvard, Vancouver, ISO e altri
9

Privé, Florian. "Genetic risk score based on statistical learning Efficient analysis of large-scale genome-wide data with two R packages: bigstatsr and bigsnpr Efficient implementation of penalized regression for genetic risk prediction Making the most of Clumping and Thresholding for polygenic scores". Thesis, Université Grenoble Alpes (ComUE), 2019. http://www.theses.fr/2019GREAS024.

Testo completo
Abstract (sommario):
Le génotypage devient de moins en moins cher, rendant les données de génotypes disponibles pour des millions d’individus. Par ailleurs, l’imputation permet d’obtenir l’information génotypique pour des millions de positions de l’ADN, capturant l’essentiel de la variation génétique du génome humain. Compte tenu de la richesse des données et du fait que de nombreux traits et maladies sont héréditaires (par exemple, la génétique peut expliquer 80% de la variation de la taille dans la population), il est envisagé d’utiliser des modèles prédictifs basés sur l’information génétique dans le cadre d’une médecine personnalisée.Au cours de ma thèse, je me suis concentré sur l’amélioration de la capacité prédictive des modèles polygéniques. Les modèles prédictifs faisant partie d’une analyse statistique plus large des jeux de données, j’ai développé des outils permettant l’analyse exploratoire de grands jeux de données, constitués de deux packages R/C++ décrits dans la première partie de ma thèse. Ensuite, j’ai développé une implémentation efficace de larégression pénalisée pour construire des modèles polygéniques basés sur des centaines de milliers d’individus génotypés. Enfin, j’ai amélioré la méthode appelée “clumpingand thresholding”, qui est la méthode polygénique la plus largement utilisée et qui estbasée sur des statistiques résumées plus largement accessibles par rapport aux données individuelles.Dans l’ensemble, j’ai appliqué de nombreux concepts d’apprentissage statistique aux données génétiques. J’ai utilisé du “extreme gradient boosting” pour imputer des variants génotypés, du “feature engineering” pour capturer des effets récessifs et dominants dans une régression pénalisée, et du “parameter tuning” et des “stacked regres-sions” pour améliorer les modèles polygéniques prédictifs. L’apprentissage statistique n’est pour l’instant pas très utilisé en génétique humaine et ma thèse est une tentative pour changer cela
Genotyping is becoming cheaper, making genotype data available for millions of indi-viduals. Moreover, imputation enables to get genotype information at millions of locicapturing most of the genetic variation in the human genome. Given such large data andthe fact that many traits and diseases are heritable (e.g. 80% of the variation of heightin the population can be explained by genetics), it is envisioned that predictive modelsbased on genetic information will be part of a personalized medicine.In my thesis work, I focused on improving predictive ability of polygenic models.Because prediction modeling is part of a larger statistical analysis of datasets, I de-veloped tools to allow flexible exploratory analyses of large datasets, which consist intwo R/C++ packages described in the first part of my thesis. Then, I developed someefficient implementation of penalized regression to build polygenic models based onhundreds of thousands of genotyped individuals. Finally, I improved the “clumping andthresholding” method, which is the most widely used polygenic method and is based onsummary statistics that are widely available as compared to individual-level data.Overall, I applied many concepts of statistical learning to genetic data. I used ex-treme gradient boosting for imputing genotyped variants, feature engineering to cap-ture recessive and dominant effects in penalized regression, and parameter tuning andstacked regressions to improve polygenic prediction. Statistical learning is not widelyused in human genetics and my thesis is an attempt to change that
Gli stili APA, Harvard, Vancouver, ISO e altri
10

Guedj, Mickael. "Méthodes Statistiques pour l'Analyse de Données Génétiques d'Association à Grande Echelle". Phd thesis, Université d'Evry-Val d'Essonne, 2007. http://tel.archives-ouvertes.fr/tel-00169411.

Testo completo
Abstract (sommario):
Les avancées en Biologie Moléculaire ont accéléré le développement de techniques de génotypage haut-débit et ainsi permis le lancement des premières études génétiques d'association à grande échelle. La dimension et la complexité des données issues de ce nouveau type d'étude posent aujourd'hui de nouvelles perspectives statistiques et informatiques nécessaires à leur analyse, constituant le principal axe de recherche de cette thèse.
Après une description introductive des principales problématiques liées aux études d'association à grande échelle, nous abordons plus particulièrement les approches simple-marqueur avec une étude de puissance des principaux tests d'association, ainsi que de leur combinaisons. Nous considérons ensuite l'utilisation d'approches multi-marqueurs avec le développement d'une méthode d'analyse fondée à partir de la statistique du Score Local. Celle-ci permet d'identifier des associations statistiques à partir de régions génomiques complètes, et non plus des marqueurs pris individuellement. Il s'agit d'une méthode simple, rapide et flexible pour laquelle nous évaluons les performances sur des données d'association à grande échelle simulées et réelles. Enfin ce travail traite également du problème du test-multiple, lié aux nombre de tests à réaliser lors de l'analyse de données génétiques ou génomiques haut-débit. La méthode que nous proposons à partir du Score Local prend en compte ce problème. Nous évoquons par ailleurs l'estimation du Local False Discovery Rate à travers un simple modèle de mélange gaussien.
L'ensemble des méthodes décrites dans ce manuscrit ont été implémentées à travers trois logiciels disponibles sur le site du laboratoire Statistique et Génome : fueatest, LHiSA et kerfdr.
Gli stili APA, Harvard, Vancouver, ISO e altri
11

Martins, Helena. "Méthodes statistiques pour identifier l'adaptation locale dans les populations continues et mélangées". Thesis, Université Grenoble Alpes (ComUE), 2018. http://www.theses.fr/2018GREAS022/document.

Testo completo
Abstract (sommario):
La recherche des signatures génétiques de l'adaptation locale est d'un grand intérêt pour de nombreuses études de génétique des populations. Les approches pour trier les loci sélectifs à partir de leur contexte génomique, se concentrent sur les valeurs extrêmes de l'indice de fixation, FST, à travers les loci. Cependant, le calcul de l'indice de fixation devient difficile lorsque la population est génétiquement continue, lorsque la prédéfinition des sous-populations est une tâche difficile et en présence d'individus mélangés dans l'échantillon. Dans cette thèse, nous présentons une nouvelle méthode pour identifier les loci sous sélection basée sur une extension de la statistique FST à des échantillons avec des individus mélangés. Considérant notre objectif d'explorer des méthodes statistiques pour identifier l'adaptation locale dans la population mélangée, nous avons inclus des données spatiales pour calculer les coefficients d'ascendance et les fréquences d'allèles. Pour enrichir notre travail, nous avons investigué les effets du déséquilibre de liaison et des méthodes d'élagage de LD dans les analyses de génomes pour la sélection
Finding genetic signatures of local adaptation is of great interest for many population genetic studies. Common approaches to sorting selective loci from their genomic background focus on the extreme values of the fixation index, FST, across loci. However, the computation of the fixation index becomes challenging when the population is genetically continuous, when predefining subpopulations is a difficult task, and in the presence of admixed individuals in the sample. In this thesis, we present a new method to identify loci under selection based on an extension of the FST statistic to samples with admixed individuals. Considering our goal of exploring statistical methods to identify local adaptation in admixed population, we included spatial data to compute ancestry coefficients and allele frequencies. To enrich our work, we investigated the effects of linkage disequilibrium and LD-pruning methods in genome scans for selection
Gli stili APA, Harvard, Vancouver, ISO e altri
12

Sedki, Mohammed. "Échantillonnage préférentiel adaptatif et méthodes bayésiennes approchées appliquées à la génétique des populations". Phd thesis, Université Montpellier II - Sciences et Techniques du Languedoc, 2012. http://tel.archives-ouvertes.fr/tel-00769095.

Testo completo
Abstract (sommario):
Cette thèse propose et étudie deux techniques d'inférence bayésienne dans les modèles où la vraisemblance possède une composante latente. Dans ce contexte, la vraisemblance d'un jeu de données observé est l'intégrale de la vraisemblance dite complète sur l'espace de la variable latente. On s'intéresse aux cas où l'espace de la variable latente est de très grande dimension et comporte des directions de différentes natures (discrètes et continues), ce qui rend cette intégrale incalculable. Le champs d'application privilégié de cette thèse est l'inférence dans les modèles de génétique des populations. Pour mener leurs études, les généticiens des populations se basent sur l'information génétique extraite des populations du présent et représente la variable observée. L'information incluant l'histoire spatiale et temporelle de l'espèce considérée est inaccessible en général et représente la composante latente. Notre première contribution dans cette thèse suppose que la vraisemblance peut être évaluée via une approximation numériquement coûteuse. Le schéma d'échantillonnage préférentiel adaptatif et multiple (AMIS pour Adaptive Multiple Importance Sampling) de Cornuet et al. nécessite peu d'appels au calcul de la vraisemblance et recycle ces évaluations. Cet algorithme approche la loi a posteriori par un système de particules pondérées. Cette technique est conçue pour pouvoir recycler les simulations obtenues par le processus itératif (la construction séquentielle d'une suite de lois d'importance). Dans les nombreux tests numériques effectués sur des modèles de génétique des populations, l'algorithme AMIS a montré des performances numériques très prometteuses en terme de stabilité. Ces propriétés numériques sont particulièrement adéquates pour notre contexte. Toutefois, la question de la convergence des estimateurs obtenus par cette technique reste largement ouverte. Dans cette thèse, nous montrons des résultats de convergence d'une version légèrement modifiée de cet algorithme. Sur des simulations, nous montrons que ses qualités numériques sont identiques à celles du schéma original. Dans la deuxième contribution de cette thèse, on renonce à l'approximation de la vraisemblance et on supposera seulement que la simulation suivant le modèle (suivant la vraisemblance) est possible. Notre apport est un algorithme ABC séquentiel (Approximate Bayesian Computation). Sur les modèles de la génétique des populations, cette méthode peut se révéler lente lorsqu'on vise une approximation précise de la loi a posteriori. L'algorithme que nous proposons est une amélioration de l'algorithme ABC-SMC de Del Moral et al. que nous optimisons en nombre d'appels aux simulations suivant la vraisemblance, et que nous munissons d'un mécanisme de choix de niveaux d'acceptations auto-calibré. Nous implémentons notre algorithme pour inférer les paramètres d'un scénario évolutif réel et complexe de génétique des populations. Nous montrons que pour la même qualité d'approximation, notre algorithme nécessite deux fois moins de simula- tions par rapport à la méthode ABC avec acceptation couramment utilisée.
Gli stili APA, Harvard, Vancouver, ISO e altri
13

Jomphe, Valérie. "Comparaison de la puissance de tests de déséquilibre de liaison dans les études génétiques". Thesis, Université Laval, 2006. http://www.theses.ulaval.ca/2006/23910/23910.pdf.

Testo completo
Abstract (sommario):
L’identification du gène responsable d’une maladie peut être facilitée par des méthodes statistiques telles que des études d’association basées sur le déséquilibre de liaison. Différentes stratégies d’analyse sont possibles pour ce type d’étude. Comme pour les tests d’association classiques, un devis d’échantillonnage de cas-témoins peut être utilisé. Un deuxième devis possible est l’échantillonnage de trios. On peut également choisir d’étudier l’association allélique ou haplotypique des marqueurs génétiques sélectionn és. La présente étude vise à comparer par voie de simulation la puissance de tests de déséquilibre de liaison selon la stratégie d’analyse choisie. Dans un premier temps, on s’est intéressé à la comparaison des devis d’échantillonnage cas-témoins et trios ; dans un deuxième temps, on a comparé les approches allélique et haplotypique.
Inscrite au Tableau d'honneur de la Faculté des études supérieures
Gli stili APA, Harvard, Vancouver, ISO e altri
14

Kileh, Wais Mohamed. "Méthodes statistiques pour la détection de QTL : nouveaux développements et applications chez le canard mulard". Thesis, Paris, AgroParisTech, 2012. http://www.theses.fr/2012AGPT0054/document.

Testo completo
Abstract (sommario):
La recherche de QTL par régression des phénotypes sur les probabilités de transmission (modèle Haley-Knott) est une méthode très largement utilisée quand on dispose de grandes familles phénotypées par des caractères gaussiens. L'objectif de cette thèse d'un point de vue méthodologique, est de proposer une méthode de détection de QTL qui prend en compte des effectifs de familles petits d'une part, et l'existence de caractères discrets d'autre part. Ainsi, nous proposons, pour répondre à la première question, une approche de détection de QTL intégrant dans le calcul du mérite génétique des individus marqués, les performances calculées sur n générations de descendants. L'obtention d'un mérite génétique dérégressé comme substitut de phénotypes, proposé notamment par Weller et al (1990) et Tribout et al (2008), est donc généralisée. Ensuite, sont présentés les résultats de comparaisons d'un modèle supposant la normalité des données à un modèle à seuils faisant l'hypothèse d'une distribution continue sous jacente à la distribution observée dans la détection de QTL des caractères discrets. Nous démontrons ici que le modèle discret est plus précis et plus puissant quand le caractère étudié possède trois modalités distribuées de façon déséquilibrée dans la population.Dans la deuxième partie de la thèse, l'analyse des données du protocole GENECAN a été réalisée. Il s'agit d'identifier les régions du génome ou locus à caractère quantitatif (QTL), associées à des caractères d'intérêt mesurés sur des canards mulards gavés. Le canard mulard est un hybride interspécifique obtenu par croisement d'une cane commune (Anas platyrhynchos) et d'un canard de Barbarie (Cairina moschata). Trois cents quarante deux canes communes conçues en back-cross (BC) ont été générées par croisement d'une lignée de canard Kaiya et d'une lignée de canard Pékin lourd. Ces femelles BC ont été accouplées avec des canards de Barbarie pour produire 1600 canards mulards sur lesquels sont effectuées des mesures de croissance, de métabolisme au cours de la période de croissance et du gavage, d'aptitude au gavage et de qualités du magret et du foie gras. La valeur phénotypique des femelles BC marquées a été estimée, pour chaque caractère, comme étant la valeur moyenne des phénotypes de sa progéniture et pondérée par un coefficient de détermination (CD) fonction du nombre de descendants et de l'héritabilité du caractère étudié. Une carte génétique de 91 marqueurs microsatellites réparties sur 16 groupes de liaison (GL) et couvrant un total de 778 cM a été utilisée. Dans le cadre de l'analyse uni-caractère, vingt-deux QTL significatifs à 1% au niveau du chromosome ont été cartographiés. Ces QTLs sont pour la plupart impliqués dans la variabilité de la qualité du magret et du foie gras. Les zones chromosomiques d'intérêt, identifiées dans le cadre de cette étude devront dans le futur, être densifiées en marqueurs pour faire l'objet d'une cartographie fine
QTL detection using the regression of phenotypes on transmission probability is largely used when large families phenotyped for Gaussian trait are available. The aim of this thesis from a methodological point of view, is to propose a method for detection of QTL that takes into account the small number of families on the one hand, and the existence of discrete traits on the other. Thus, we propose to answer the first question, an QTL detection approach, integrating in the calculation of genetic merit of genotyped individuals, the performances calculated over n generations of descendants. The use of a ‘de-regressed proof' as a phenotype to be analysed, proposed by Weller et al. (1990) and Tribout et al. (2008) is generalized. Next, we present the results of comparisons of a model assuming normality of the data to a thresholds model assuming a continuous distribution underlying the observed distribution in the QTL detection of discrete traits. Here we demonstrate that the discrete model is more accurate and more powerful when the studied trait has three modalities distributed unevenly in the population.In the second part of the thesis, the data analysis of GENECAN protocol was performed. This is to identify genomic regions or quantitative trait locus (QTL) associated with interest traits measured on over-feed mule ducks. The mule duck is an hybrid duck from a female Common duck (Anas Platyrhynchos) and a Muscovy drake (Cairina moschata). Three hundred forty two common ducks designed by back-cross (BC) were generated by crossing a line of Kaiya duck and a heavy line of Pekin duck. These BC females were mated with Muscovy ducks to produce 1600 mules ducks which undergo measures of growth, metabolism during the growth and over-feeding periods, over-feeding, of breast muscle and fatty liver qualities. The phenotypic value of genotyped BC females was estimated for each trait as the average phenotypes of their offspring and weighted by a coefficient of determination (CD) function on the number of offspring and heritability of the studied trait. The genetic map comprised 91 microsatellite markers aggregated into 16 linkage groups (LG) and representing 778 cM. For the uni-trait analysis, twenty-two QTL significant at 1% threshold in chromosome-wide have been mapped. These QTLs are mostly involved in the variability of the breast muscle and fatty liver qualities. Chromosomal regions of interest identified in the framework of this study should be in the future be densified to markers to do the fine mapping
Gli stili APA, Harvard, Vancouver, ISO e altri
15

Persyn, Elodie. "Analyse d’association de variants génétiques rares dans une population démographiquement stable". Thesis, Nantes, 2017. http://www.theses.fr/2017NANT1016/document.

Testo completo
Abstract (sommario):
Les études d’association sur génome entier ont permis d’identifier de nombreux facteurs de risque génétiques impliqués dans des maladies complexes. Il apparaît cependant que les variants fréquents n’expliquent qu’une faible partie de l’héritabilité des maladies. Une partie non négligeable serait due à la présence de variants rares avec des effets génétiques plus forts. Tester l’association de ces variants est problématique du fait de leur faible fréquence dans la population générale. De nombreuses méthodes statistiques ont été développées avec la stratégie commune d’agréger l’information pour un groupe de variants. Cette thèse a pour objectif de comparer les principales stratégies à l’aide de simulations de différents scénarios génétiques et de l’application à de vraies données de séquençage. Nous avons aussi développé un test, appelé DoEstRare, comparant les distributions des positions des variants rares entre les cas et les témoins, afin de détecter des regroupements de variants dans des régions locales. Enfin, il a été montré qu’une structure de population est un facteur de confusion pour l’interprétation des résultats d’analyse de variants rares. Avec le recrutement de témoins pour les analyses, avec des projets tels que French Exome et VACARME, il est alors nécessaire de comprendre l’impact d’une structure à fine échelle géographique (e.g. échelle de la France) pour les différentes stratégies statistiques. La seconde partie de cette thèse consiste à évaluer cet impact au moyen de simulations de données génétiques pour des structures géographiques locales
Genome-wide association studies have identified many common risk alleles for a wide variety of complex diseases. However these common variants explain a very small part of the heritability. A hypothesis is the presence of rare genetic variants with stronger effects. Testing the association of those rare variants is challenging due to their low frequency in populations. Many statistical methods have been developed with the strategy to aggregate the information for a group a rare variants. This thesis aims to compare the main strategies through simulating under various genetic scenarios and the application to real sequencing data. We also developed a statistical test, called DoEstRare, which can detect clustered disease-risk variants in local genetic regions, by comparing the position distributions between cases and controls. Moreover, it has been shown that population stratification represents a confounding factor in the analysis interpretations for rare variants. With the recruitment of controls, in the context of projects such as French Exome and VACARME, it is necessary to assess the impact of a very fine geographical structure (France) for different statistical strategies. The second part of this thesis consists in estimating this impact by simulating fine-scale population structures
Gli stili APA, Harvard, Vancouver, ISO e altri
16

Elfassihi, Latifa. "Modèles d'analyse simultanée et conditionnelle pour évaluer les associations entre les haplotypes des gènes de susceptibilité et les traits des maladies complexes : Application aux gènes candidats de l'ostéoporose". Thesis, Université Laval, 2010. http://www.theses.ulaval.ca/2010/27404/27404.pdf.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
17

Savard, Nathalie. "Méthode d'analyse de liaison génétique pour des familles dans lesquelles il y a de l'hétérogénéité non-allélique intra-familiale". Master's thesis, Université Laval, 2006. http://hdl.handle.net/20.500.11794/18233.

Testo completo
Abstract (sommario):
Dans cet ouvrage, une méthode d'analyse de liaison génétique qui tient compte de l'hétérogénéité non-allélique est développée. Nous proposons une modification à l'analyse à un locus par le modèle de Smith qui tient compte de l'hétérogénéité inter-familiale afin de s'adapter à la présence d'hétérogénéité intra-familiale. Notre approche consiste d'abord à décomposer des familles tri-générationnelles en branches individuelles, soit en familles bi-générationnelles. Par cette décomposition, l'hétérogénéité intra-familiale est "transformée" en hétérogénéité inter-familiale. Les familles bi-générationnelles sont ensuite analysées à l'aide d'un locus et du modèle de Smith. La puissance de la méthode proposée est comparée à celle de plusieurs autres analyses, notamment à celle de l'analyse des familles tri-générationnelles lorsqu'il y a hétérogénéité intra-familiale. On vérifie également si le découpage des familles fait gonfler la proportion d'erreurs de type I.
This study presents a linkage analysis method for cases of recombination heterogeneity when it is located in bilineal pedigrees. We propose a modification of the single-locus analysis by Smith's admixture model - which is concerned with inter-familial heterogeneity - so it becomes more appropriate for cases of intra-familial heterogeneity. Our approach first consists in decomposing large pedigrees into nuclear pedigrees so that the intra-familial heterogeneity of the large pedigrees is transformed into inter-familial heterogeneity between the nuclear pedigrees. Then, the nuclear pedigrees are considered both with a single-locus analysis and Smith's admixture model. The power of the proposed method is compared to the power of other methods, including the power of the specific case where there is intra-familialheterogeneity in large pedigrees. We also verify if the decomposition of the pedigrees results in a bigger proportion of type I errors.
Gli stili APA, Harvard, Vancouver, ISO e altri
18

Larouche, Geneviève. "Le dépistage par mammographie chez les femmes ayant été testées pour les gènes BRCA1/2 : évaluation des méthodes de rapport et comparaison des taux d'utilisation après et avant le test génétique". Doctoral thesis, Université Laval, 2016. http://hdl.handle.net/20.500.11794/27327.

Testo completo
Abstract (sommario):
Cette thèse vise globalement à évaluer l’effet du test BRCA1/2 sur les pratiques de dépistage du cancer du sein en fonction du résultat de ce test génétique. Trois études ont été réalisées afin d’atteindre cet objectif. Les femmes incluses dans ces études ont été testées pour une susceptibilité génétique aux cancers du sein et de l'ovaire dans le cadre du programme de recherche INHERIT BRCAs (INterdisciplinary HEalth Research Team on BReast CAncer susceptibility), mené entre 1998 et 2004. Des données auto-rapportées et des données administratives de la Régie de l’assurance maladie du Québec (RAMQ) concernant ces participantes ont été utilisées. Les résultats obtenus au cours des deux premières études ont influencé la poursuite du projet de recherche. Puisque les femmes ayant été testées pour BRCA1/2 tendent à surestimer leur recours à la mammographie, il s’avère préférable d’utiliser des données administratives afin d’évaluer leur recours aux méthodes de dépistage du cancer du sein plutôt que des données auto-rapportées. Au Québec, les données de la RAMQ sont ainsi à privilégier pour évaluer l’adhésion au dépistage par mammographie suivant le test génétique BRCA1/2, d’autant plus qu’elles comportent des codes d’actes spécifiques pour cet examen, qu’il ait été réalisé en milieu hospitalier ou en clinique privée. L’analyse des données de la RAMQ, dans le cadre de l’étude principale de cette thèse, suggère que les femmes porteuses d’une mutation BRCA1/2 et celles ayant reçu un résultat non concluant ont passé davantage de mammographies après leur test génétique qu’avant ce test, mais non les femmes non porteuses. En conclusion, cette thèse a permis de mieux comprendre l’utilisation à long terme de la mammographie à la suite du test génétique BRCA1/2 et a notamment montré que les jeunes femmes non porteuses, contrairement à ce qui aurait été attendu, n’ont pas modifié leur utilisation de la mammographie après leur test génétique. Ces femmes pourraient donc bénéficier d’interventions visant à leur assurer un suivi plus adapté à leur niveau de risque de cancer du sein ou de l’ovaire. Dans un contexte où les ressources en santé sont limitées, il est primordial qu’elles soient utilisées de façon optimale, et un dépistage plus adapté au niveau de risque de cancer est une façon de tendre vers cet objectif. Toutefois, la mise en place éventuelle d’une approche de stratification du risque de cancer du sein et de mesures de dépistage personnalisé devrait entraîner une modification des recommandations actuelles de dépistage du cancer du sein. Il sera donc nécessaire d’évaluer l’adhésion des femmes et des médecins envers ces nouvelles approches.
This thesis aims to assess the effect of BRCA1/2 genetic testing on screening practices according to test results. Three studies were carried out. The participants in these studies were tested for genetic susceptibility to breast and ovarian cancer in the INHERIT BRCAs (Interdisciplinary Health Research Team on BReast CAncer susceptibility) research program, conducted between 1998 and 2004. Self-reported and administrative data from the Quebec Health Insurance Board database (“Régie de l'assurance maladie du Québec” (RAMQ)) for these participants were used. The results from the first two studies were used to support methodological choices in the main study. Since women who were tested for BRCA1/2 tend to overestimate their use of mammography, administrative data are preferable than self-reported information to assess their use of breast cancer screening. RAMQ data are thus considered as a better means of assessing mammography screening following genetic testing BRCA1/2, since specific procedure codes covering all mammography exams, whether done in a private clinic or hospital, can be tracked. Analyses of RAMQ data carried out in the main study suggest that BRCA1/2 mutation carriers and women with an inconclusive test result had more screening mammography after, than prior to, genetic testing. Conversely, non-carriers did not have more breast screening exams. In conclusion, this thesis has allowed a better understanding of the long-term use of mammography after BRCA1/2 genetic testing. It specifically showed that young female non-carriers, contrary to what was expected, do not change their use of mammography after genetic testing. These women could therefore benefit from interventions to improve their cancer screening to their specific level of risk for breast and ovarian cancer. Cancer screening methods that are better adapted to cancer risk would contribute to optimizing utilisation of health resources. Indeed, a stratification risk approach to breast cancer and personalized screening measures should lead to changes in the current recommendations for breast cancer screening. The adherence of women and physicians to these new approaches will then need to be further evaluated.
Gli stili APA, Harvard, Vancouver, ISO e altri
19

Saad, Mohamad. "Méthodes statistiques et stratégies d'études d'association de phénotypes complexes : études pan-génomiques de la maladie de Parkinson". Toulouse 3, 2012. http://thesesups.ups-tlse.fr/1657/.

Testo completo
Abstract (sommario):
Mon travail de thèse s'intéresse aux méthodes statistiques et stratégies d'étude de la composante génétique de maladies complexes chez l'homme et spécifiquement de la Maladie de Parkinson (MP). Ces travaux sont principalement développés dans le cadre d'études d'association pan-génomiques dans deux contextes : détection de variants fréquents et détection de variants rares. Le criblage du génome entier (GWAS) est une stratégie d'étude optimale à condition de bien contrôler les niveaux des erreurs de type I et de type II. En effet, un grand nombre de tests statistiques sont réalisés ; des problèmes de stratification de population sont possibles et leurs effets doivent être contrôlés. Par ailleurs, malgré leurs tailles d'échantillon relativement importantes, les études GWAS, basées sur le test simple-marqueur, peuvent s'avérer individuellement peu puissantes pour détecter des variants génétiques fréquents à effets faibles. L'utilisation des tests multi-marqueur peut optimiser l'utilisation de la variabilité génétique et donc augmenter la puissance des études GWAS. Je me suis intéressé à l'étude de ces tests et spécifiquement le test " SNP-Set " basé sur la méthode statistique de noyau et le test haplotypique. J'ai étudié les aspects théoriques de ces tests et j'ai évalué leurs propriétés statistiques dans nos données empiriques de MP. Ainsi pour nos analyses de MP, j'ai développé des techniques d'imputations et de méta-analyses afin d'augmenter la couverture de la variabilité génétique et la taille d'échantillon. L'analyse d'association pour des variants rares présente plusieurs défis. Le test d'association simple-marqueur ne permet pas d'étudier tels variants et le coût des analyses à grande échelle de données de séquence reste prohibitif pour l'étude de maladies complexes. Notre design d'étude est une approche alternative qui repose sur la combinaison de données publiques de séquence aux données GWAS. Différents tests d'association pour l'étude de variants rares ont été récemment proposés mais leurs propriétés statistiques sont à ce jour mal connues. Par ailleurs, à l'échelle pan-génomique, les erreurs de type I et de type II de ces méthodes peuvent être influencées par certains facteurs comme la longueur du gène, l'hétérogénéité allélique dans le gène, le LD entre SNPs, le chevauchement entre gènes et la corrélation SNPs fréquents et maladie. J'ai évalué les propriétés statistiques de plusieurs de ces méthodes dans des données simulées et aussi dans nos données de MP. Nous montrons que plusieurs méthodes, basées sur le modèle linéaire mixte, sont mathématiquement équivalentes et que certaines sont des cas particuliers d'autres. En conclusion, nous avons développé des stratégies et méthodes d'analyse, combinant des approches complémentaires (Maladie commune-variant fréquent vs Maladie commune -variant rare) dans le but d'optimiser la caractérisation de la composante génétique de MP en particulier et de maladies complexes en générale
My thesis has focused on statistical methods and strategies to study the genetic components of complex human traits and especially of Parkinson's Disease (PD). My work was developed mainly in two contexts of genome wide association studies (GWAS): the detection of common variants and the detection of rare variants. GWAS is an optimal approach in which we have to control for the type I error and the type II error rates. Indeed, a large number of tests are performed. In addition, we must control for potential population stratification problems. Despite the large sample sizes in recent GWASs based on the single-marker test, they may have individually low power to detect common variants with small effects. The use of the multi-marker test may optimize the coverage of genetic variability and thus increase the power of GWAS. I have focused on the study of these tests, especially the "SNP-Set" test based on kernel machine regression and the haplotypic test. I studied the theoretical aspects of these tests and I evaluated the statistical properties in our empirical data for PD. In addition, in our analyses for PD, I developed imputation and meta-analysis techniques to increase the coverage of the genetic variability and the sample size. Association analysis for rare variants faces several challenges. The single marker test is not powerful to detect such variants and the cost of whole-genome sequence analyses for complex traits is still prohibitive. Our design is a cost-effective alternative which is based on the joint use of public sequence data and GWAS data. Several new tests have been proposed but, to date, their statistical properties are still unclear. On the genome-wide level, the type I error and the type II error rates may depend on several factors as gene length, allelic heterogeneity in the gene, LD between SNPs, overlap between genes and the correlation between the common variants and the trait. I evaluated the statistical properties of several methods in simulated data and also in our GWAS PD data. We show that several methods, based on the linear mixed model, are mathematically equivalent and some are special cases of others. In conclusion, we developed strategies and analytical methods which combine complementary approaches (Common Disease-Common Variant versus Common Disease-Rare Variant) to optimize the characterization of the genetic components of PD in particular and of complex traits in general
Gli stili APA, Harvard, Vancouver, ISO e altri
20

Merle, Coralie. "Nouvelles méthodes d'inférence de l'histoire démographique à partir de données génétiques". Thesis, Montpellier, 2016. http://www.theses.fr/2016MONTT269/document.

Testo completo
Abstract (sommario):
Cette thèse consiste à améliorer les outils statistiques adaptés à des modèles stochastiques de génétiques des populations et de développer des méthodes statistiques adaptées à des données génétiques de nouvelle génération. Pour un modèle paramétrique basé sur le coalescent, la vraisemblance en un point de l'espace des paramètres s'écrit comme la somme des probabilités de toutes les histoires (généalogies munies de mutations) possibles de l'échantillon observé. À l'heure actuelle, les meilleures méthodes d'inférence des paramètres de ce type de modèles sont les méthodes bayésiennes approchées et l'approximation de la fonction de vraisemblance.L'algorithme d'échantillonnage préférentiel séquentiel (SIS) estime la vraisemblance, en parcourant de manière efficace l'espace latent de ces histoires. Dans ce schéma, la distribution d'importance propose les histoires de l'échantillon observé les plus probables possibles. Cette technique est lourde en temps de calcul mais fournit des estimations par maximum de vraisemblance d'une grande précision.Les modèles que nous souhaitons inférer incluent des variations de la taille de la population. Les méthodes d'IS ne sont pas efficaces pour des modèles en déséquilibre car les distributions d'importance ont été développées pour une population de taille constante au cours du temps. Le temps de calcul augmente fortement pour la même précision de l'estimation de la vraisemblance. La première contribution de cette thèse a consisté à explorer l'algorithme SIS avec ré-échantillonnage (SISR). L'idée est de ré-échantillonner de façon à apprendre quelles sont les histoires proposées par la distribution d'importance qui seront les plus probables avant d'avoir terminé leur simulation et diminuer le temps de calcul. Par ailleurs, nous avons proposé une nouvelle distribution de ré-échantillonnage, tirant profit de l'information contenue dans la vraisemblance composite par paire de l'échantillon.Le développement récent des technologies de séquençage à haut débit a révolutionné la génération de données de polymorphisme chez de nombreux organismes. Les méthodes d'inférence classiques de maximum de vraisemblance ou basées sur le Sites Frequency Spectrum, adaptées à des jeux de données de polymorphisme génétique de quelques loci, supposent l'indépendance des généalogies des loci. Pour tirer parti de données beaucoup plus denses sur le génome, nous considérons la dépendance des généalogies sur des positions voisines du génome et modéliser la recombinaison génétique. Alors, la vraisemblance prend la forme d'une intégrale sur tous les graphes de recombinaison ancestraux possibles pour les séquences échantillonnées, un espace de bien plus grande dimension que l'espace des généalogies. Les méthodes d'inférence basées sur la vraisemblance ne peuvent plus être utilisées sans plus d'approximations. De nombreuses méthodes infèrent les changements historiques de la taille de la population mais ne considèrent pas la complexité du modèle ajusté. Même si certaines proposent un contrôle d'un potentiel sur-ajustement du modèle, à notre connaissance, aucune procédure de choix de modèle entre des modèles démographiques de complexité différente n'a été proposée à partir de longueurs de segments identiques. Nous nous concentrons sur un modèle de taille de population constante et un modèle de population ayant subit un unique changement de taille dans le passé. Puisque ces modèles sont emboîtés, la deuxième contribution de cette thèse a consisté à développer un critère de choix de modèle pénalisé basé sur la comparaison d'homozygotie haplotypique observée et théorique. Notre pénalisation, reposant sur des indices de sensibilité de Sobol, est liée à la complexité du modèle. Ce critère pénalisé de choix de modèle nous a permis de choisir entre un modèle de taille de population constante ou présentant un changement passé de la taille de la population sur des jeux de données simulés et sur un jeux de données de vaches
This thesis aims to improve statistical methods suitable for stochastic models of population genetics and to develop statistical methods adapted to next generation sequencing data.Sequential importance sampling algorithms have been defined to estimate likelihoods in models of ancestral population processes. However, these algorithms are based on features of the models with constant population size, and become inefficient when the population size varies in time, making likelihood-based inferences difficult in many demographic situations. In the first contribution of this thesis, we modify a previous sequential importance sampling algorithm to improve the efficiency of the likelihood estimation. Our procedure is still based on features of the model with constant size, but uses a resampling technique with a new resampling probability distribution depending on the pairwise composite likelihood. We tested our algorithm, called sequential importance sampling with resampling (SISR) on simulated data sets under different demographic cases. In most cases, we divided the computational cost by two for the same accuracy of inference, in some cases even by one hundred. This work provides the first assessment of the impact of such resampling techniques on parameter inference using sequential importance sampling, and extends the range of situations where likelihood inferences can be easily performed.The recent development of high-throughput sequencing technologies has revolutionized the generation of genetic data for many organisms : genome wide sequence data are now available. Classical inference methods (maximum likelihood methods (MCMC, IS), methods based on the Sites Frequency Spectrum (SFS)) suitable for polymorphism data sets of some loci assume that the genealogies of the loci are independent. To take advantage of genome wide sequence data with known genome, we need to consider the dependency of genealogies of adjacent positions in the genome. Thus, when we model recombination, the likelihood takes the form of an integral over all possible ancestral recombination graph for the sampled sequences. This space is of much larger dimension than the genealogies space, to the extent that we cannot handle likelihood-based inference while modeling recombination without further approximations.Several methods infer the historical changes in the effective population size but do not consider the complexity of the demographic model fitted.Even if some of them propose a control for potential over-fitting, to the best of our knowledge, no model choice procedure between demographic models of different complexity have been proposed based on IBS segment lengths. The aim of the second contribution of this thesis is to overcome this lack by proposing a model choice procedure between demographic models of different complexity. We focus on a simple model of constant population size and a slightly more complex model with a single past change in the population size.Since these models are embedded, we developed a penalized model choice criterion based on the comparison of observed and predicted haplotype homozygosity.Our penalization relies on Sobol's sensitivity indices and is a form of penalty related to the complexity of the model.This penalized model choice criterion allowed us to choose between a population of constant size and a population size with a past change on simulated data sets and also on a cattle data set
Gli stili APA, Harvard, Vancouver, ISO e altri
21

Pellay, François-Xavier. "Méthodes d'estimation statistique de la qualité et méta-analyse de données transcriptomiques pour la recherche biomédicale". Thesis, Lille 1, 2008. http://www.theses.fr/2008LIL10058/document.

Testo completo
Abstract (sommario):
La connaissance des gènes exprimés dans une cellule, dans des conditions physiologiques ou pathologiques, est un élément essentiel à la compréhension des phénomènes biologiques qui la gouvernent. Parmi les technologies permettant de mesurer l'expression génique, la plus utilisée est la technologie des puces à ADN capable de mesurer l'abondance relative des gènes exprimés dans les cellules. Les puces qualifiées de pangénomiques sont supposées couvrir l'ensemble des gènes existants, soit près de trente-mille dans l'espèce humaine. La mesure, l'analyse et l'interprétation d'une telle quantité de données posent un certain nombre de problèmes et la maîtrise des méthodes d'analyse utilisées déterminera la fiabilité et la précision des informations obtenues. Le but de cette thèse est de définir des méthodes permettant de contrôler les mesures, d'améliorer l'analyse et d'approfondir l'interprétation des données transcriptomiques afin d'en optimiser l'utilisation et de pouvoir appliquer ces méthodes pour analyser le transcriptome de patient atteint de leucémie myélomonocytalre juvénile dans le but d'améliorer le diagnostic et de comprendre les mécanismes biologiques de cette maladie rare. Nous avons ainsi développé, et validé au travers de nombreux projets indépendants, un programme de contrôle qualité des puces, ainsi qu'un logiciel qui permet d'améliorer les interprétations biologiques des données microarrays basées sur les ontologies des gènes, et un outil de visualisation et d'analyse globale des voies de signalisation. Enfin, en combinant plusieurs des approches , décrites, nous avons mis au point une méthode pour obtenir des signatures biologiques fiables à des fins diagnostiques
To understand the biological phenomena taking place in a cell under physiological or pathological conditions, it is essential to know the genes that it expresses Measuring genetic expression can be done with DNA chlp technology on which are set out thousands of probes that can measure the relative abundance of the genes expressed in the cell. The microarrays called pangenomic are supposed to cover all existing proteincoding genes, that is to say currently around thirty-thousand for human beings. The measure, analysis and interpretation of such data poses a number of problems and the analytlcal methods used will determine the reliability and accuracy of information obtained with the microarrays technology. The aim of thls thesis is to define methods to control measures, improve the analysis and deepen interpretation of microarrays to optimize their utilization in order to apply these methods in the transcriptome analysis of juvenile myelomocytic leukemia patients, to improve the diagnostic and understand the biological mechanisms behind this rare disease. We thereby developed and validated through several independent studies, a quality control program for microarrays, ace.map QC, a software that improves biological Interpretations of microarrays data based on genes ontologies and a visualization tool for global analysis of signaling pathways. Finally, combining the different approaches described, we have developed a method to obtain reliable biological signatures for diagnostic purposes
Gli stili APA, Harvard, Vancouver, ISO e altri
22

Laporte, Fabien. "Développement de méthodes statistiques pour l'identification de gènes d'intérêt en présence d'apparentement et de dominance, application à la génétique du maïs". Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLS066.

Testo completo
Abstract (sommario):
La détection de gènes est une étape importante dans la compréhension des effets de l'information génétique d'un individu sur ses caractères phénotypiques. Durant mon doctorat, j'ai étudié les méthodes statistiques pour conduire les analyses de génétique d'association, avec les hybrides de maïs comme modèle d'application. Je me suis tout d'abord intéressé à l'estimation des paramètres d'apparentement entre individus à partir de données de marqueurs bialléliques. Cette estimation est réalisée dans le cadre d'un modèle de mélange paramétrique. J'ai étudié l'identifiabilité de ce modèle dans un cadre général mais aussi dans un cadre plus spécifique où les individus étudiés étaient issus de croisements entre lignées, cadre représentatif des plans de croisement classiquement utilisés en génétique végétale. Je me suis ensuite intéressé à l'estimation des paramètres des modèles mixtes à plusieurs composantes de variance et plus particulièrement à la performance des algorithmes pour tester l'effet de très nombreux marqueurs. J'ai comparé pour cela des logiciels existants et optimisé un algorithme Min-Max. La pertinence des différentes méthodes développées a finalement été illustrée dans le cadre de la détection de QTL à travers une analyse d'association réalisée sur un panel d'hybrides de maïs
The detection of genes is a first step to understand the impact of the genetic information of individuals on their phenotypes. During my PhD, I studied statistical methods to perform genome-wide association studies, with maize hybrids as an application case. Firstly, I studied the inference of relatedness coefficients between individuals from biallelic marker data. This estimation is based on a parametric mixture model. I studied the identifiability of this model in the generic case but also in the specific case of mating design where observed individuals are obtained by crossing lines, a representative case of classical mating design in plant genetics. Then I studied inference of variance component mixed model parameters and particularly the performance of algorithms to test effects of numerous markers. I compared existing programs and I optimized a Min-Max algorithm. Relevance of developed methods had been illustrated for the detection of QTLs through a genome-wide association analysis in a maize hybrids panel
Gli stili APA, Harvard, Vancouver, ISO e altri
23

Foll, Matthieu. "Méthodes bayesiennes pour l'estimation de l'histoire démographique et de la pression de sélection à partir de la structure génétique des populations". Phd thesis, Grenoble 1, 2007. http://www.theses.fr/2007GRE10280.

Testo completo
Abstract (sommario):
Les récents progrès, dans les domaines de la biologie computationnelle et des techniques de biologie moléculaire, ont conduit à l'émergence d'une nouvelle discipline appelée génomique des populations, et dont l'un des objectifs principaux est l'étude de la structure spatiale de la diversité génétique. Cette structure est déterminée à la fois par des forces neutres, comme la migration et la dérive, et des forces adaptatives comme la sélection naturelle, et trouve des applications importantes dans de nombreux domaines comme la génétique médicale ou la biologie de la conservation. Nous développons ici de nouvelles méthodes statistiques pour évaluer le rôle de la sélection naturelle et de l'environnement dans cette structure spatiale. Le modèle bayésien Dirichlet-multinomial de différenciation génétique est utilisé comme base à ces différentes méthodes. Dans un premier temps, nous proposons d'inclure des variables environnementales dans l'estimation de la structure génétique afin d'identifier les facteurs biotiques et abiotiques qui la déterminent. Ensuite, nous étudions la possibilité d'étendre le modèle Dirichlet-multinomial aux marqueurs dominants, devenus très populaires ces dernières années, mais affectés par différents biais de recrutement. Enfin, nous cherchons à séparer les effets neutres des effets de la sélection naturelle, afin, en particulier, d'identifier les régions du génome qui y sont soumis. Trois bases de données ont été analysées pour illustrer l'utilisation de ces nouvelles méthodes : des données humaines, des données de l'arganier du Maroc et des données de littorine. Finalement, nous avons développé trois logiciels implémentant ces différents modèles
Recent advances in the fields of computational biology and molecular biology techniques have led to the emerging discipline of population genomics, whose main objective is the study of the spatial structure of genetic diversity. This structure is determined by both neutral forces, like migration and drift, and adaptive forces, like natural selection, and has important applications in many fields like medical genetics or conservation biology. Here, we develop new statistical methods to evaluate the role of natural selection and environment in this spatial structure. All these methods are based on the Bayesian Dirichlet-multinomial model of genetic differentiation. First, we propose to include environmental variables in the estimation process, in order to identify the biotic and abiotic factors that determine the genetic structure. Then, we study the possibility of extending the Dirichlet-multinomial model to dominant markers, which have become very popular in the last few years, but which are affected by various ascertainment biases. Finally, we try to separate neutral effects from adaptive effects on the genetic structure, in order to identify regions of the genome influenced by natural selection. Three databases have been analyzed as illustrations of the use of these new methods: human data, data of argan tree in Morocco, and data of periwinkle. Finally, we developed three softwares implementing these various models
Gli stili APA, Harvard, Vancouver, ISO e altri
24

Foll, Matthieu. "Méthodes bayesiennes pour l'estimation de l'histoire démographique et de la pression de sélection à partir de la structure génétique des populations". Phd thesis, Université Joseph Fourier (Grenoble), 2007. http://tel.archives-ouvertes.fr/tel-00216192.

Testo completo
Abstract (sommario):
Les récents progrès, dans les domaines de la biologie computationnelle et des techniques de biologie moléculaire, ont conduit à l'émergence d'une nouvelle discipline appelée génomique des populations, et dont l'un des objectifs principaux est l'étude de la structure spatiale de la diversité génétique. Cette structure est déterminée à la fois par des forces neutres, comme la migration et la dérive, et des forces adaptatives comme la sélection naturelle, et trouve des applications importantes dans de nombreux domaines comme la génétique médicale ou la biologie de la conservation. Nous développons ici de nouvelles méthodes statistiques pour évaluer le rôle de la sélection naturelle et de l'environnement dans cette structure spatiale. Le modèle bayésien Dirichlet-multinomial de différenciation génétique est utilisé comme base à ces différentes méthodes. Dans un premier temps, nous proposons d'inclure des variables environnementales dans l'estimation de la structure génétique afin d'identifier les facteurs biotiques et abiotiques qui la déterminent. Ensuite, nous étudions la possibilité d'étendre le modèle Dirichlet-multinomial aux marqueurs dominants, devenus très populaires ces dernières années, mais affectés par différents biais de recrutement. Enfin, nous cherchons à séparer les effets neutres des effets de la sélection naturelle, afin, en particulier, d'identifier les régions du génome qui y sont soumis. Trois bases de données ont été analysées pour illustrer l'utilisation de ces nouvelles méthodes : des données humaines, des données de l'arganier du Maroc et des données de littorine. Finalement, nous avons développé trois logiciels implémentant ces différents modèles.
Gli stili APA, Harvard, Vancouver, ISO e altri
25

Talbot, Denis. "Estimation de la variance et construction d'intervalles de confiance pour le ratio standardisé de mortalité avec application à l'évaluation d'un programme de dépistage du cancer". Thesis, Université Laval, 2010. http://www.theses.ulaval.ca/2010/27373/27373.pdf.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
26

Hurel, Julie. "Détection d'organismes génétiquement modifiés (OGM) inconnus par analyse statistique de données de séquençage haut débit". Thesis, Rennes 1, 2020. http://www.theses.fr/2020REN1B027.

Testo completo
Abstract (sommario):
L’Union Européenne a adopté une politique très restrictive vis-à-vis de la diffusion et de l’utilisation des organismes génétiquement modifiés (OGM), dont l'utilisation dans l'alimentation est mal acceptée par les consommateurs. Bien qu'un seuil maximal existe pour qu'un aliment soit étiqueté « sans OGM », ne sont aisément détectables que les OGM connus. Un OGM est constitué principalement d’un génome hôte et d’une séquence insérée par un procédé non naturel conférent une propriété particulière à l’organisme comme la résistance à certaines maladies. Depuis quelques années, des OGM dont la séquence insérée n’est pas connue ont été produits, non détectables par des approches utilisées jusqu'à présent (de type PCR). D'où la nécessité de créer un outil de détection d'OGM inconnus, objet de cette thèse, s'appuyant sur les avancées récentes en terme de séquençage haut débit. Statistiquement, chaque organisme a une fréquence d’utilisation des nucléotides dans son génome qui lui est propre. Toute introduction de matériel génétique étranger va modifier localement les fréquences d’utilisation des nucléotides dans cette région, entraînant ainsi des fréquences d’utilisation des nucléotides différentes de celles de l’organisme hôte. En se basant sur cette affirmation, un outil de détection d'OGM inconnu a été mis au point à partir de données de séquençages bactériens dès lors que cet OGM résulte de l'insertion d'un gène étranger, de la troncation ou de la fusion d'un gène pouvant appartenir au génome hôte. L’outil a été testé sur 4 génomes bactériens OGM, 7 génomes bactériens sauvages et sur 42 génomes synthétiques. Les résultats démontrent l’efficacité de la méthode développée ne présentant qu'un gène faux positif et en identifiant plus de 99% des gènes d'inserts OGM
The European Union has adopted a very restrictive policy towards the dissemination and use of genetically modified organisms (GMOs), whose use in food is not well accepted by consumers. Although a maximum threshold exists for a food to be labelled "GM-free", only known GMOs are easily detectable. A GMO consists mainly of a host genome and a sequence inserted by a non-natural process that confers a particular property on the organism, such as resistance to certain diseases. In recent years, GMOs with an inserted sequence that is not known have been produced that are not detectable by approaches used until now (PCR-type). Hence the need to propose a tool for the detection of unknown GMOs, the subject of this thesis, based on recent advances in terms of high-throughput sequencing. Statistically, each organism has a specific frequency of nucleotide use in its genome. Any introduction of foreign genetic material will locally alter the nucleotide use frequencies in that region, resulting in different nucleotide use frequencies compared to those of the host organism. Based on this assertion, an unknown GMO detection tool has been developed from bacterial sequencing data when the GMO results from the insertion of a foreign gene, the truncation or fusion of a gene that may belong to the host genome. The tool has been tested on 4 GMO bacterial genomes, 7 wild bacterial genomes and 42 synthetic bacterial genomes. The results demonstrate the effectiveness of the method developed by presenting only one false positive gene and identifying more than 99% of the genes of GMO inserts
Gli stili APA, Harvard, Vancouver, ISO e altri
27

Nshimyumukiza, Léon. "Cell-free DNA-based noninvasive prenatal screening for Down syndrome in the Quebec healthcare system : health economic aspects". Doctoral thesis, Université Laval, 2017. http://hdl.handle.net/20.500.11794/27889.

Testo completo
Abstract (sommario):
Introduction: Au Québec, environ 110 000 femmes enceintes sont éligibles au dépistage prénatal volontaire de la trisomie 21(T21). Différentes stratégies de dépistage sélectionnent environ 4% des femmes à haut risque pour le test invasif (amniocentèse) en vue d'un diagnostic définitif. Les nouveaux tests génomiques prénataux non invasifs (TGPNI) utilisant l'ADN fœtal circulant dans le sang maternel pourraient réduire ces procédures invasives. Leur introduction dans les programmes nationaux de dépistage requiert cependant que des données sur leur coût-efficacité et leur impact budgétaire soient produites. Objectifs : L’objectif principal de cette thèse était d'évaluer les aspects économiques attendus de l'introduction du TGNI dans le programme québécois de dépistage de la trisomie 21. La première étude a consisté en une revue systématique de la littérature des évaluations économiques sur les TGPNI. La deuxième étude a porté sur l'évaluation économique de 7 stratégies de dépistages incluant le TGPNI comparées ainsi que des 6 stratégies de dépistage traditionnelles recommandées par la Société canadienne d’obstétrique et de gynécologie(SOGC). La troisième étude a porté sur l'évaluation de l'impact budgétaire attendu de l’implantation du dépistage par TGPNI dans le programme québécois de dépistage de la trisomie 21. Méthodologie: Une revue systématique de la littérature a été réalisée pour la première étude. Pour la deuxième étude, ainsi que la troisième, des modèles de décision semi-markoviens ont été élaborés pour simuler l’évaluation économique et l'impact budgétaire du dépistage par TGPNI pour une cohorte virtuelle de femmes enceintes similaire à celle des femmes enceintes du Québec en termes d'âge et de nombre de grossesses par âge. La perspective du système de santé québécois a été considérée. Pour l’évaluation économique, 13 stratégies de dépistage ont été comparées : 6 traditionnelles recommandées par la Société canadienne d’obstétrique et de gynécologie, 6 incluant le TGPNI comme test de dépistage de deuxième intention et 1 considérant le TGPNI en première intention. Quant à l’analyse d’impact budgétaire, elle a porté sur l’option considérée comme la plus coût-efficace par la deuxième étude, c’est-à-dire le TGPNI en deuxième intention offert aux femmes à haut risque (Sérum intégré +TGPNI). Cette option a été comparée à la stratégie actuellement offerte par le programme de dépistage au Québec (Sérum intégré). La principale issue pour l'analyse coût-efficacité était le coût additionnel par trisomie 21 additionnelle détectée. Celle de l'analyse d'impact budgétaire était la différence de coûts entre la stratégie incluant le TGPNI et la stratégie de dépistage actuelle. Résultats: La première étude qui a inclus 16 études a révélé que par rapport aux stratégies de dépistage actuelles, la stratégie offrant le TGPNI à toutes les femmes n'était pas coût-efficace. C'est l'option du TGPNI offert aux femmes enceintes à risque élevé qui s'avère l'option la plus coût-efficace dans la majorité des études incluses. La deuxième étude a montré que, sur un total de 13 stratégies comparées, la stratégie « Dépistage par sérum intégré suivie par le TGPNI » est celle qui coûte le moins cher et la stratégie « TGPNI universel » est celle qui coûte le plus bien qu'étant la plus efficace. Ainsi, la stratégie « Dépistage par sérum intégré suivie par le TGPNI » est considérée comme plus la coût-efficace. D'autres stratégies, bien que relativement plus efficace pour détecter le nombre de cas T21, entraînent une augmentation des coûts marginaux par cas additionnel détecté allant de 61 623 $ à 1 553 615 $. Les résultats étaient sensibles au coût du TGPNI et aux seuils considérés pour déterminer les femmes enceintes à risque élevé. La troisième étude a montré que le TGPNI offert aux femmes à haut risque identifiées par le programme de dépistage actuel serait abordable pour le système de santé québécois. Comparativement au programme de dépistage actuel, son implantation se ferait à coût neutre considérant une modeste économie annuelle de 80 432 $ (IC à 95%: 79 874 $ - 81 462 $). Les résultats étaient sensibles aux coûts du TGPNI et au taux d'acceptation des tests diagnostiques invasifs. Conclusion: Le TGPNI comme test de seconde intension, c'est-à-dire offert aux femmes à haut risque selon les critères du programme de dépistage actuel, est coût-efficace et abordable pour le système de santé québécois. Avant d'envisager son introduction, les décideurs devraient cependant considérer d'autres aspects, notamment les aspects éthiques.
Introduction: In the Province of Quebec, about 110,000 pregnant women are eligible to voluntary prenatal screening for trisomy 21(T21). Conventional screening strategies select about 4% of women for invasive fetal chromosome testing. Noninvasive prenatal testing using maternal blood cell-free DNA (NIPT) is a new highly accurate screening strategy that could reduce these invasive procedures but evidence about its health economic aspects (cost-effectiveness and affordability) is still lacking. Objectives: The objective of this thesis is to evaluate the expected health economic aspects of introducing NIPT into the Quebec trisomy 21 screening program. The first study systematically reviewed the literature of full economic evaluation studies on NIPT. The second study evaluated the expected cost-effectiveness of screening strategies incorporating NIPT, as well as conventional screening strategies. The third study evaluated the expected budget impact of implementing NIPT into the Quebec trisomy 21 screening program. Methodology: A systematic review of literature was performed for the first study. For the second and third studies, semi-Markov decision-analytic models were built to simulate the cost-effectiveness and the budget impact of NIPT for a virtual cohort of pregnant women similar to that of Quebec in terms of age and pregnancy rate by age. The main outcome for the cost-effectiveness analysis was the incremental cost per additional trisomy 21 detected. The main outcome for the budget impact analysis was the difference in the overall costs between the two alternatives: the current screening strategy vs. the most cost-effective strategy incorporating NIPT). Results: The first study included 16 studies. Results show that compared to current screening practice a universal NIPT screening program is not cost-effective. A program that offers NIPT to high risk pregnant women was found to be the most cost-effective option in the majority of studies included. The second study showed that NIPT as a second-tier test for high-risk women is cost-effective compared to screening algorithms not including NIPT. Out of 13 strategies compared, the integrated serum screening strategy followed by NIPT was the most cost-effective strategy. Other strategies can improve the number of T21 cases identified, but with increasing incremental costs per case (from $ 61,623 to $1,553,615). Results were sensitive to NIPT cost and cut-offs considered to determine high risk pregnant women. The third study found that NIPT as a second-tier test offered to high-risk women identified by the current screening program is affordable for the Quebec health care system. Compared to the current screening program, this strategy could be implemented at a neutral cost considering a modest yearly saving of $80,432 (95% CI: $79,874-$81,462). Results were sensitive to the NIPT costs and the uptake-rate of invasive diagnostic tests. Conclusion: NIPT as a second-tier test offered to high-risk women identified by the current screening program is cost-effective and affordable for the Quebec health care system. Decision makers should consider its introduction after considerations of others aspects such as ethical issues.
Gli stili APA, Harvard, Vancouver, ISO e altri
28

Boitard, Simon. "Cartographie de gènes à caractères quantitatifs par déséquilibre de liaison". Phd thesis, Université Paul Sabatier - Toulouse III, 2006. http://tel.archives-ouvertes.fr/tel-00132675.

Testo completo
Abstract (sommario):
Le but de ma thèse est de développer des méthodes statistiques permettant d'estimer la position des gènes qui influencent l'expression d'un caractère à valeurs continues (QTL). Je propose d'abord un algorithme numérique permettant d'approcher la densité de transition des fréquences d'haplotypes sous un modèle de diffusion à deux loci avec recombinaison. Je montre aussi que cette méthode peut être utilisée pour calculer la vraisemblance de la position d'un gène. Je présente ensuite une méthode de cartographie de QTL par maximum de vraisemblance. Je calcule la vraisemblance à l'ordre 1 en utilisant l'espérance des fréquences d'haplotypes sous un modèle de Wright-Fisher à 3 loci avec recombinaison, dont je dérive une expression approchée. Je m'intéresse enfin au problème de la détection de QTL dans le cas de populations structurées. J'étudie la loi asymptotique du Transmission Desequilibrium Test (TDT) et en déduis des résultats concernant son erreur de première espèce et sa puissance
Gli stili APA, Harvard, Vancouver, ISO e altri
29

Bernard, Anne. "Développement de méthodes statistiques nécessaires à l'analyse de données génomiques : application à l'influence du polymorphisme génétique sur les caractéristiques cutanées individuelles et l'expression du vieillissement cutané". Phd thesis, Conservatoire national des arts et metiers - CNAM, 2013. http://tel.archives-ouvertes.fr/tel-00925074.

Testo completo
Abstract (sommario):
Les nouvelles technologies développées ces dernières années dans le domaine de la génétique ont permis de générer des bases de données de très grande dimension, en particulier de Single Nucleotide Polymorphisms (SNPs), ces bases étant souvent caractérisées par un nombre de variables largement supérieur au nombre d'individus. L'objectif de ce travail a été de développer des méthodes statistiques adaptées à ces jeux de données de grande dimension et permettant de sélectionner les variables les plus pertinentes au regard du problème biologique considéré. Dans la première partie de ce travail, un état de l'art présente différentes méthodes de sélection de variables non supervisées et supervisées pour 2 blocs de variables et plus. Dans la deuxième partie, deux nouvelles méthodes de sélection de variables non supervisées de type "sparse" sont proposées : la Group Sparse Principal Component Analysis (GSPCA) et l'Analyse des Correspondances Multiples sparse (ACM sparse). Vues comme des problèmes de régression avec une pénalisation group LASSO elles conduisent à la sélection de blocs de variables quantitatives et qualitatives, respectivement. La troisième partie est consacrée aux interactions entre SNPs et dans ce cadre, une méthode spécifique de détection d'interactions, la régression logique, est présentée. Enfin, la quatrième partie présente une application de ces méthodes sur un jeu de données réelles de SNPs afin d'étudier l'influence possible du polymorphisme génétique sur l'expression du vieillissement cutané au niveau du visage chez des femmes adultes. Les méthodes développées ont donné des résultats prometteurs répondant aux attentes des biologistes, et qui offrent de nouvelles perspectives de recherches intéressantes
Gli stili APA, Harvard, Vancouver, ISO e altri
30

Bernard, Anne. "Développement de méthodes statistiques nécessaires à l'analyse de données génomiques : application à l'influence du polymorphisme génétique sur les caractéristiques cutanées individuelles et l'expression du vieillissement cutané". Electronic Thesis or Diss., Paris, CNAM, 2013. http://www.theses.fr/2013CNAM0882.

Testo completo
Abstract (sommario):
Les nouvelles technologies développées ces dernières années dans le domaine de la génétique ont permis de générer des bases de données de très grande dimension, en particulier de Single Nucleotide Polymorphisms (SNPs), ces bases étant souvent caractérisées par un nombre de variables largement supérieur au nombre d'individus. L'objectif de ce travail a été de développer des méthodes statistiques adaptées à ces jeux de données de grande dimension et permettant de sélectionner les variables les plus pertinentes au regard du problème biologique considéré. Dans la première partie de ce travail, un état de l'art présente différentes méthodes de sélection de variables non supervisées et supervisées pour 2 blocs de variables et plus. Dans la deuxième partie, deux nouvelles méthodes de sélection de variables non supervisées de type "sparse" sont proposées : la Group Sparse Principal Component Analysis (GSPCA) et l'Analyse des Correspondances Multiples sparse (ACM sparse). Vues comme des problèmes de régression avec une pénalisation group LASSO elles conduisent à la sélection de blocs de variables quantitatives et qualitatives, respectivement. La troisième partie est consacrée aux interactions entre SNPs et dans ce cadre, une méthode spécifique de détection d'interactions, la régression logique, est présentée. Enfin, la quatrième partie présente une application de ces méthodes sur un jeu de données réelles de SNPs afin d'étudier l'influence possible du polymorphisme génétique sur l'expression du vieillissement cutané au niveau du visage chez des femmes adultes. Les méthodes développées ont donné des résultats prometteurs répondant aux attentes des biologistes, et qui offrent de nouvelles perspectives de recherches intéressantes
New technologies developed recently in the field of genetic have generated high-dimensional databases, especially SNPs databases. These databases are often characterized by a number of variables much larger than the number of individuals. The goal of this dissertation was to develop appropriate statistical methods to analyse high-dimensional data, and to select the most biologically relevant variables. In the first part, I present the state of the art that describes unsupervised and supervised variables selection methods for two or more blocks of variables. In the second part, I present two new unsupervised "sparse" methods: Group Sparse Principal Component Analysis (GSPCA) and Sparse Multiple Correspondence Analysis (Sparse MCA). Considered as regression problems with a group LASSO penalization, these methods lead to select blocks of quantitative and qualitative variables, respectively. The third part is devoted to interactions between SNPs. A method employed to identify these interactions is presented: the logic regression. Finally, the last part presents an application of these methods on a real SNPs dataset to study the possible influence of genetic polymorphism on facial skin aging in adult women. The methods developed gave relevant results that confirmed the biologist's expectations and that offered new research perspectives
Gli stili APA, Harvard, Vancouver, ISO e altri
31

Rebours, Vinciane. "Inflammation et oncogenèse pancréatique : physiologie et physiopathologie". Paris 7, 2012. http://www.theses.fr/2012PA077254.

Testo completo
Abstract (sommario):
La pancréatite chronique est un facteur de risque d'adénocarcinome du pancréas. La relation entre inflammation et oncogenèse n'est que partiellement connue. Cependant le rôle des cellules étoilées du pancréas (PSC) et de l'hypoxie semble être l'élément déterminant dans ce processus. L'activation des PSC est à l'origine d'un remodelage de la matrice extra cellulaire et de modifications des relations intercellulaires. Leur activation régule l'expression de cytokines et de facteurs de croissance favorisant l'instauration de la fîbrose, la prolifération, la migration et l'invasion tumorale. Chez les patients atteints de pancréatite chronique, l'un des principaux challenges est le dépistage des lésions précancéreuses (PanIN et TIPMP), rendu difficile par les remaniements architecturaux. Malgré l'évolution des connaissances, du génome au protéome, les outils actuels ne permettent pas un dépistage efficace chez les patients à haut risque de cancer. Afin d'étudier la relation entre inflammation et oncogenèse pancréatique, nous avons utilisé trois approches complémentaires. Nous avons évalué la prévalence de PanIN au cours de phénomènes inflammatoires chroniques pancréatiques (pancréatite héréditaire) et mis en évidence des lésions précoces de dysplasie de haut grade chez près de 50% des patients. Nous avons développé un modèle de culture de coupes épaisses de pancréas normal humain et observé une activation précoce des PSC dans des conditions d'hypoxie. Enfin, nous avons identifié des biomarqueurs de dysplasie de haut grade (Ubiquitine et Thymosine-p4) des TIPMP par une approche d'imagerie par spectrométfie de masse et validé ces identifications dans du liquide de ponction
Chronic pancreatitis is a well described risk factor of pancreatic adenocarcinoma. The link between chronic inflammation and oncogenesis is partially known. However, the role of pancreatic stellate cells (PSC) and hypoxia seems to be the key in the pathophysiological process. Their activation following pancreatic injury results in extracellular matrix remodeling and changes in cell/cell and epithelial cell/stroma relationship. It also regulates the expression of cytokines and growth factors and promotes fibrosis, cell proliferation and migration and tumor invasion. In patients with chronic pancreatitis, the detection of precancerous lesions (Pancreatic intraepithelial neoplasia (PanIN) and Intraductal pancreatic mucinous neoplasrns (IPMN)), is made difficult by the pancreatic architectural modifications. Despite advances in knowledge of the genome to proteome of these lesions, tools do not allow effective screening in patients at high risk of pancreatic cancer. We proposed three approaches in order to assess the relationship between pancreatic inflammation and oncogenesis. Firstly, we assessed the prevalence of precancerous lesions (PanIN) in long standing pancreatic inflammation (hereditary pancreatitis) and found frequent early and severe PanIN lesions in the course of hereditary pancreatitis. Secondly, we developed a model of culture of thick sections of human normal pancreas and assessed an early activation of pancreatic stellate cells in hypoxic conditions. Finally, we identified specific biomarkers of high grade of dysplasia in precancerous lésions (IPMN) by mass spectrometry imagery. Identifications (Ubiquitin and Thymosin-p4) were validated on IPMN EUS FNA samples
Gli stili APA, Harvard, Vancouver, ISO e altri
32

Villemereuil, Pierre de. "Méthodes pour l’étude de l’adaptation locale et application au contexte de l’adaptation aux conditions d’altitude chez la plante alpine Arabis alpina". Thesis, Université Grenoble Alpes (ComUE), 2016. http://www.theses.fr/2016GREAS003/document.

Testo completo
Abstract (sommario):
L'adaptation locale est un phénomène micro-évolutif qui peut survenir lorsque des populations d'une même espèce sont exposées à des conditions environnementales différentes.Si cet environnement exerce une pression sous forme de sélection naturelle, qu'il existe un potentiel adaptatif au sein des populations et que le flux de gènes est suffisamment modéré, les populations vont alors tendre vers un optimum adaptatif local.Dans cette thèse, je m'intéresse aux moyens méthodologiques de l'étude de l'adaptation locale d'une part, et à l'étude de ce phénomène le long d'un gradient d'altitude chez la plante alpine Arabis alpina d'autre part.Dans la première partie méthodologique, je montre que les méthodes de scan génomique pour détecter les marqueurs génétiques sous sélection peuvent souffrir de forts taux de faux positifs lorsqu'exposées à des jeux de données complexes, mais réalistes.Je présente ensuite une méthode statistique de détection de marqueurs génétiques sous sélection qui, contrairement aux méthodes existantes, utilisent à la fois la notion de différentiation génétique (ou Fst) et une information environnementale.Cette méthode a été développée de manière à limiter son taux de faux positifs de manière générale.J'offre enfin une perspective concernant les liens entre une expérience ancienne en biologie évolutive (l'expérience de jardin commun) et les nouveaux développements moléculaires et statistiques modernes.Dans la seconde partie empirique, je présente une analyse de la démographie d'A. alpina dans six populations naturelles. Outre qu'elle révèle des caractéristiques biologiques intéressantes sur cette espèce (faible espérance de vie, reproduction et survie très différentielle...), cette analyse montre que la croissance diminue et la survie augmente chez cette espèce avec la baisse de la température moyenne (donc avec l'altitude).Puisque ces analyses ne permettent pas d'exclure des hypothèses de dérive et de plasticité phénotype, je présente une analyse en jardin commun sur A. alpina qui permet de lisser les problèmes de plasticité phénotypique et qui, combinée à des analyses moléculaires, permettent d'exclure l'hypothèse de dérive.Les résultats montrent qu'il existe un syndrome phénotypique adaptatif lié à la température moyenne qui tend à des plantes plus petites, plus compactes, qui croissent et se reproduisent moins, dans les milieux froids.À l'aide des données moléculaires et de méthodes de scan génomique, je présente une liste de 40 locus qui peuvent être impliqués dans ce processus.Pour finir, je discute l'ensemble de ces résultats empiriques dans un contexte plus général d'écologie alpine. Je résume ensuite les principaux obstacles méthodologiques à l'étude de l'adaptation locale et je fourni quelques perspectives méthodologiques
Local adaptation is a micro-evolutionary phenomenon, which arises when populations of the same species are exposed to contrasted environmental conditions.If this environment exert some natural selection pressure, if an adaptive potential exists among the populations and if the gene flow is sufficiently mild, populations are expected to tend toward a local adaptive optimum.In this thesis, I study the methodological means of the study of local adaptation on the one hand, and I investigate this phenomenon along an elevation gradient in the alpine plant Arabis alpina on the other hand.In the first, methodological part, I show that the genome scan methods to detect selection using genetic markers might suffer strong false positive rates when confronted to complex but realistic datasets.I then introduce a statistical method to detect markers under selection, which, contrary to existing methods, make use of both the concept of genetic differentiation (or Fst) and environmental information.This method has been developed in order to reduce its global false positive rate.Finally, I present some perspectives regarding the relationships between the relatively old ``common garden'' experiment and the new developments in molecular biology and statistics.In the second, empirical part, I introduce an analysis of the demographic characteristics of A. alpina in six natural populations. Besides providing interesting biological information on this species (low life expectancy, strongly contrasted reproduction and survival...), these analyses show that growth increase and survival decrease with the decrease of average temperature (hence with altitude).Since these analyses do not allow us to rule out hypotheses such as drift and phenotypic plasticity, I show the results of a common garden experiment which enable us to smooth phenotypic plasticity and, when combined with molecular data, enable us to rule out the hypothesis of drift.The results show the existence of an adaptive phenotypic syndrome, in which plants are smaller, are more compact, grow slower and reproduce less in cold temperature environments.Using the molecular data, I draw a list of 40 locus which might be involved in this adaptive process.In the end, I discuss these empirical findings as a whole to place them in a more general context of alpine ecology. I sum up the main methodological challenges when studying local adaptation and offer some methodological perspectives
Gli stili APA, Harvard, Vancouver, ISO e altri
33

Dias, Alves Thomas. "Modélisation du déséquilibre de liaison en génomique des populations par méthodes d'optimisation". Thesis, Université Grenoble Alpes (ComUE), 2017. http://www.theses.fr/2017GREAS052/document.

Testo completo
Abstract (sommario):
Nous présentons un nouveau formalisme et des nouvelles méthodes pour modéliser le déséquilibre de liaison et tenir compte de la structure en haplotypes pour les données issues de la génomique des populations. La modélisation repose sur un problème d'optimisation avec contraintes qui est résolue avec un algorithme de programmation dynamique. Les méthodes établies ont toutes l'avantage d'avoir un coût algorithmique linéaire et donc de pouvoir traiter de grands jeux de données.Dans un premier temps, nous avons appliqué notre approche à l'étude des populations métisses et plus particulièrement au problème d'inférence des coefficients de métissage locaux.Notre méthode a été appliquée à des génotypes simulés de métissage humain ainsi qu'à des vrais génotypes obtenus dans des populations métisses de peupliers.Dans un second temps, nous avons développé notre formalisme d'optimisation pour traiter de l'inférence des haplotypes à partir des génotypes d'une population.L'ensemble de ces méthodes d'optimisation a été développé dans un module Python qui s'appelle Loter
We present a new formalism and new methods to model linkage disequilibrium and to account for haplotype structure of population genomics data. Modeling relies on an optimization problem with constraints that is solved using dynamic programming. The algorithmic cost of proposed methods is linear, which is a desirable property to process large datasets.First, we applied our framework to study admixed populations and perform local ancestry inference. Our method is applied to simulated genotypes of admixed human populations and to real genotypes from admixed Populus species.Second, we developed our optimization framework to perform haploptype phasing and imputation based on a population of genotypes. All optimization methods have been developed in a Python package called Loter
Gli stili APA, Harvard, Vancouver, ISO e altri
34

Caye, Kévin. "Méthodes de factorisation matricielle pour la génomique des populations et les tests d'association". Thesis, Université Grenoble Alpes (ComUE), 2017. http://www.theses.fr/2017GREAS046/document.

Testo completo
Abstract (sommario):
Nous présentons des méthodes statistiques reposant sur des problèmes de factorisation matricielle. Une première méthode permet l'inférence rapide de la structure de populations à partir de données génétiques en incluant l'information de proximité géographique. Une deuxième méthode permet de corriger les études d'association pour les facteurs de confusion. Nous présentons dans ce manuscrit les modèles, ainsi que les aspects théoriques des algorithmes d'inférence. De plus, à l'aide de simulations numériques, nous comparons les performances de nos méthodes à celles des méthodes existantes. Enfin, nous utilisons nos méthodes sur des données biologiques réelles. Nos méthodes ont été implémentées et distribuées sous la forme de packages R : tess3r et lfmm
We present statistical methods based on matrix factorization problems. A first method allows efficient inference of population structure from genetic data and including geographic proximity information. A second method corrects the association studies for confounding factors. We present in this manuscript the models, as well as the theoretical aspects of the inference algorithms. Moreover, using numerical simulations, we compare the performance of our methods with those of existing methods. Finally, we use our methods on real biological data. Our methods have been implemented and distributed as R packages: tess3r and lfmm
Gli stili APA, Harvard, Vancouver, ISO e altri
35

Fouchet, Arnaud. "Kernel methods for gene regulatory network inference". Thesis, Evry-Val d'Essonne, 2014. http://www.theses.fr/2014EVRY0058/document.

Testo completo
Abstract (sommario):
De nouvelles technologies, notamment les puces à adn, multiplient la quantité de données disponibles pour la biologie moléculaire. dans ce contexte, des méthodes informatiques et mathématiques sont activement développées pour extraire le plus d'information d'un grand nombre de données. en particulier, le problème d'inférence de réseaux de régulation génique a été abordé au moyen de multiples modèles mathématiques et statistiques, des plus basiques (corrélation, modèle booléen ou linéaire) aux plus sophistiqués (arbre de régression, modèles bayésiens avec variables cachées). malgré leurs qualités pour des problèmes similaires, les modèles à noyaux ont été peu utilisés pour l'inférence de réseaux de régulation génique. en effet, ces méthodes fournissent en général des modèles difficiles a interpréter. dans cette thèse, nous avons développé deux façons d'obtenir des méthodes à noyaux interprétables. dans un premier temps, d'un point de vue théorique, nous montrons que les méthodes à noyaux permettent d'estimer, a partir d'un ensemble d'apprentissage, une fonction de transition et ses dérivées partielles de façon consistante. ces estimations de dérivées partielles permettent, sur des exemples réalistes, de mieux identifier le réseau de régulation génique que des méthodes standards. dans un deuxième temps, nous développons une méthode à noyau interprétable grâce à l'apprentissage à noyaux multiples. ce modèle fournit des résultats du niveau de l'état de l'art sur des réseaux réels et des réseaux simulés réalistes
New technologies in molecular biology, in particular dna microarrays, have greatly increased the quantity of available data. in this context, methods from mathematics and computer science have been actively developed to extract information from large datasets. in particular, the problem of gene regulatory network inference has been tackled using many different mathematical and statistical models, from the most basic ones (correlation, boolean or linear models) to the most elaborate (regression trees, bayesian models with latent variables). despite their qualities when applied to similar problems, kernel methods have scarcely been used for gene network inference, because of their lack of interpretability. in this thesis, two approaches are developed to obtain interpretable kernel methods. firstly, from a theoretical point of view, some kernel methods are shown to consistently estimate a transition function and its partial derivatives from a learning dataset. these estimations of partial derivatives allow to better infer the gene regulatory network than previous methods on realistic gene regulatory networks. secondly, an interpretable kernel methods through multiple kernel learning is presented. this method, called lockni, provides state-of-the-art results on real and realistically simulated datasets
Gli stili APA, Harvard, Vancouver, ISO e altri
36

Chepiga, Valentina. "СРАВНИТЕЛЬНО-СТИЛИСТИЧЕСКИЙ АНАЛИЗ ПРОИЗВЕДЕНИЙ РОМЕНА ГАРИ И ЭМИЛЯ АЖАРАSravnitelʹʹno-stilistiČeskij analiz proizvedenij romena gari i èmilâ aŽara". Paris 3, 2008. http://www.theses.fr/2008PA030084.

Testo completo
Abstract (sommario):
L’attribution d’un style à un auteur peut constituer un enjeu problématique. Certains « cas » surprennent, tel le cas Gary/Ajar. Au-delà de l’enjeu socio-littéraire, un enjeu stylistique s’impose. Deux voies de la recherche s’ouvrent : celle de la genèse de l’écriture selon chacun des « auteurs » par l’observation des manuscrits et des processus d’écriture correspondants ; celle de la composition et configuration linguistique du matériau verbal constituant le « style » où l’analyse quantitative apporte sa contribution. À partir du corpus étudié (trois romans de Romain Gary et trois romans d’Émile Ajar écrits durant la même période auxquels s’ajoutent deux romans de Paul Pavlowitch) la question a été posée de l’attribution des œuvres signées Émile Ajar. Pour atteindre cet objectif, il a été nécessaire d’appliquer plusieurs méthodes de type philologique : enquête biographique et contextuelle, analyse génétique des manuscrits, analyse linguistique et stylistique couplée à des méthodes d’analyses quantitatives. Pour l’attribution des œuvres, la thèse croise diverses approches statistiques. Celle liée à la « théorie de reconnaissance des formes » élaborée au laboratoire d’Études linguistiques appliquées de l’Université d’État de Saint-Pétersbourg – expérimentée pour la première fois sur la langue française – est apparue décisive quant aux résultats obtenus. Elle permet de conclure, à partir de l’analyse systématique d’éléments syntaxiques, au fait que les styles respectifs de l’auteur Ajar et de l’auteur Gary ont été générés par un même écrivain
The attribution of a style to an author may constitute a problematic stake. Certain "cases" surprise, such as the case of Gary and Ajar. Beyond the socio-literary stake, a stylistic stake leads. Two different ways open to the search: first, the genesis of the writing for each "author" by the observation of manuscripts and corresponding processes of writing; second, the composition and the linguistic configuration of the verbal material constituting the "style", a search for which the quantitative analysis will be used. From the studied corpus (three Roman Gary's novels and three Emile Ajar's novels written during the same period to which were added two Paul Pavlowitch's novels) the question of the attribution of Emile Ajar's novels was asked. To reach this objective, it turned out necessary to apply several methods of philological analysis: biographic and contextual research, genetic analysis of manuscripts, linguistic and stylistic analysis coupled with quantitative methods. For the attribution of the novels, the thesis crosses different approaches. That based on the "theory of pattern recognition” elaborated in the Laboratory of Applied Linguistic Studies of the Saint-Petersburg State University - used for the first time on the French language - seemed decisive to obtain our results. This method allows to conclude, from the systematic analysis of syntactical elements, that the novels of the author Ajar and the author Gary were created by the same writer
Gli stili APA, Harvard, Vancouver, ISO e altri
37

Vauchelet, Nicolas. "Modélisation mathématique du transport diffusif de charges partiellement quantiques". Phd thesis, Université Paul Sabatier - Toulouse III, 2006. http://tel.archives-ouvertes.fr/tel-00135114.

Testo completo
Abstract (sommario):
Le travail de la thèse concerne la modélisation et l'analyse
mathématique du transport d'électrons confinés dans une nanostructure
dans le but d'implémenter des simulations numériques. Dans de tels
dispositifs nanométriques, les ordres de grandeurs ne jouent pas le
même rôle dans chaque direction. Les électrons peuvent être
extrêmement confinés dans une ou plusieurs directions. Un modèle
quantique est nécessaire pour décrire le confinement. Dans la
direction non confinée, le transport est supposé de nature classique.
Nous proposons alors un système couplé quantique/classique.
Les collisions intervenant lors du transport induisent un régime
diffusif des porteurs de charges. Le modèle diffusif est obtenu grâce
à une limite de diffusion d'un modèle cinétique. L'analyse
mathématique de cette limite de diffusion et du modèle diffusif couplé
sont présentées. Une simulation numérique du transport dans un
nanotransistor est obtenue avec ce modèle.
Gli stili APA, Harvard, Vancouver, ISO e altri
38

Faouzi, Johann. "Machine learning to predict impulse control disorders in Parkinson's disease". Electronic Thesis or Diss., Sorbonne université, 2020. http://www.theses.fr/2020SORUS048.

Testo completo
Abstract (sommario):
Les troubles du contrôle de l'impulsivité sont une classe de troubles psychiatriques caractérisés par des difficultés dans la maîtrise de ses émotions, pensées et comportements. Ces troubles sont courants dans la maladie de Parkinson et associés à une baisse de la qualité de vie des patients ainsi qu'à une augmentation de la charge des aidants. Pouvoir prédire quels sont les sujets les plus à risque de développer ces troubles et quand ces troubles apparaissent est de grande importance. L'objectif de cette thèse est d'étudier les troubles du contrôle de l'impulsivité dans la maladie de Parkinson à partir des approches statistique et de l'apprentissage automatique, et se divise en deux parties. La première partie consiste à analyser la performance prédictive de l'ensemble des facteurs associés à ces troubles dans la littérature. La seconde partie consiste à étudier l'association et l'utilité d'autres facteurs, en particulier des données génétiques, pour améliorer la performance prédictive
Impulse control disorders are a class of psychiatric disorders characterized by impulsivity. These disorders are common during the course of Parkinson's disease, decrease the quality of life of subjects, and increase caregiver burden. Being able to predict which individuals are at higher risk of developing these disorders and when is of high importance. The objective of this thesis is to study impulse control disorders in Parkinson's disease from the statistical and machine learning points of view, and can be divided into two parts. The first part consists in investigating the predictive performance of the altogether factors associated with these disorders in the literature. The second part consists in studying the association and the usefulness of other factors, in particular genetic data, to improve the predictive performance
Gli stili APA, Harvard, Vancouver, ISO e altri
39

Magnanensi, Jérémy. "Amélioration et développement de méthodes de sélection du nombre de composantes et de prédicteurs significatifs pour une régression PLS et certaines de ses extensions à l'aide du bootstrap". Thesis, Strasbourg, 2015. http://www.theses.fr/2015STRAJ082/document.

Testo completo
Abstract (sommario):
La régression Partial Least Squares (PLS), de part ses caractéristiques, est devenue une méthodologie statistique de choix pour le traitement de jeux de données issus d’études génomiques. La fiabilité de la régression PLS et de certaines de ses extensions repose, entre autres, sur une détermination robuste d’un hyperparamètre, le nombre de composantes. Une telle détermination reste un objectif important à ce jour, aucun critère existant ne pouvant être considéré comme globalement satisfaisant. Nous avons ainsi élaboré un nouveau critère de choix pour la sélection du nombre de composantes PLS basé sur la technique du bootstrap et caractérisé notamment par une forte stabilité. Nous avons ensuite pu l’adapter et l’utiliser à des fins de développement et d’amélioration de procédés de sélection de prédicteurs significatifs, ouvrant ainsi la voie à une identification rendue plus fiable et robuste des probe sets impliqués dans la caractéristique étudiée d’une pathologie
The Partial Least Squares (PLS) regression, through its properties, has become a versatile statistic methodology for the analysis of genomic datasets.The reliability of the PLS regression and some of its extensions relies on a robust determination of a tuning parameter, the number of components. Such a determination is still a major aim since no existing criterion could be considered as a global benchmark one in the state-of-art literature. We developed a new bootstrap based stopping criterion in PLS components construction that guarantee a high level of stability. We then adapted and used it to develop and improve variable selection processes, allowing a more reliable and robust determination of significant probe sets related to the studied feature of a pathology
Gli stili APA, Harvard, Vancouver, ISO e altri
40

Luu, Keurcien. "Application de l'Analyse en Composantes Principales pour étudier l'adaptation biologique en génomique des populations". Thesis, Université Grenoble Alpes (ComUE), 2017. http://www.theses.fr/2017GREAS053/document.

Testo completo
Abstract (sommario):
L'identification de gènes ayant permis à des populations de s'adapter à leur environnement local constitue une des problématiques majeures du domaine de la génétique des populations. Les méthodes statistiques actuelles répondant à cette problématique ne sont plus adaptées aux données de séquençage nouvelle génération (NGS). Nous proposons dans cette thèse de nouvelles statistiques adaptées à ces nouveaux volumes de données, destinées à la détection de gènes sous sélection. Nos méthodes reposent exclusivement sur l'Analyse en Composantes Principales, dont nous justifierons l'utilisation en génétique des populations. Nous expliquerons également les raisons pour lesquelles nos approches généralisent les méthodes statistiques existantes et démontrons l'intérêt d'utiliser une approche basée sur l'Analyse en Composantes Principales en comparant nos méthodes à celles de l'état de l'art. Notre travail a notamment abouti au développement de pcadapt, une librairie R permettant l'utilisation de nos statistiques de détection sur des données génétiques variées
Identifying genes involved in local adaptation is of major interest in population genetics. Current statistical methods for genome scans are no longer suited to the analysis of Next Generation Sequencing (NGS) data. We propose new statistical methods to perform genome scans on massive datasets. Our methods rely exclusively on Principal Component Analysis which use in population genetics will be discussed extensively. We also explain the reasons why our approaches can be seen as extensions of existing methods and demonstrate how our PCA-based statistics compare with state-of-the-art methods. Our work has led to the development of pcadapt, an R package designed for outlier detection for various genetic data
Gli stili APA, Harvard, Vancouver, ISO e altri
41

Gazal, Steven. "La consanguinité à l'ère du génome haut-débit : estimations et applications". Thesis, Paris 11, 2014. http://www.theses.fr/2014PA11T026/document.

Testo completo
Abstract (sommario):
Un individu est dit consanguin si ses parents sont apparentés et s’il existe donc dans sa généalogie au moins une boucle de consanguinité aboutissant à un ancêtre commun. Le coefficient de consanguinité de l’individu est par définition la probabilité pour qu’à un point pris au hasard sur le génome, l’individu ait reçu deux allèles identiques par descendance qui proviennent d’un seul allèle présent chez un des ancêtres communs. Ce coefficient de consanguinité est un paramètre central de la génétique qui est utilisé en génétique des populations pour caractériser la structure des populations, mais également pour rechercher des facteurs génétiques impliqués dans les maladies. Le coefficient de consanguinité était classiquement estimé à partir des généalogies, mais des méthodes ont été développées pour s’affranchir des généalogies et l’estimer à partir de l’information apportée par des marqueurs génétiques répartis sur l’ensemble du génome.Grâce aux progrès des techniques de génotypage haut-débit, il est possible aujourd’hui d’obtenir les génotypes d’un individu sur des centaines de milliers de marqueurs et d’utiliser ces méthodes pour reconstruire les régions d’identité par descendance sur son génome et estimer un coefficient de consanguinité génomique. Il n’existe actuellement pas de consensus sur la meilleure stratégie à adopter sur ces cartes denses de marqueurs en particulier pour gérer les dépendances qui existent entre les allèles aux différents marqueurs (déséquilibre de liaison). Dans cette thèse, nous avons évalué les différentes méthodes disponibles à partir de simulations réalisées en utilisant de vraies données avec des schémas de déséquilibre de liaison réalistes. Nous avons montré qu’une approche intéressante consistait à générer plusieurs sous-cartes de marqueurs dans lesquelles le déséquilibre de liaison est minimal, d’estimer un coefficient de consanguinité sur chacune des sous-cartes par une méthode basée sur une chaîne de Markov cachée implémentée dans le logiciel FEstim et de prendre comme estimateur la médiane de ces différentes estimations. L’avantage de cette approche est qu’elle est utilisable sur n’importe quelle taille d’échantillon, voire sur un seul individu, puisqu’elle ne demande pas d’estimer les déséquilibres de liaison. L’estimateur donné par FEstim étant un estimateur du maximum de vraisemblance, il est également possible de tester si le coefficient de consanguinité est significativement différent de zéro et de déterminer la relation de parenté des parents la plus vraisemblable parmi un ensemble de relations. Enfin, en permettant l’identification de régions d’homozygoties communes à plusieurs malades consanguins, notre stratégie peut permettre l’identification des mutations récessives impliquées dans les maladies monogéniques ou multifactorielles.Pour que la méthode que nous proposons soit facilement utilisable, nous avons développé le pipeline, FSuite, permettant d’interpréter facilement les résultats d’études de génétique de populations et de génétique épidémiologique comme illustré sur le panel de référence HapMap III, et sur un jeu de données cas-témoins de la maladie d’Alzheimer
An individual is said to be inbred if his parents are related and if his genealogy contains at least one inbreeding loop leading to a common ancestor. The inbreeding coefficient of an individual is defined as the probability that the individual has received two alleles identical by descent, coming from a single allele present in a common ancestor, at a random marker on the genome. The inbreeding coefficient is a central parameter in genetics, and is used in population genetics to characterize the population structure, and also in genetic epidemiology to search for genetic factors involved in recessive diseases.The inbreeding coefficient was traditionally estimated from genealogies, but methods have been developed to avoid genealogies and to estimate this coefficient from the information provided by genetic markers distributed along the genome.With the advances in high-throughput genotyping techniques, it is now possible to genotype hundreds of thousands of markers for one individual, and to use these methods to reconstruct the regions of identity by descent on his genome and estimate a genomic inbreeding coefficient. There is currently no consensus on the best strategy to adopt with these dense marker maps, in particular to take into account dependencies between alleles at different markers (linkage disequilibrium).In this thesis, we evaluated the different available methods through simulations using real data with realistic patterns of linkage disequilibrium. We highlighted an interesting approach that consists in generating several submaps to minimize linkage disequilibrium, estimating an inbreeding coefficient of each of the submaps based on a hidden Markov method implemented in FEstim software, and taking as estimator the median of these different estimates. The advantage of this approach is that it can be used on any sample size, even on an individual, since it requires no linkage disequilibrium estimate. FEstim is a maximum likelihood estimator, which allows testing whether the inbreeding coefficient is significantly different from zero and determining the most probable mating type of the parents. Finally, through the identification of homozygous regions shared by several consanguineous patients, our strategy permits the identification of recessive mutations involved in monogenic and multifactorial diseases.To facilitate the use of our method, we developed the pipeline FSuite, to interpret results of population genetics and genetic epidemiology studies, as shown on the HapMap III reference panel, and on a case-control Alzheimer's disease data
Gli stili APA, Harvard, Vancouver, ISO e altri
42

Loucoubar, Cheikh. "Statistical genetic analysis of infectious disease (malaria) phenotypes from a longitudinal study in a population with significant familial relationships". Phd thesis, Université René Descartes - Paris V, 2012. http://tel.archives-ouvertes.fr/tel-00685104.

Testo completo
Abstract (sommario):
Long term longitudinal surveys have the advantage to enable several sampling of the studied phenomena and then, with the repeated measures obtained, find a confirmed tendency. However, these long term surveys generate large epidemiological datasets including more sources of noise than normal datasets (e.g. one single measure per observation unit) and potential correlation in the measured values. Here, we studied data from a long-term epidemiological and genetic survey of malaria disease in two family-based cohorts in Senegal, followed for 19 years (1990-2008) in Dielmo and for 16 years (1993-2008) in Ndiop. The main objectives of this work were to take into account familial relationships, repeated measures as well as effect of covariates to measure both environmental and host genetic (heritability) impacts on the outcome of infection with the malaria parasite Plasmodium falciparum, and then use findings from such analyses for linkage and association studies. The outcome of interest was the occurrence of a P. falciparum malaria attack during each trimester (PFA). The two villages were studied independently; epidemiological analyses, estimation of heritability and individual effects were then performed in each village separately. Linkage and association analyses used family-based methods (based on the original Transmission Disequilibrium Test) known to be immune from population stratification problems. Then to increase sample size for linkage and association analyses, data from the two villages were used together.
Gli stili APA, Harvard, Vancouver, ISO e altri
43

Faubet, Pierre. "METHODES STATISTIQUES POUR L'ETUDE DE LA STRUCTURATION SPATIALE DE LA DIVERSITE GENETIQUE". Phd thesis, 2009. http://tel.archives-ouvertes.fr/tel-00606630.

Testo completo
Abstract (sommario):
La sélection naturelle et les flux de gènes entre populations contribuent à structurer la diversité génétique dans l'espace sous l'influence de l'environnement. L'étude de ces forces évolutives et de leur interaction avec le milieu a des applications importantes dans des domaines tels que la biologie de la conservation, la génétique ou l'agronomie. Les données génétiques peuvent être reliées aux données environnementales à travers des modèles qui décrivent les processus évolutifs mis en jeu pour estimer des paramètres d'intérêt. Le développement d'une méthode d'estimation en génétique des populations consiste donc à construire un modèle selon des considérations biologiques pour l'utiliser ensuite dans des algorithmes d'estimation. L'étape suivante consiste alors à évaluer les performances de la méthode pour la valider ou l'améliorer. Ce schéma a été appliqué pour évaluer une méthode d'estimation des taux de migration qui a été étendue par la suite. Une autre méthode a été développée pour étudier l'adaptation locale sous l'influence de la migration et de la sélection naturelle.
Gli stili APA, Harvard, Vancouver, ISO e altri
Offriamo sconti su tutti i piani premium per gli autori le cui opere sono incluse in raccolte letterarie tematiche. Contattaci per ottenere un codice promozionale unico!

Vai alla bibliografia