Dissertations / Theses on the topic 'Séquençage à haut débit (NGS)'

To see the other types of publications on this topic, follow the link: Séquençage à haut débit (NGS).

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Séquençage à haut débit (NGS).'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Becmeur-Lefebvre, Mathilde. "Identification de nouveaux genes responsables d'anomalies du développement par séquençage haut débit d'exome." Thesis, Bourgogne Franche-Comté, 2019. http://www.theses.fr/2019UBFCK080.

Full text
Abstract:
Dans les syndromes polymalformatifs, les causes génétiques sont fréquentes, avec un risque éventuel de récidive, à l’origine d’une très forte demande de conseil génétique. La stratégie diagnostique actuelle (examen foetopathologique, cytogénétique et examens ciblés de biologie moléculaire) ne permet un diagnostic étiologique que dans environ un tiers des familles concernées. Depuis la mise en place du séquençage haut débit d’exome (ES), les bases moléculaires de nombreux nouveaux syndromes ont pu être identifiées.Notre objectif a été d’étudier l’apport du ES en solo dans l’identification de nouveaux gènes impliqués dans le développement embryonnaire chez des fœtus atteints de syndromes polymalformatifs non étiquetés après la stratégie diagnostique classique grâce à une stratégie d’analyse de l’ES multiétapes originale.Nous avons réalisé un ES solo chez 95 fœtus polymalformés provenant de 10 centres de diagnostic prénatal en France. L’analyse reposait dans un premier temps sur l’étude des gènes OMIM morbides grâce à des scores bioinformatiques et la présence des variations dans des bases de données, indépendamment du phénotype foetal, puis sur une étape de corrélations génotype-phénotype. Enfin, une analyse recherche basée sur les scores bioinformatiques étendue à l’ensemble de l’ES. La confirmation des variations et leur ségrégation parentale ont été réalisées par séquençage Sanger.L’ES a permis d’identifier une/des variation(s) causale(s) chez 23 fœtus (24%), des variations de signification inconnue (VUS) chez 6 fœtus (6%) et des variations dans des gènes candidats chez 6 fœtus (6%). Parmi les variations causales, la majorité était de transmission autosomique récessive (50%), 42% étaient de survenue sporadique et 4% de transmission autosomique dominante.En conclusion, l’efficacité du ES en solo (stratégie classique et additionnelle) pour identifier de nouveaux gènes du développement est faible, mais il permet d’étendre les spectres phénotypiques de pathologie pédiatrique connues. Une analyse des cas négatif en trio voire en génome est maintenant une piste à explorer
Multiple congenital anomalies (MCA) are often genetic conditions, with a risk of recurrence. The etiologic diagnosis of these conditions in fetuses is mandatory to allow genetic counseling for the future pregnancies. Regarding current diagnostic tests (fetal autopsy, cytogenetic test and targeted molecular tets), the diagnostic rate in MCA fetuses is about 30%, allowing genetic counselling in only one third of families. Exome sequencing (ES) has allowed to identify the molecular basis of many new syndromes.We aimed to assess the contribution of ES solo-based strategy to identify new developmental genes in fetuses presenting with MCA without etiological diagnosis after standard investigations with an original multistep strategy.We performed solo ES in 95 MCA fetuses from 10 prenatal diagnostic centers in France. First, we focused on OMIM related disease genes, with a first step using bioinformatic scores and public databases independently of phenotype, a second step using genotype-phenotype correlation and a third step of research analysis extended to the whole exome. Variant confirmation and parental segregation were done by Sanger sequencing. ES allowed the identification of a causative variants in 23 fetuses (24%), variants of unknown significance (VUS) in 7 fetuses (7%) and variants in new candidate genes in 6 fetuses (6%). Among causative variants, most were from autosomal recessive inheritance (50%), 42% were sporadic and 4% were from autosomal dominant inheritance. The additionnal strategy identified 17/23 causative variants, including 2 new causative variants not identified by the classical approach because of atypical or extreme fetal phenotype, and 2 new VUS. No new candidate gene was identified by this strategy.To conclude, solo ES with classical and additionnal strategy presents a low efficiency to identify new genes implicated in embryonary development but allows the extension of the clinical spectrum of well-known pediatric pathologies to the prenatal period. Trio ES or genome sequencing would be now insteresting strategies to be explored
APA, Harvard, Vancouver, ISO, and other styles
2

Lacoste, Deixonne Caroline. "Apport du séquençage haut débit dans l'amélioration de la prise en charge des maladies monogéniques." Thesis, Aix-Marseille, 2016. http://www.theses.fr/2016AIXM5062/document.

Full text
Abstract:
La diffusion du séquençage haut débit (ou NGS pour Next Generation Sequencing) représente un tel changement d’échelle par rapport aux méthodes classiques de séquençage que les indications et l’organisation du diagnostic moléculaire s’en trouvent profondément modifiées. Le NGS permet à la fois de raccourcir le temps d’analyse et de rendu de résultat et d'élargir considérablement le nombre de gènes testés. Il promet donc d’augmenter la proportion de diagnostics posés et de faciliter l'identification de nouveaux variants et de nouveaux gènes impliqués en pathologie. Cependant dans tous les cas, il génère une quantité de données importante, données qui doivent être analysées et interprétées à l’aide d’outils bioinformatiques spécifiques.Dans la première partie de ce travail, les stratégies existantes ainsi que les difficultés et les enjeux du séquençage haut débit pour le diagnostic moléculaire des maladies génétiques sont discutés. Dans la deuxième partie, la mise en place et la validation technique de cette approche diagnostique sont décrites au sein du laboratoire de Génétique Moléculaire de la Timone à Marseille et illustrées par trois exemples concrets de diagnostics moléculaires posés grâce à la technique de séquençage à haut débit. Dans le domaine spécifique des maladies rares, ces nouvelles technologies sont porteuses d’un réel espoir pour les patients atteints de maladie génétique, permettant d'améliorer globalement leur prise en charge et d'accélérer les progrès dans le domaine de la recherche
The diffusion of Next Generation Sequencing (NGS) technologies induces an important change that modifies molecular diagnostics indications and prompts laboratories to re-think their diagnostic strategies, up-to-now based on Sanger sequencing routine. Several high throughput approaches are available from the sequencing of a gene panel, to a whole exome, or even a whole genome. In all cases, a tremendous amount of data are generated, that have to be filtered, interpreted and analyzed by the use of powerful bioinformatics tools.In part 1, existing strategies and the difficulties and challenges of high-throughput sequencing for molecular diagnosis in genetic diseases are discussed. In part 2, the set up and the technical validation of this diagnostic approach in the Molecular Genetics’ Laboratory of the Timone Hospital in Marseille is presented and illustrated by 3 examples of complex diagnostics solved thanks to NGS. NGS promises to shorten significantly the time of analysis and results reporting, and to expand the number of tested genes. It also promises to increase the proportion of positive diagnoses. Finally, the NGS can identify new variants and new genes involved in human pathology, thus will globally improve patient clinical care
APA, Harvard, Vancouver, ISO, and other styles
3

Bisseux, Maxime. "Dynamique de la circulation des Entérovirus de l'homme à l'environnement : Etude par séquençage haut débit." Thesis, Université Clermont Auvergne‎ (2017-2020), 2017. http://www.theses.fr/2017CLFAS013.

Full text
Abstract:
Les entérovirus (EV) sont des Picornavirus (virus nus à génome ARN positif), caractérisés par une grande diversité génétique et antigénique (116 types classés en 4 espèces taxonomiques EV-A à D) et une évolution rapide. Les infections humaines sont très fréquentes, hautement contagieuses à partir des selles et épidémiques. La plupart des infections sont asymptomatiques ou bénignes ; elles peuvent être graves voire mortelles, en particulier chez les jeunes enfants. La poliomyélite, modèle d’infection à EV, est en voie d’éradication grâce aux programmes de vaccination et de surveillance sous l’égide de l’OMS. La détection de poliovirus sauvages dans des pays déclarés exempts de polio depuis plusieurs années et l’émergence récente de plusieurs EV non poliomyélitiques (EV-A71, EV-D68) associés à des manifestations cliniques sévères dans plusieurs régions du monde montrent l’importance de surveiller la circulation des EV dans la population humaine. Le but de la thèse était de rechercher et caractériser les EV dans les eaux usées de l’agglomération de Clermont-Ferrand et de comparer les données à celles de la surveillance clinique pour avoir une image plus complète de la circulation virale dans la population générale. Une méthode de concentration virale à partir des eaux usées prélevées en entrée (eaux usées brutes) et sortie (eaux usées traitées) de station d’épuration a été mise au point, permettant la détection moléculaire des EV et de 6 autres virus entériques humains. La présence de génomes viraux a été détectée dans tous les échantillons d’octobre 2014 à octobre 2015, avec une médiane de 6 virus différents en entrée de station et de 4 virus en sortie. L’analyse phylogénétique des séquences d’EV et des virus des hépatites A et E présents dans les eaux usées et les prélèvements cliniques des patients hospitalisés au CHU de Clermont-Ferrand pendant la même période, a validé l’approche mise en place pour surveiller la circulation communautaire d’un virus entérique. La diversité des EV présents dans les eaux usées brutes a été analysée par séquençage d’amplicons avec une technique haut débit Illumina (metabarcoding). Les résultats montrent la présence d’une grande diversité d’EV et la circulation silencieuse de 25 types (notamment 9 EV-C, dont des séquences de poliovirus 1 vaccinal) dans la population générale. L’analyse phylogénétique des variants intra-typiques a mis en évidence plusieurs profils épidémiques parmi les principaux types ayant circulé pendant la période d’étude. Les données obtenues montrent la faisabilité et la sensibilité de la stratégie développée pour détecter et caractériser les EV présents dans les eaux usées. Ils permettent de discuter la place de la surveillance environnementale dans la surveillance des infections à EV non polio (études épidémiologiques, prévention des épidémies, alertes sanitaires). Surveiller conjointement les virus entériques dans l’environnement et chez les patients permet une meilleure compréhension de leur prévalence. Cette approche globale de la circulation virale et de l’écologie de la santé représente un engagement important de la part des laboratoires et nécessitera une intégration dans des réseaux structurés de collaboration nationales et internationales dépassant la seule surveillance des EV
Enterovirus (EV) are Picornaviruses (non-enveloped, positive-sense RNA viruses), characterized by a large genetic and antigenic diversity (116 types classified within 4 taxonomic species EV-A to D) and rapid evolution. Human infections are frequent, highly contagious from stools and occur as outbreaks. The infections are mainly asymptomatic or benign but severe or fatal cases can be reported in young children. Poliomyelitis is the model EV infection. Combined with clinical and virological surveillance, mass vaccination is closer than ever to achieve the WHO program of the Global Polio Eradication Initiative. However, the detection of wild type polioviruses in polio-free countries and the recent worldwide emergence of non-polio enteroviruses (EV-A71, EV-D68) associated with severe clinical manifestations underscore the importance of surveilling EV circulation in the general population. The aim of the PhD thesis was the detection and identification of EV strains in wastewater treated in the sewage treatment plant at Clermont-Ferrand (France). The viral data were compared with those reported through clinical surveillance to obtain a comprehensive picture of the viral circulation in the local population. A method was developed to concentrate viruses from raw and treated wastewater and molecular assays were used to detect EVs and 6 other human enteric viruses. The viral genomes were detected in all samples from October 2014 to October 2015, with a median of 6 and 4 different viruses in raw and treated wastewater respectively. Phylogenetic analysis of viral sequences (EV, hepatitis A and E viruses) determined in wastewater and reported in patients during the sampling period, showed the efficiency of the method for surveilling enteric viruses in the community. The EV diversity in raw wastewater was analyzed by sequencing of amplicons with the Illumina high throughput technology (metabarcoding). The analysis revealed a large viral diversity and the silent circulation of 25 types not detected from hospital data (in particular 9 EV-C, of which sequences of vaccine poliovirus 1). The phylogenetic analyses of intra-typic variants showed different epidemic patterns in the predominant EV types circulating over the study period. The data demonstrate the feasibility and sensitivity of the strategy developed for the detection and characterization of EV in wastewater and provide a future prospect for the implementation of environmental surveillance of non-polio EV infections in epidemiological studies, epidemic prevention, and for health alert. Combining the surveillance of enteric viruses in the environment and in the clinical setting allows a better understanding of their prevalence. This global approach of virus circulation and ecological health represents an important investment for laboratories, which will require integration in national and international collaboration networks beyond the scope of enterovirus surveillance
APA, Harvard, Vancouver, ISO, and other styles
4

Croville, Guillaume. "Séquençage et PCR à haut débit : application à la détection et la caractérisation d'agents pathogènes respiratoires aviaires et au contrôle de pureté microbiologique des vaccins." Thesis, Paris Sciences et Lettres (ComUE), 2017. http://www.theses.fr/2017PSLEP028/document.

Full text
Abstract:
La capacité de détection des agents pathogènes est un enjeu croissant tant les maladies infectieuses représentent un risque pour la santé animale et humaine. La globalisation des échanges commerciaux et des voyages, l’évolution des pratiques agricoles, les changements climatiques ou encore les migrations de masse sont autant de facteurs bouleversant la biologie des micro-organismes et de fait, leurs capacités d’émergence. Ce manuscrit décrit trois approches complémentaires, basées sur trois techniques innovantes de biologie moléculaire pour la détection d’agents pathogènes et appliquées à trois contextes différents : (i) la recherche d’une liste précise de micro-organismes par PCR quantitative en temps réel en format microfluidique, (ii) la détection sans a priori d’agents infectieux dans un milieu complexe par métagénomique et séquençage Illumina (Miseq) et (iii) le génotypage d’un agent infectieux sans amplification préalable des génomes par NGS (Nouvelles Générations de séquençage) de troisième génération, le MinION d’Oxford Nanopore Technologies. Ces trois études ont permis de montrer l’apport de ces techniques, qui présentent toutes des caractéristiques distinctes, adaptées à différentes applications. Au-delà de l’application de ces techniques au domaine du diagnostic microbiologique, leur utilisation dans le cadre du contrôle des médicaments immunologiques vétérinaires est une perspective prioritaire de ce travail. En effet, les préparations vaccinales vétérinaires sont soumises à l’obligation de recherche d’une liste d’agents pathogènes à exclure mais également à la vérification de l’identité génétique des souches vaccinales. L’accessibilité et les performances exponentielles des nouvelles technologies de PCR et de séquençage ouvrent ainsi des perspectives révolutionnaires dans le domaine du diagnostic et du contrôle microbiologique
Detection of pathogens becomes an increasing challenge, since infectious diseases represent major risks for both human and animal health. Globalization of trade and travels, evolution of farming practices and global climatic changes, as well as mass migrations are impacting the biology of pathogens and their emerging potential. This manuscript describes three approaches, based on three innovative technologies of molecular biology applied to the detection of pathogens in three different settings : (i) detection of a list of pathogens using real-time quantitative PCR on a microfluidic platform, (ii) unbiased detection of pathogens in complex matrix, using metagenomics and Illumina (Miseq) sequencing and (iii) genotyping of pathogens without isolation of PCR-enrichment using a 3rd generation NGS (Next Generation Sequencing) platform MinION from Oxford Nanopore Technologies. The three studies shown the contribution of these techniques, each representing distinctive features, suitable for the respective applications. Beyond application of these techniques to the field of microbial diagnostics, their use for the control of veterinary immunological drugs is a priority of this project. Veterinary vaccines are not only submitted to mandatory detection of listed pathogens to be excluded, but also to validation of the genetic identity of vaccine strains. The exponential availability and performances of new PCR or sequencing technologies open cutting-edge perspectives in the field of microbial diagnostic and control
APA, Harvard, Vancouver, ISO, and other styles
5

Mansour-Hendili, Lamisse. "Mise en place d’une stratégie de validation fonctionnelle de variations de signification incertaine dans les pathologies constitutionnelles du globule rouge." Electronic Thesis or Diss., Paris 12, 2022. http://www.theses.fr/2022PA120057.

Full text
Abstract:
Le déploiement du séquençage haut débit (SHD) ces dernières années au sein des laboratoires de génétique hospitaliers en France et dans le monde a révolutionné la prise en charge des maladies rares dont les anémies hémolytiques constitutionnelles (AHC). Il a conduit à la multiplication des variations de signification incertaine (VSI) nécessitant la mise en œuvre de tests fonctionnels pour aboutir à une re-classification. L’objectif de ce travail est de proposer une stratégie réaliste et efficace d’exploration fonctionnelle de VSI associés aux AHC. Cette démarche repose sur les études génétiques familiales, l’étude de transcrits sur tubes Paxgene, le développement de méthodes d’études du GR comme le LORRCA pour l’étude de la membrane, la réorientation de techniques comme la courbe de densité des GR par gradient de phtalates et la mise en place d’un réseau collaboratif (CNRS de Roscoff pour les études électrophysiologiques). Nous avons montré l’intérêt du SHD chez ces patients avec suspicion d’AHC et mis en évidence des associations de variations d’intérêt dans différents gènes de pathologies du GR chez un même patient (Mansour-Hendili et al 2020). Nous avons identifié une nouvelle entité pathologique chez deux patients avec une anémie hémolytique « auto-immune à test direct à l’antiglobuline négatif » non répondeurs aux immunomodulateurs. Il s’agit d’un mécanisme de sphérocytose acquise par mutation ponctuelle du gène ANK1 probablement associé à une hématopoièse clonale du sujet âgé (soumission en cours). La réalisation d’un génome entier a permis d’aboutir à un diagnostic pour un enfant atteint d’une hémolyse inexpliquée transfuso-dépendante avec retard neurodéveloppemental due au gène VPS4A (Lunati-Rozie et al 2021). Via un système de reconvocation de patients, les explorations complémentaires ont pu être réalisées. Vingt-cinq patients ont eu une étude de transcrits permettant la reclassification de seize variations. Dix études familiales ont été réalisées dont une excluant le caractère délétère d’un VSI du gène GATA1. Nous avons montré l’intérêt de la mesure de la densité des GR comme outil de screening des pathologies de membrane du GR. Son utilisation comme test fonctionnel dans les cas d’associations de variations dans des gènes de membrane a mis en exergue l’utilité du taux de cellules denses comme marqueur différentiel de la présence/absence de la variation associée. De plus, les profils d’osmoscan permettent de discriminer des profils de patients avec associations de variations comparativement à des témoins « positifs » sans association. Les études de stabilité menées pour ces tests à différents temps et températures de stockage montrent l’importance des conditions pré-analytiques. Nous avons illustré ce problème avec la mutation connue du gène KCNN4 : p.R352H décrite avec des profils d’osmoscan et d’ektacytométrie normaux. Nous avons retrouvé à deux reprises sur deux échantillons et manipulations indépendantes réalisées sans stockage des profils d’osmoscan anormaux. Par ailleurs, nous montrons l’intérêt de l’étude des propriétés électrophysiologiques des canaux PIEZO1 et KCNN4 réalisée à Roscoff dans la classification de VSI (Mansour-Hendili et al 2021). Pour les cas d’associations de variations d’intérêt les profils d’interprétation sont plus complexes mais montrent également des différences de profil par rapport à des témoins bien choisis. Ce travail a permis de démontrer l’utilité en plus des études familiales et de transcrits, d’outils diagnostic ou de suivi phénotypiques du GR (LORRCA, densité des GR) pour l’aide à la validation fonctionnelle de VSI isolés ou en association. Cela nécessite des moyens de reconvocation, des contrôles positifs adéquats et un respect des conditions préanalytiques. La mise en place de réseaux collaboratifs apporte une véritable utilité et une plus-value intellectuelle et humaine réciproque. Le retour au phénotype est indispensable à la classification des VSI concernant les AHC
The deployment of next generation sequencing (NGS) over the past ten years in hospital genetic laboratories in France and around the world has revolutionized the management of rare diseases, including constitutional hemolytic anemia (CHA). It has led to the multiplication of variations of uncertain significance (VUS) requiring the implementation of functional tests to permit a re-classification. The objective of this work is to propose a realistic and effective strategy for the functional exploration of VUS associated with CHs. This approach is based on family genetic studies, study of transcripts on Paxgene tubes, development of methods on-site such as the LORRCA MaxSis for the study of the RBC membrane properties, improvment of techniques such as the RBC density measurement by phthalate gradient and establishment of a collaborative network (example of CNRS in Roscoff for electrophysiological studies). We have shown the interest of NGS in these patients with suspected CHA and have highlighted associations of variations of interest in different genes of RBC pathologies in the same patient (Mansour-Hendili et al 2020). We identified a new pathological entity in two patients with “autoimmune direct antiglobulin test negative” haemolytic anemia who did not respond to immunomodulators. This is a mechanism of acquired spherocytosis by point mutation of the ANK1 gene probably due to clonal hematopoiesis in the elderly (submission in progress). The realization of a whole genome sequencing led to a diagnosis for a child suffering from unexplained transfusion-dependent hemolysis with neurodevelopmental delay due to the VPS4A gene (Lunati-Rozie et al 2021). Via a patient recall system, additional explorations have been carried out. Twenty-five patients underwent a transcript study allowing the reclassification of sixteen variations. Ten family studies have been carried out, one of which excludes the deleterious nature of a VUS of the GATA1 gene. We have shown the interest of measuring RBC density as screening tool for RBC membrane diseases. Its use as a functional test in the case of associations of variations in RBC membrane genes has highlighted the usefulness of the dense cell rate as a differential marker of the presence/absence of the associated variation. Concerning the LORRCA, osmoscan profiles make it possible to discriminate patient with associations of variations compared to “positive” controls without association. Stability studies conducted for these phenotypic tests at different storage times and temperatures show the importance of pre-analytical conditions. We illustrated this problem with the known KCNN4 gene mutation: p.R352H described with a normal osmoscan and ektacytometry profiles. We found twice on two independent samples and manipulations realized on D0 without storage abnormal osmoscan profiles. In addition, we show the interest of the study of electrophysiological properties of the PIEZO1 and KCNN4 channels carried out in Roscoff in the classification of VUS (case one patient with a new KCNN4 mutation and thrombosis, Mansour-Hendili et al 2021). For the associations of variations of interest, the interpretation profiles are more complex but also show profiles differences compared to well-chosen controls. This work has made it possible to demonstrate the usefulness, in addition to family and transcript studies, of RBC phenotypic diagnostic or monitoring tools (LORRCA, density of the GR) to help with the functional validation of isolated or associated VUS in CHA patients. This requires means of revocation, adequate positive controls (intrafamilial cases) and compliance with preanalytical conditions. The establishment of collaborative networks also brings real usefulness and reciprocal intellectual and human added value. The return to the phenotype is an essential recourse for the classification of VUS in particular for the CHA
APA, Harvard, Vancouver, ISO, and other styles
6

Piorkowski, Geraldine. "Étude des quasi-espèces du virus Ebola en réponse au traitement par favipiravir dans un modèle de primate non-humain par séquençage haut débit." Thesis, Aix-Marseille, 2019. http://www.theses.fr/2019AIXM0216.

Full text
Abstract:
La maladie à virus Ébola (EBOV) est un enjeu de santé publique majeur puisqu’aucune molécule antivirale ni candidat vaccin n’a reçu d’autorisation de commercialisation. L’ampleur des récentes a montré l’importance de trouver des traitements efficaces. La première partie de cette thèse porte sur le développement d’un modèle d’infection à EBOV chez des primates non-humains. Après l’administration de différentes doses d’EBOV, les paramètres vitaux ainsi que l’évolution du génome viral au cours de l’infection ont été étudiés. Les résultats montrent que l’évolution de la maladie, dans ce modèle, est plus proche de ce qui est observé chez l’homme que les modèles précédemment proposés (les signes cliniques, la détérioration des paramètres biologiques et la mort surviennent plus tardivement). La létalité est de 100%. La variabilité virale est assez faible et la dose d’infection a une influence limitée sur l’évolution de la maladie. La seconde partie porte sur l’utilisation dans ce modèle d’une molécule antivirale, le favipiravir (T-705), administrée à différentes doses (100, 150, 180mg/kg). Les paramètres cliniques, biologiques et la variabilité virale ont été suivis au cours de l’infection. L’administration de la plus forte dose de favipiravir (180 mg/kg) a été associée à la survie de 60% des singes.Les sous populations ayant une fréquence supérieure à 1% étaient significativement plus nombreuses dans le groupe traité que dans le groupe témoin et fournissent des indications sur le mécanisme d’action du favipiravir. Il s’agit d’un analogue du GTP inhibiteur de la polymérase virale qui engendre des mutations conduisant à un mécanisme inhibiteur de type « error catastrophe »
Ebola virus disease (EVD) is a major public health issue due to the lack of antiviral treatment or candidate vaccine receiving market authorisation. The scope of the recent outbreaks (2014-2016 and 2018) has highlighted the urgent need to develop efficient treatments.The first scope of this thesis concerns the implementation of a non-human model (Mauritian Cynomolgus Macaques) of Ebola virus (EBOV-Gabon 2001 strain) infection. Following intramuscular administration of EBOV, vital parameters and viral genomic evolution (consensus mutations and viral quasi species) over the disease course were observed. Results demonstrated that evolution of EVD, in this model, is closer from human than previously described models (clinical, biological parameters deteriorate later, and death occurs later). Lethality is 100%. Viral variability is low and infectious dose has a limited impact on disease course.The second scope would highlight the antiviral efficacy of different favipiravir (T-705) doses (100, 150, 180mg/kg) administrated intravenously in this model. Clinical, biological parameters and viral variability were evaluated during disease course. The highest favipiravir dose administration (180 mg/kg) was associated with 60% of monkeys’ survival.Next generation sequencing of viral quasi species over disease course has given some insights into the Proposed mechanism of action of favipiravir. Viral quasi specie number was increased by five between treated monkeys and negative controls. Favipiravir is a GTP analogue inhibiting viral polymerase which induces C to T and G to A mutations leading to error catastrophe mechanism
APA, Harvard, Vancouver, ISO, and other styles
7

Robitaille, Alexis. "Detection and identification of papillomavirus sequences in NGS data of human DNA samples : a bioinformatic approach." Thesis, Lyon, 2019. http://www.theses.fr/2019LYSE1358.

Full text
Abstract:
Les papillomavirus humains (HPV) constituent une famille de petits virus à double brin d’ADN qui ont un tropisme pour les cellules épithéliales de la peau et des muqueuses. Plus de 200 types d’HPV ont été découverts, et classifiés en plusieurs genres taxonomiques en fonction de la constitution de leur séquence ADN. De part le rôle de certains HPV dans les maladies affectant les humains, allant de l’apparition de verrues anogénitales bénignes jusqu’au développement d’un cancer, il est nécessaire de développer des méthodes de détection et de caractérisation de la population d’HPV dans un échantillon d’ADN. Elles sont nécessaires à la clarification du rôle de l’HPV dans les différentes étapes de la progression de la maladie. Cette détection d’HPV lors d’approches ciblées en laboratoire a principalement reposé sur des méthodes de PCR couplées avec du séquençage Sanger. Avec l’introduction des nouvelles technologies de séquençage haut débit (NGS), ces approches peuvent être revisitées afin d’intégrer la puissance de séquençage de ces technologies. Alors que des outils d’analyse in-silico ont été développés pour la recherche de virus, connus ou nouveaux, à partir de données de NGS, aucun outil approprié n’est disponible pour la classification et l’identification de nouvelles séquences virales à partir de données produites par des méthodes de séquençage d’amplicons. Dans cette thèse, la première partie présente cinq nouveaux génomes d’HPV isolés via l’utilisation d’amorces d’amplification dégénérées ciblant le gène L1 à partir d’échantillons de peau humaine. Puis, dans une seconde partie, nous présentons PVAmpliconFinder, un outil d’analyse de données conçu pour identifier et classifier rapidement des séquences connues et potentiellement nouvelles de la famille Papillomaviridae, à partir de données de NGS d’amplicons générées par PCR via l’utilisation d’oligonucleotides dégénérés ciblants les HPV. Enfin, les caractéristiques de PVAmpliconFinder sont présentées, ainsi que plusieurs applications sur des données biologiques obtenues lors du séquençage d’amplicons de spécimens humains. Ces applications ont permis la découverte de nouveaux types d’HPV
Human Papillomaviruses (HPV) are a family of small double-stranded DNA viruses that have a tropism for the mucosal and cutaneous epithelia. More than 200 types of HPV have been discovered so far and are classified into several genera based on their DNA sequence. Due to the role of some HPV types in human disease, ranging from benign anogenital warts to cancer, methods to detect and characterize HPV population in DNA sample have been developed. These detection methods are needed to clarify the implications of HPV at the various stages of the disease. The detection of HPV from targeted wet-lab approaches has traditionally used PCR- based methods coupled with cloning and Sanger sequencing. With the introduction of next generation sequencing (NGS) these approaches can be improved by integrating the sequencing power of NGS. While computational tools have been developed for metagenomic approaches to search for known or novel viruses in NGS data, no appropriate bioinformatic tool has been available for the classification and identification of novel viral sequences from data produced by amplicon-based methods. In this thesis, we initially describe five fully reconstructed novel HPV genomes detected from skin samples after amplification using degenerate L1 primers. Then, is the second part, we present PVAmpliconFinder, a data analysis workflow designed to rapidly identify and classify known and potentially new Papillomaviridae sequences from NGS amplicon sequencing with degenerate PV primers. This thesis describes the features of PVAmpliconFinder and presents several applications using biological data obtained from amplicon sequencing of human specimens, leading to the identification of new HPV types
APA, Harvard, Vancouver, ISO, and other styles
8

Jourdain, Anne-Sophie. "Déterminisme moléculaire du développement des membres : apport des nouvelles technologies d’étude du génome." Thesis, Lille 2, 2019. http://www.theses.fr/2019LIL2S037.

Full text
Abstract:
Le développement embryonnaire des membres est un processus complexe dont le mécanisme reste à ce jour imparfaitement connu. Ses anomalies sont des entités très hétérogènes et individuellement rares, mais touchent plus de 1/500 nouveau-nés et une proportion plus élevée de foetus. Elles représentent donc un véritable problème de santé publique, d’où l’importance d’un diagnostic précis. Il peut s’agir d’anomalies uniques ou multiples, isolées ou syndromiques, sporadiques ou familiales. L’étude de larges cohortes de patients porteurs de malformations des membres est un excellent outil qui permet d’identifier des gènes ou éléments régulateurs impliqués dans leur pathologie et par conséquent dans le développement du membre. Dans la majorité des cas, l’événement génétique responsable est une mutation ponctuelle située dans des gènes codant des facteurs de transcription ou dans des régulateurs transcriptionnels. Cependant, des variations du nombre de copies peuvent être également impliquées. Actuellement, de nouvelles technologies d’étude du génome, allant du séquençage haut débit d’un panel de gènes cibles, au séquençage de l’exome complet voire du génome, peuvent permettre d’identifier ces nouvelles cibles. C’est donc grâce à l’apport de ces avancées technologiques que nous avons souhaité étudier le déterminisme moléculaire du développement des membres. Pour ce faire nous avons analysé une très large cohorte de 684 patients, tous porteurs d’une malformation des extrémités, via différents panels de gènes, plus ou moins larges, voire via l’analyse d’exome complet ou d’une CGH pangénomique enrichie. Les résultats de ce travail nous ont permis, d’une part, d’établir un panel de gènes, adapté au laboratoire d’analyse moléculaire, dont l’analyse bioinformatique et le coût sont optimisés, permettant d’identifier les SNVs mais également les CNVs en une seule technique. D’autre part, d’identifier 5 gènes peu ou non décrits en pathologie humaine mais dont le rôle dans le développement des membres semble plus que probable et dont des analyses fonctionnelles, prometteuses, ont débuté pour l’un d’entre eux
Limbs development is a complex process of which mecanism is today only partially known. Embryological development abnormalities of genetic origins are rare entities. Such abnormalities can be unique or multiple, single or syndromic, sporadic or of family origins.The study of large cohorts of patients carrier of limb extremities malformations is an excellent tool that allows an identification of the genes or regulatory elements involved in their pathology and consenquently, in the development of the limb. In most of the cases, the genetic event involved is a point mutation in the genes coding transcriptionnal factor or regulatory sequence. However, variations in the number of copies are also involved.Today, new technologies of genome study, from high through put sequencing of a target genes panel to a whole exome or genome sequencing, can allow an identification of these new targets. It is thank to these technological advances that we decided to study the moleculary determinism of limbs development. To do so, we analyzed a very large cohort of 684 patients, all carriers of a limb malformation, through different genes panels, of different sizes, but also through a whole exome analysis and a pangenomic CGH array.The results of this work allowed us, in the first part, to establish a genes panel, suitable to a molecular analysis laboratory, to the bioinformatic analysis with an optimized cost, and that can identify the SNVs but also the CNVs in only one analysis.On a second part, we managed to identify 5 genes, not yet described in human pathology, which seemed to have a role in limb development. For one of these genes a promising functional analysis has started
APA, Harvard, Vancouver, ISO, and other styles
9

Rudewicz, Justine. "Méthodes bioinformatiques pour l'analyse de données de séquençage dans le contexte du cancer." Thesis, Bordeaux, 2017. http://www.theses.fr/2017BORD0635/document.

Full text
Abstract:
Le cancer résulte de la prolifération excessive de cellules qui dérivent toutes de la même cellule initiatrice et suivent un processus Darwinien de diversification et de sélection. Ce processus est défini par l'accumulation d'altérations génétiques et épigénétiques dont la caractérisation est un élément majeur pour pouvoir proposer une thérapie ciblant spécifiquement les cellules tumorales. L'avènement des nouvelles technologies de séquençage haut débit permet cette caractérisation à un niveau moléculaire. Cette révolution technologique a entraîné le développement de nombreuses méthodes bioinformatiques. Dans cette thèse, nous nous intéressons particulièrement au développement de nouvelles méthodes computationnelles d'analyse de données de séquençage d'échantillons tumoraux permettant une identification précise d'altérations spécifiques aux tumeurs et une description fine des sous populations tumorales. Dans le premier chapitre, il s'agît d'étudier des méthodes d'identification d'altérations ponctuelles dans le cadre de séquençage ciblé, appliquées à une cohorte de patientes atteintes du cancer du sein. Nous décrivons deux nouvelles méthodes d'analyse, chacune adaptée à une technologie de séquençage, spécifiquement Roche 454 et Pacifique Biosciences.Dans le premier cas, nous avons adapté des approches existantes au cas particulier de séquences de transcrits. Dans le second cas, nous avons été confronté à un bruit de fond élevé entraînant un fort taux de faux positifs lors de l'utilisation d'approches classiques. Nous avons développé une nouvelle méthode, MICADo, basée sur les graphes de De Bruijn et permettant une distinction efficace entre les altérations spécifiques aux patients et les altérations communes à la cohorte, ce qui rend les résultats exploitables dans un contexte clinique. Le second chapitre aborde l'identification d'altérations de nombre de copies. Nous décrivons l'approche mise en place pour leur identification efficace à partir de données de très faible couverture. L'apport principal de ce travail consiste en l'élaboration d'une stratégie d'analyse statistique afin de mettre en évidence des changements locaux et globaux au niveau du génome survenus durant le traitement administré à des patientes atteintes de cancer du sein. Notre méthode repose sur la construction d'un modèle linéaire permettant d'établir des scores de différences entre les échantillons avant et après traitement. Dans le troisième chapitre, nous nous intéressons au problème de reconstruction clonale. Cette problématique récente est actuellement en plein essor, mais manque cependant d'un cadre formel bien établi. Nous proposons d'abord une formalisation du problème de reconstruction clonale. Ensuite nous utilisons ce formalisme afin de mettre en place une méthode basée sur les modèles de mélanges Gaussiens. Cette méthode utilise les altérations ponctuelles et de nombre de copies - comme celles abordées dans les deux chapitres précédents - afin de caractériser et quantifier les différentes populations clonales présentes dans un échantillon tumoral
Cancer results from the excessive proliferation of cells decending from the same founder cell and following a Darwinian process of diversification and selection. This process is defined by the accumulation of genetic and epigenetic alterations whose characterization is a key element for establishing a therapy that would specifically target tumor cells. The advent of new high-throughput sequencing technologies enables this characterization at the molecular level. This technological revolution has led to the development of numerous bioinformatics methods. In this thesis, we are particularly interested in the development of new computational methods for the analysis of sequencing data of tumor samples allowing precise identification of tumor-specific alterations and an accurate description of tumor subpopulations. In the first chapter, we explore methods for identifying single nucleotide alterations in targeted sequencing data and apply them to a cohort of breast cancer patients. We introduce two new methods of analysis, each tailored to a particular sequencing technology, namely Roche 454 and Pacific Biosciences. In the first case, we adapted existing approaches to the particular case of transcript sequencing. In the second case, when using conventional approaches, we were confronted with a high background noise resulting in a high rate of false positives. We have developed a new method, MICADo, based on the De Bruijn graphs and making possible an effective distinction between patient-specific alterations and alterations common to the cohort, which makes the results usable in a clinical context. Second chapter deals with the identification of copy number alterations. We describe the approach put in place for their efficient identification from very low coverage data. The main contribution of this work is the development of a strategy for statistical analysis in order to emphasise local and global changes in the genome that occurred during the treatment administered to patients with breast cancer. Our method is based on the construction of a linear model to establish scores of differences between samples before and after treatment. In the third chapter, we focus on the problem of clonal reconstruction. This problem has recently gathered a lot of interest, but it still lacks a well-established formal framework. We first propose a formalization of the clonal reconstruction problem. Then we use this formalism to put in place a method based on Gaussian mixture models. Our method uses single nucleotide and copy number alterations - such as those discussed in the previous two chapters - to characterize and quantify different clonal populations present in a tumor sample
APA, Harvard, Vancouver, ISO, and other styles
10

Nemoz, Benjamin. "Exploration longitudinale à haut débit et en cellule unique du répertoire d'anticorps neutralisants à large spectre chez un neutraliseur d'élite du VIH-1." Electronic Thesis or Diss., Université Grenoble Alpes, 2024. http://www.theses.fr/2024GRALV012.

Full text
Abstract:
L'infection par le virus de l'immunodéficience humaine de type 1 (VIH-1) reste un problème majeur de santé publique à l'échelle mondiale, avec environ 37,7 millions de personnes vivant avec le virus et de nouvelles contaminations dépassant le million de cas par an. Des antirétroviraux efficaces permettent maintenant de traiter durablement les personnes infectées. Ces thérapies contribuent également à améliorer la prévention et à ralentir la progression de l'épidémie. Cependant, un vaccin reste nécessaire, en particulier pour contrôler l'épidémie dans les régions à faible revenu et les environnements précaires.Le rôle protecteur des anticorps neutralisants (AcN) a été démontré sans équivoque dans les modèles animaux d'infection par le VIH et chez l'homme. Par conséquent, le développement d'un vaccin visant à la production, par les cellules B, d'anticorps (Ac) capables de neutraliser la majorité des virus en circulation, à savoir des AcN à large spectre (AcNLS), pourrait être envisagé comme une réponse à la pandémie de VIH.L'étude du développement des AcNLS chez certains individus, dénommés neutraliseurs d’élite du VIH-1, fournit des informations précieuses pour la conception de tels vaccins. Jusqu'à présent, la plupart des études entreprises se sont appuyées sur le tri conventionnel de cellules B uniques par cytométrie en flux (FACS) pour isoler les AcNLS. Dans la présente étude, nous avons utilisé l'approche "Chromium Single Cell Immune Profiling" à haut débit sur cellules uniques (scRNA-seq) pour réaliser une exploration longitudinale du répertoire des cellules B chez un neutraliseur d'élite du VIH-1. Cette méthode permet d'utiliser comme appâts pour l'identification des cellules B spécifiques un nombre beaucoup plus important de glycoprotéines d’enveloppe (Env) du VIH par rapport aux approches d'isolement d'Ac basées sur le FACS, ce qui permet d'obtenir une analyse plus complète du répertoire en Ac anti-Env. En outre, cette approche fournit une multitude d'informations sur la nature des Ac spécifiques identifiés et sur les cellules B correspondantes.Notre étude a permis d'identifier la séquence de 12 130 anticorps spécifiques de la protéine Env du VIH. Des Ac de 39 lignées ont été produits et testés pour leurs capacités de neutralisation, révélant 21 lignées neutralisantes. Ces résultats démontrent la capacité de la méthode à explorer de vastes répertoires spécifiques d'antigènes à partir d'échantillons longitudinaux. L'activité neutralisante des Ac de quatre lignées récapitulait l'activité sérique du donneur, permettant de neutraliser 62,4 % d'un large panel prédictif de 126 pseudovirus. Une de ces lignées neutralisantes ciblait la région riche en mannose de la gp120. Par ailleurs, les Ac de cette lignée étaient sensibles à la présence d'un glycane en position N332. Un seul de ces Ac était responsable de la plus grande partie de cette neutralisation (51,1 %) avec une activité à faible concentration (IC50 moyenne de 91,1 ng.mL-1). Cet Ac possède un CDRH3 de 23 AA de long et 20 % d'hypermutation somatique (SMH). La lignée a montré une maturation continue sur 6,5 ans, avec des taux de SMH observés de 2,0 % à 30,6 % pour la chaîne lourde, sans insertion ou délétion.Un tri conventionnel basé sur la méthode FACS avait été utilisé précédemment pour isoler des AcNLS du même donneur. En comparaison, l'approche scRNA-seq a permis d'isoler des Ac en nombre bien supérieur. En outre, les AcN nouvellement isolés étaient globalement plus neutralisants et de plus large spectre que ceux isolés précédemment, ce qui indique la supériorité de la nouvelle méthode pour l'identification de lignées neutralisantes. Les études structurales en cours permettront d'élucider les épitopes responsables de la neutralisation observée chez ce donneur. L'ensemble de ces résultats pourrait contribuer à la conception d'approches de "vaccinologie inverse", qui représentent à l'heure actuelle un espoir pour la mise au point d'un vaccin contre le VIH
Human Immunodeficiency Virus type 1 (HIV-1) infection remains a major global health concern, with an estimated 37.7 million people living with the virus worldwide and new contaminations above a million cases yearly. Efficient anti-retroviral therapies are available, allowing a sustained relief for infected individuals. These therapeutics have also contributed to a better prevention and helped curb the epidemic, notably in high-income countries. However, a vaccine is still highly awaited for controlling this epidemic, especially in lower-income regions and precarious settings.The protective role of neutralizing antibodies (NAbs) has been unequivocally demonstrated in both animal models of HIV infection and in human settings. Consequently, the development of a B-cell-based vaccine capable of eliciting antibodies (Abs) with the ability to neutralize the majority of circulating viruses, namely broadly NAbs (bNAbs), could be foreseen as an answer to the HIV pandemic.The investigation of bNAb development in HIV-1 elite neutralizers provides valuable insights to inform the design of such vaccines. To date, most of the undertaken studies have relied on conventional single B-cell FACS sorting to isolate bNAbs. In the present study, we have used the Chromium Single Cell Immune Profiling approach to conduct a high-throughput longitudinal single-cell exploration of the B-cell repertoire in an HIV-1 elite neutralizer. Importantly, this novel method enables the use of a much greater number of HIV envelope glycoprotein (Env) baits compared to regular FACS-based Ab isolation studies, providing a more comprehensive view of the anti-Env Ab repertoire. In addition, this approach yields a wealth of information on the nature of the specific Abs identified and the corresponding B-cells.The study enabled the uncovering of the sequence of 12,130 putative HIV Env specific Abs. Antibodies from 39 lineages were produced and tested for neutralization, revealing 21 distinct neutralizing lineages. The results thus demonstrated the ability of the method to explore large antigen-specific Ab repertoires from longitudinal samples. The neutralizing activity of Abs from four neutralizing lineages together recapitulated the serum activity of the donor, achieving neutralization against 62.4 % of a large predictive panel of 126 pseudoviruses. One of these neutralizing Ab lineages was shown to target the gp120 high-mannose patch supersite with great breadth and potency; Abs from this lineage were sensitive to the presence of a glycan in position N332. A single of those Abs achieved most of the neutralization breadth (51.1 %) with a high potency (mean IC50 of 91.1 ng.mL-1). This Ab exhibited a 23 AA-long CDRH3 and 20 % somatic hypermutation (SMH). The lineage showed continuous evolution over 6.5 years of maturation, with observed SHM rates ranging from 2.0 % to 30.6 % for the heavy chain, without any insertions or deletions.Conventional FACS-based sorting was previously used to isolate bNAbs from the same donor. In comparison, the single cell high-throughput approach made possible the isolation of orders of magnitude more Abs. Furthermore, the newly isolated NAbs were overall more potent and broader than those isolated previously, indicating the superiority of the novel method in recovering neutralizing lineages. Ongoing structural studies will elucidate the epitopes responsible for the broad neutralization observed in this donor. Together, the findings may help the design of reverse vaccine approaches, which show promise in the development of an effective AIDS vaccine
APA, Harvard, Vancouver, ISO, and other styles
11

Curk, Franck. "Organisation du complexe d’espèce et décryptage des structures des génomes en mosaïque interspécifiques chez les agrumes cultivés." Thesis, Montpellier 2, 2014. http://www.theses.fr/2014MON20223/document.

Full text
Abstract:
Les études préexistantes identifient quatre taxons de base (C. reticulata les mandariniers, C. maxima les pamplemoussiers, C. medica les cédratiers et C. micrantha) à l'origine de l'ensemble des formes cultivées suite à des événements de réticulations. Il en résulte des structures génotypiques complexes, généralement fixées par l'apomixie, fortement hétérozygotes et formées d'une mosaïque de grands fragments chromosomiques d'origines phylogénétiques différentes. La structuration de la variabilité phénotypique suggère que la différenciation initiale des taxons ancestraux est à l'origine d'une part importante de la variabilité utile des agrumes. La connaissance de l'origine des formes cultivées et de leurs structures phylogénomiques est donc indispensable à la bonne gestion des collections et à l'optimisation des programmes d'amélioration génétique. A cette fin, cette thèse explore différentes approches d'analyse de la diversité des génomes. Elle a bénéficié de l'évolution rapide des NGS et propose une utilisation raisonnée des outils disponibles en fonction des questions de recherches. Une analyse plus poussée a été conduite sur les limettiers et citronniers. Le pyroséquençage 454 (Roche) d'amplicons a été utilisé pour décrypter la structure en mosaïque interspécifique du chromosome 2 de 50 variétés à partir d'une information haplotypique multiloci et pour identifier des marqueurs diagnostiques des taxons ancestraux. Ces marqueurs ont permis, en association avec des SSR et indels, d'apporter un nouvel éclairage sur l'origine des limettiers et citronniers, par un génotypage exhaustif des collections Inra/Cirad et Ivia. Enfin, les données de re-séquençage complet Illumina de sept variétés de limettiers et de citronniers comparées à celles de représentants des taxons ancestraux nous ont permis de reconstituer la structure interspécifique de leurs génomes et de schématiser leurs caryotypes phylogénomiques. Les différentes approches ont conduit à des conclusions convergentes. Nos résultats confirment les hypothèses concernant la séquence évolutive à l'origine des bigaradiers (C. aurantium), des orangers (C. sinensis) et des pomelos (C. paradisi) à partir des pools géniques de C. maxima et C. reticulata. Ils mettent en évidence de fréquentes introgressions de C. maxima dans le génome de mandariniers considérées comme représentatifs de C. reticulata. Les contributions relatives de ces deux taxons ancestraux aux génomes de nombreuses variétés de petits agrumes (mandariniers, tangors et tangelos) ont pu être estimées. Les limettiers et citronniers résultent de multiples évènements de réticulation et C. medica est identifié comme parent mâle de la majorité des variétés diploïdes. Deux grands groupes de citronniers, sont différenciés, ceux issus d'hybridations directes C. reticulata × C. medica et ceux impliquant trois taxons ancestraux (C. maxima, C. reticulata et C. medica). Le bigaradier serait le parent femelle à l'origine des citronniers type Lisbonne (C. limon). Les limettiers de type Mexicain (C. aurantifolia) seraient issus d'une hybridation directe C. micrantha × C. medica. Enfin, les limes à gros fruits, triploïdes, ont deux origines. Les types Tahiti résulteraient probablement de la fécondation d'un ovule de citronnier type Lisbonne par un gamète diploïde de limettier type Mexicain. L'autre grand type serait issu d'un backcross entre C. aurantifolia (gamète diploïde) et C. medica. Ces connaissances sur la structure génomique des espèces secondaires permettent d'envisager une reconstruction d'idéotypes à partir du germplasm des taxons ancestraux. Elles ouvrent également la voie à des études de génétique d'association s'appuyant sur la phylogénomique des gènes impliqués dans l'élaboration des caractères de qualité, de résistance et d'adaptation. Enfin, les marqueurs diagnostiques d'espèces développés trouveront de nombreuses applications pour la caractérisation des collections et diverses études de génétiques
Citrus fruit, the most important fruit crop in the world, show a wide phenotypic diversity. Previous studies (molecular markers) identified four ancestral taxa (Citrus reticulata Blanco, mandarins; C. maxima (Burm.) Merr., pummelos; C. medica L., citrons; C. micrantha Wester, papedas) as the ancestors of all cultivated Citrus after reticulate evolutions. As a result, modern citrus varieties have complex and highly heterozygous genotypic structures, generally fixed by apomixis, and formed by a mosaic of large chromosomal fragments of different phylogenetic origins. Furthermore, the structuration of the phenotypic variability suggests that the initial differentiation of the basic taxa is the main source of most of the variability of the useful citrus phenotypic diversity. A thorough knowledge of the origin of cultivated citrus and their phylogenomic structure are essential for the management of biological resources and breeding program optimization. This thesis explores different approaches for analyzing genome diversity in order to identify the phylogenetic origins of the various horticultural citrus groups and to decipher their phylogenomic genome's structures. We focused on limes and lemons. This thesis takes advantage of the rapid evolution of NGS and proposes a rational use of available tools, based on research questions. Roche 454 parallel sequencing of amplicons provides multi-loci haplotype information on 500 base fragments. It was used to decipher the interspecific mosaic structure of chromosome 2 for fifty varieties and to identify ancestral taxa diagnostic SNP markers. The genotyping of all limes and lemons of the Inra/Cirad and Ivia germplasms with these markers, in association with SSR and indel markers, allowed to propose new hypothesis on the origins of limes and lemons. Data from Illumina whole genome re-sequencing of 7 varieties of limes and lemons, compared to those of representatives of the ancestral taxa, allowed to infer the interspecific structure of their genomes and to map out, for the first time, their phylogenomic karyotypes. The different approaches led to similar conclusions. Our results confirm previous hypothesis about the evolutionary steps at the origin of sour orange (C. aurantium), sweet orange (C. sinensis) and grapefruit (C. paradisi) involving C. maxima and C. reticulata gene pools. They highlight frequent introgressions of C. maxima in the genome of mandarin varieties despite the fact they were considered as representative of C. reticulata. We were also able to quantify the relative proportions of these two ancestral taxa in the genome of many varieties of small citrus fruit (mandarin hybrids, tangors and tangelos). Our work on limes and lemons demonstrate that C. medica is the male parent of this varietal group at the diploid level. Two groups of lemons are clearly differentiated: one from direct hybridizations between C. reticulata and C. medica, and one from crosses between hybrids (C. maxima × C. reticulata) and C. medica. Sour orange seems to be the female parent of ‘Eureka' type lemons (C. limon). The ‘Mexican' limes (C. aurantifolia) seems to come from a direct hybridization C. micrantha × C. medica. Finally, triploid big fruit limes have two major origins. The ‘Tahiti' type probably results from an ‘Eureka' type lemon (C. limon) ovule fecundated by a diploid gamete of a ‘Mexican' type lime (C. aurantifolia), while the other type would come from a back-cross between C. aurantifolia (diploid gamete) and C. medica. This new insights in genomic structure of secondary species makes to consider possible a reconstruction of these ideotypes from ancestral taxa germplasm. They also open new ways for association genetic studies based on phylogenomics of genes involved in the development of quality, resistance and adaptation traits. Finally, developed specific taxa diagnostic markers will find many applications for the characterization of collections and further genetic studies
APA, Harvard, Vancouver, ISO, and other styles
12

Chiarello, Marlène. "Biodiversité du microbiome cutané des organismes marins : variabilité, déterminants et importance dans l’écosystème." Thesis, Montpellier, 2017. http://www.theses.fr/2017MONTT092/document.

Full text
Abstract:
Les milliers d’espèces de microorganismes présentes dans les océans sont essentiellement connus pour être planctoniques ou benthiques. Moins décrits, de nombreux micro-organismes colonisent également la surface et le tube digestif des macro-organismes marins, formant des communautés appelées microbiomes. Ces microbiomes ont des conséquences cruciales sur la fitness de leur hôte. Les récents progrès en biologie moléculaire ont ouvert la voie à une caractérisation des différentes facettes de sa biodiversité, à la fois taxonomique, phylogénétique, et fonctionnelle. L’objectif de cette thèse est donc de caractériser la biodiversité des microbiomes cutanés des organismes marins, d’identifier ses échelles de variabilité, ses déterminants, et son importance à l’échelle de l’écosystème. Dans un premier temps j’ai mesuré l’efficacité d’indices de biodiversité à détecter des signaux écologiques dans le cas spécifique de communautés microbiennes. Puis, j’ai décrit le microbiome cutané des principaux grands clades d’animaux marins (poissons téléostéens, cétacés et invertébrés de plusieurs classes). J’ai démontré que le microbiome cutané était très différent des communautés présentes dans l’eau environnante. J’ai aussi montré qu’il était variable, à la fois entre individus et entre espèces, mais ne présentait pas de patron de phylosymbiose. Enfin, j’ai évalué la contribution de la diversité des microbiomes cutanés à la diversité de la communauté microbienne globale d’un écosystème corallien. J’ai ainsi démontré que les animaux marins hébergent collectivement une richesse microbienne presque vingt fois supérieure à celle de l’eau les environnant, et 75% de la richesse phylogénétique à l’échelle de l’écosystème. Dans un contexte d’érosion massive de la diversité des macro-organismes marins, ces résultats soulignent la nécessité d’évaluer plus exhaustivement la biodiversité microbienne marine et sa vulnérabilité face aux pressions anthropiques
Oceans contain thousands of microbial species playing crucial roles for the functioning of the marine ecosystem. These microorganisms are present everywhere in the water column. Some microorganisms also colonize the surface and the digestive tract of marine macro-organisms, forming communities called microbiomes. These microbiomes have positive effects for their host’s fitness. The diversity of these marine animal surface microbiome is still largely understudied, despite recent progress in molecular biology that now permits to fully assess its different facets of biodiversity, i.e. taxonomic, phylogenetic and functional. The goal of this thesis is therefore to describe the diversity of the surface microbiome of marine animals, to assess its variability at different levels, as well as its determinants, and the significance of such diversity at the ecosystem’s scale. Firstly, I have assessed the efficiency of various diversity indices to detect ecological signals in the specific case of microbial communities. Secondly, I have described the surface microbiome of major marine animal clades (teleostean fishes, cetaceans and several classes of invertebrates). I found that these microbiomes are highly distinct from the surrounding planktonic communities. I demonstrated that these microbiomes are variable both between individuals from the same species and between species, but do not show a phylosymbiosis pattern. Last, I assessed the contribution of surface microbiomes to the global microbial community at the scale of a coral reef ecosystem. I demonstrated that marine animal surfaces host almost twenty times more microbial species than the water column, and 75% of the phylogenetic richness present in the ecosystem. In a context of massive erosion of marine macroscopic organisms, it is therefore urgent to exhaustively assess marine microbial biodiversity and its vulnerability facing anthropic pressures
APA, Harvard, Vancouver, ISO, and other styles
13

Mandon, Perrine. "Origines et évolution de lignées hydrothermales." Thesis, Sorbonne université, 2018. http://www.theses.fr/2018SORUS467.

Full text
Abstract:
De par leur originalité, certains organismes de la faune hydrothermale ont été classés dans des nouveaux groupes taxonomiques de haut rang. De précédentes études moléculaires ont permis d’en réassigner certains dans des lignées connues, occasionnant parfois d’importantes réductions de rangs taxonomiques. Par ailleurs, en phylogénie moléculaire, il est difficile d’optimiser à la fois l’échantillonnage taxonomique et le nombre de marqueurs. Cette thèse illustre cette limitation, mais fournit des avancées sur la compréhension de l’origine et l’évolution de trois groupes hydrothermaux. Chez les vers Polynoidae, l’approche multigène appliquée sur un grand nombre d’espèces suggère au moins deux événements de colonisation de ce milieu. Toutefois, le manque de résolution des marqueurs pour les nœuds profonds entrave la compréhension de l’histoire de ces colonisations. Une limitation similaire avait empêché de replacer les familles de crevettes Alvinocarididae et de crabes Bythograeidae dans leur infra-ordre respectifs (Caridea et Brachyura). Deux approches de recherche et d’identification de marqueurs sont donc testées pour ces groupes. La première, basée sur le séquençage de génome mitochondrial (facilement généralisable), résout les relations profondes des Brachyura et place les espèces de Bythograeidae disponibles proches des Xanthidae. La seconde, basée sur le séquençage de transcriptomes permet d’identifier des marqueurs suffisamment conservés pour résoudre les relations inter-familles chez les Caridea. Cette approche est moins généralisable, mais les marqueurs identifiés pourront a posteriori être recherchés dans un échantillonnage large par capture à l’aide de sonde
The originality of the hydrothermal vents fauna led to the classification of some organisms under new high taxonomic ranks. However, previous molecular studies reassigned them to known lineages, leading to major reductions in such ranking. Classically in phylogenetic studies, optimizing both taxonomic sampling and molecular markers is challenging. This Ph.D project illustrates this limitation, but still provides breakthroughs in the understanding of the origin and evolution of three hydrothermal taxa. In Polynoidae worms, the multigenic approach, led on a large taxonomic and ecological sampling, indicates at least two colonization events of hydrothermal vents. However, the limited resolution of these markers for deep nodes prevented the clear understanding of such events. A similar limitation was previously encountered for Alvinocarididae shrimp and Bythograeidae crabs families in their respective infra-orders (Caridea and Brachyura). Here, two approaches aiming to search and identify markers were tested on these groups. The first one, based on the sequencing of the mitochondrial genome (easily generalizable), resolves deep nodes in Brachyura, and places the available Bythograeidae species near the Xanthidae. The second, based on transcriptome sequencing, allows the identification of molecular markers conserved enough to resolve inter-familial relationships in Caridea. Although this approach is less generalizable, the identified markers could be targeted a posteriori on a wide taxonomic scale using marker-specific probes
APA, Harvard, Vancouver, ISO, and other styles
14

Lucasson, Aude. "Caractérisation et diversité des mécanismes du syndrome de mortalité affectant les juvéniles de Crassostrea gigas." Thesis, Montpellier, 2018. http://www.theses.fr/2018MONTG076/document.

Full text
Abstract:
Les maladies infectieuses sont souvent étudiées à l'aide d'approches réductionnistes alors qu'elles sont fortement influencées par de nombreux facteurs hôtes et environnementaux en interaction. Ainsi, de nombreuses maladies d’étiologie complexe restent difficiles à caractériser. En développant une approche holistique pour aborder la complexité de l'interaction, (i) nous avons déchiffré les interactions complexes sous-jacentes au syndrome de mortalité des huîtres du Pacifique chez les juvéniles d’huîtres Crassostrea gigas, la principale espèce d'huître exploitée dans le monde et (ii) nous avons validé le mécanisme de pathogénèse quel que soit l’environnement infectieux et le génotype de l’huître. En utilisant une expérience d’infection écologiquement réaliste combinée à des analyses moléculaires (métabarcoding, transcriptomique, et suivi des agents pathogènes) et histologiques sur des familles d'huîtres aux susceptibilités contrastées à la maladie, nous avons démontré que la maladie est causée par une infection multiple avec comme première étape nécessaire l’infection des cellules immunocompétentes de l’huître (les hémocytes) par OsHV-1µvar. La réplication du virus induit un état immunodéprimé de l’huître qui conduit à une septicémie par des bactéries pathogènes opportunistes entraînant la mort des huîtres. En identifiant les interactions intra-hôtes entre les microorganismes et l'immunité de l'hôte, cette étude déchiffre le code du syndrome de mortalité des huîtres du Pacifique et fournit d'importantes données pour la conception de mesures prophylactiques et de programmes de sélection d'huîtres résistantes au syndrome de mortalité. Nous pensons qu'une telle approche de la biologie des systèmes pourrait être appliquée pour déchiffrer d'autres maladies multifactorielles qui affectent des espèces d'invertébrés non modèles dans le monde entier
Infectious diseases are very often explored using reductionist approaches, despite repeated evidence showing them to be strongly influenced by numerous interacting host and environmental factors. Many diseases with complex etiology therefore remain misunderstood. In this thesis, by developing a holistic approach to tackle the complexity of the interaction, (i) we deciphered the complex intra-host interactions underlying the Pacific oyster mortality syndrome affecting juveniles of Crassostrea gigas, the main oyster species exploited worldwide and (ii) we validated this mechanism in different infectious environments and oyster genotypes. Using ecologically realistic experimental infections combined with thorough molecular (metabarcoding, transcriptomics, pathogen monitoring) and histological analyses on oyster families with contrasting susceptibilities, we demonstrated that the disease is caused by a multiple infection whose initial and necessary step is the infection of oyster haemocytes by a herpesvirus. Viral replication leads to an immune-compromised state of the host, evolving toward subsequent bacteremia by opportunistic bacteria. By identifying critical intra-host interactions between microorganisms and host immunity, this study cracks the code of the Pacific oyster mortality syndrome and provides important molecular data for the design of prophylactic measures and breeding programs dedicated to the production of oysters resistant to the mortality syndrome. We believe that such a systems biology approach could be applied to decipher other multi-factorial diseases that affect non-model invertebrate species worldwide
APA, Harvard, Vancouver, ISO, and other styles
15

Redin, Claire. "NGS-based approaches for the diagnosis of intellectual disability and other genetically heterogeneous developmental disorders." Thesis, Strasbourg, 2014. http://www.theses.fr/2014STRAJ129/document.

Full text
Abstract:
Certaines maladies héréditaires monogéniques sont caractérisées par une grande hétérogénéité génétique. Chez des individus présentant un phénotype clinique similaire, les mutations causales peuvent être retrouvées dans un des gènes parmi un sous-ensemble décrits comme impliqués dans la maladie. Cette hétérogénéité génétique limite considérablement les offres diagnostiques pour les patients, et une majorité reste sans diagnostic moléculaire. Nous avons développé une approche diagnostique alternative par séquençage à haut débit ciblé (ciblant spécifiquement les régions codantes des gènes d’intérêt par capture d’exons), au travers de trois pathologies génétiquement hétérogènes : le syndrome de Bardet-Biedl (19 gènes décrits), les leucodystrophies (50 gènes), et la déficience intellectuelle (>400 gènes). Au vu de son efficacité dans le syndrome de Bardet-Biedl et la déficience intellectuelle (80% et 25% de mutations détectées respectivement, soit des taux nettement supérieurs à ceux des méthodes précédentes), elle est depuis appliquée en routine diagnostique. Au-delà du diagnostic, cette approche permet de manière non biaisée de revoir la contribution de chacun des gènes dans la pathologie et donc d’identifier les gènes récurrents, et d’établir de nouvelles corrélations génotype/phénotype
Some monogenic disorders are characterized by a vast genetic heterogeneity. In individuals with similar clinical phenotype, causative mutations can be found in one gene from a subset described as implicated in the disease. Such genetic heterogeneity limits considerably the diagnostic offer for the patients, and a majority is left without molecular diagnosis. We developed an alternative diagnostic approach by targeted high throughput sequencing (specific to the coding regions of genes of interest by a technique of exon capture) through three genetically heterogeneous disorders: Bardet-Biedl syndrome (19 genes reported), leukodystrophies (50 genes), and intellectual disability (>400 genes). In light of its efficiency, this approach has since been implemented in diagnostic routine for Bardet-Biedl syndrome and intellectual disability (80% and 25% of diagnostic yields respectively, significantly higher than those of previous methods). Beyond diagnosis, this approach allows unbiased means to assess the contribution of each gene in the disease and highlight recurrent genes, and establish new correlations genotype to phenotype, overall providing much insight in the genetics of a particular disease
APA, Harvard, Vancouver, ISO, and other styles
16

Debladis, Emilie. "Etude de l'activité transpositionnelle en condition de stress chez le riz, Oryza sativa." Thesis, Perpignan, 2016. http://www.theses.fr/2016PERP0026/document.

Full text
Abstract:
Les éléments transposables (ETs) sont des composants ubiquitaires des génomes eucaryotes, parfois prépondérants chez les plantes. Ce sont des séquences mobiles, potentiellement mutagènes, reconnues comme des acteurs de l’évolution des génomes. Cependant, la plupart des ETs sont aujourd’hui inactifs car réprimés par des mécanismes épigénétiques très efficaces. Néanmoins, ces derniers peuvent être relâchés par des stress, conduisant à la réactivation d’ETs. De tels stress sont-ils suffisants pour activer la transposition dans les populations naturelles? L’application répétée d’un stress peut-elle expliquer les pics d’activité transpositionnelle qui ont eu lieu en conditions naturelles? De récents travaux chez un mutant d’Arabidopsis thaliana, affecté dans une voie de répression d’ETs, le RdDM (RNA-directed DNA Methylation), ont démontré qu’un stress thermique conduisait à la réactivation transpositionnelle d’un ET. Mes travaux de thèse portent sur l’étude de riz sauvage et d’un mutant non décrit, affecté dans le RdDM, cultivés en conditions normales ou de stress thermique sur plusieurs générations. Les objectifs de mes travaux ont été de déterminer (1) l’impact de la mutation sur les différentes étapes d’activation rétrotranspositionnelle et (2) l’activation rétrotranspositionnelle en réponse à un stress thermique. Une part importante de ce travail a été consacrée au développement et à la comparaison de méthodes d’identification des mouvements d’ETs et différentes approches « omiques » ont été utilisées. La réactivation de 5 ETs dans les plantes mutantes, dont la mobilité n’avait pas encore été observée, suggère que la voie RdDM est impliquée dans le contrôle de leur répression. De plus, nos résultats confirment que les ETs ne sont pas tous réprimés par les mêmes voies de régulation
Transposable elements (TEs) are ubiquitous among eukaryotic genomes sometimes overriding in plants. Due to their ability to replicate and transpose, they are potentially mutagenic and recognized as actors of genome evolution. However, the analysis of the transpositional activity of TEs in different plant species have shown that most of them are maintained in a transcriptionally inactive state through powerful and specific epigenetic mechanisms. These silencing processes can nevertheless be allievated under stress conditions, leading to TE reactivation. Are these stress sufficient to activate transposition in natural populations? Are repeated heat stress able to trigger transposition and therefore lead to bursts of transposition? In recent reports, reactivation of retrotransposons has been shown in Arabidopsis thaliana mutants impaired in the RdDM pathway (RNA-directed DNA Methylation) and submitted to heat stress. My PhD works reports the study of of a wild rice and a new rice mutant, affected in the RdDM, cultivated under optimal or heat stress conditions over generations. Here, we propose to determine (1) the impact of the mutation at the different levels leading to the retrotranspositional activation and (2) the retrotranspositional activity in response to heat stress. An important part of this work has been devoted to the development and the comparison of different methods to identify TE movements, and different -omics approaches have been used. The reactivation of 5 new TEs in mutants, suggests that the RdDM pathway is involved in the control of the repression of these TEs. Furthermore, our result confirm that all TEs are not regulated through the same pathways but are under the control of different lock
APA, Harvard, Vancouver, ISO, and other styles
17

Delhomme, Tiffany. "Using the systematic nature of errors in NGS data to efficiently detect mutations : computational methods and application to early cancer detection." Thesis, Lyon, 2019. http://www.theses.fr/2019LYSE1098/document.

Full text
Abstract:
La caractérisation exaustive des variations de l'ADN peut aider à progresser dans de nombreux champs liés à la génomique du cancer. Le séquençage nouvelle génération (NGS en anglais pour Next Generation Sequencing) est actuellement la technique la plus efficace pour déterminer une séquence ADN, du aux faibles coûts et durées des expériences comparé à la méthode de séquençage traditionnelle de Sanger. Cependant, la détection de mutations à partir de données NGS reste encore un problème difficile, en particulier pour les mutations somatiques présentes en très faible abondance comme lorsque l'on essaye d'identifier des mutations sous-clonales d'une tumeur, des mutations dérivées de la tumeur dans l'ADN circulant libre, ou des mutations somatiques dans des tissus normaux. La difficulté principale est de précisement distinguer les vraies mutations des artefacts de séquençage du au fait qu'ils atteignent des niveaux similaires. Dans cette thèse nous avons étudié la nature systématique des erreurs dans les données NGS afin de proposer des méthodologies efficaces capables d'identifier des mutations potentiellement en faible abondance. Dans un premier chapitre, nous decrivons needlestack, un nouvel outil d'appel de variants basé sur la modélisation des erreurs systématiques sur plusieurs échantillons pour extraire des mutations candidates. Dans un deuxième chapitre, nous proposons deux méthodes de filtrage des variants basées sur des résumés statistiques et sur de l'apprentissage automatique, dans le but de d'améliorer la précision de la détection des mutations par l'identification des erreurs non-systématiques. Finalement, dans un dernier chapitre nous appliquons ces approches pour développer des biomarqueurs de détection précoce du cancer en utilisant l'ADN circulant tumoral
Comprehensive characterization of DNA variations can help to progress in multiple cancer genomics fields. Next Generation Sequencing (NGS) is currently the most efficient technique to determine a DNA sequence, due to low experiment cost and time compared to the traditional Sanger sequencing. Nevertheless, detection of mutations from NGS data is still a difficult problem, in particular for somatic mutations present in very low abundance like when trying to identify tumor subclonal mutations, tumor-derived mutations in cell free DNA, or somatic mutations from histological normal tissue. The main difficulty is to precisely distinguish between true mutations from sequencing artifacts as they reach similar levels. In this thesis we have studied the systematic nature of errors in NGS data to propose efficient methodologies in order to accurately identify mutations potentially in low proportion. In a first chapter, we describe needlestack, a new variant caller based on the modelling of systematic errors across multiple samples to extract candidate mutations. In a second chapter, we propose two post-calling variant filtering methods based on new summary statistics and on machine learning, with the aim of boosting the precision of mutation detection through the identification of non-systematic errors. Finally, in a last chapter we apply these approaches to develop cancer early detection biomarkers using circulating tumor DNA
APA, Harvard, Vancouver, ISO, and other styles
18

Pichon, Maxime. "Caractérisation du microbiome respiratoire et de la diversité génomique virale au cours des formes de grippes sévères." Thesis, Lyon, 2018. http://www.theses.fr/2018LYSE1271.

Full text
Abstract:
La grippe est une infection respiratoire responsable de complications respiratoires ou neurologiques nécessitant une prise en charge rapide et adaptée. L’émergence des technologies de séquençage à haut débit (NGS) permet l’étude des communautés microbiennes résidentes ainsi qu’une étude approfondie du génome des pathogènes impliqués. Cette thèse a pour objectif de caractériser le microbiome respiratoire et la diversité génomique virale des patients infectés par les virus grippaux, en corrélant les données clinicobiologiques recueillies. Après recueil des prélèvements respiratoires d’enfants hospitalisés entre 2010 et 2014, le séquençage de leur microbiome respiratoire a mis en évidence une augmentation de la diversité microbienne ainsi qu’une signature microbienne différentielle entre formes cliniques. Une répartition différentielle de taxons (OTU) permet la prédiction de complications chez les enfants infectés. L’étude d’échantillons respiratoires de patients adultes permettra de compléter la signature prédictive. Après validation des processus analytiques et bioinformatiques par reconstitution artificielles de quasi espèces et recueil de 125 prélèvements cliniques respiratoires, le séquençage du génome entier par NGS des virus grippaux permet de différencier les diversités initiales en fonction de la nature du virus infectant et de la complication. En comparaison du prélèvement initial précoce les échantillons prélevés successivement mettent en évidence une diversification différentielle entre les différents segments des virus grippaux infectant les patients, que ce soit chez les patients immunocompétents ou chez un patient immunodéprimé à l’excrétion prolongé
Influenza is a respiratory infection responsible for respiratory or neurological complications and require rapid and adapted management. The emergence of next-generation sequencing (NGS) allows the study of resident microbial communities as well as an in-depth study of the genome of the pathogens. This thesis aimed to characterize the respiratory microbiome and the viral genomic diversity of influenza virus infected patients, correlating these data to the collected clinical data. After sampling of respiratory specimens from hospitalized children between 2010 and 2014, the sequencing of their respiratory microbiome revealed an increase in microbial diversity and a differential microbial signature between clinical forms. A differential taxon distribution (OTU) allows the prediction of complications in infected children. The study of adult respiratory samples will complete the predictive signature.After validation of the analytical and bioinformatic processes by artificial reconstitution of quasi-species and collection of 125 respiratory clinical specimens, the sequencing of the whole genome by NGS of the influenza viruses allow to differentiate the initial diversities according to the nature of the infecting virus and the complication. Compared to early samples, specimen sampled successively show a differential diversification between the different segments of influenza viruses, whether in immunocompetent patients or in an immunocompromised patient with prolonged excretion
APA, Harvard, Vancouver, ISO, and other styles
19

Garcia, del Rio Diego Fernando. "Studying protein complexes for assessing the function of ghost proteins (Ghost in the Cell)." Electronic Thesis or Diss., Université de Lille (2022-....), 2023. https://pepite-depot.univ-lille.fr/ToutIDP/EDBSL/2023/2023ULILS115.pdf.

Full text
Abstract:
Le cancer de l'ovaire (OvCa) est le cancer le plus mortel parmi les cancers féminins. Il est souvent diagnostiqué tardivement ou mal diagnostiqué, ce qui le rend difficile à traiter. Les options de traitement incluent la chirurgie ou la chimiothérapie, toutefois la résistance à la chimiothérapie est un problème majeur. Il est donc urgent de trouver de nouvelles cibles et de développer de nouvelles stratégies pour surmonter cette résistance.Dans ce contexte le protéome fantôme est une source potentiellement riche de biomarqueurs. Le protéome fantôme, ou protéome alternatif, est composé de protéines traduites à partir de cadres de lecture ouverts alternatifs (AltORFs). Ces AltORFs proviennent de différents codons START issus de différente région de l'ARNm, tels qu'un décalage de cadre de lecture (+1, +2) dans la séquence codante de l'ADN (CDS), dans le 5'-UTR, 3'-UTR et éventuellement de la traduction d'ARN non codants (ncRNA).Les études sur les protéines alternatives (AltProts) sont souvent complexes et nécessite des études biomoléculaires coûteuses. Cependant, leurs fonctions peuvent être déduites en identifiant leurs partenaires d'interaction, la détection des interactions protéine-protéine (PPI) entre AltProts et protéines de référence (RefProts) peut aider à identifier leur fonction. La stratégie de pontage chimique (crosslink) combiné à la spectrométrie de masse (XL-MS) est un outil approprié à cet objectif. De plus, les outils bioinformatiques qui relient les informations fonctionnelles des RefProt et les analyses d'ontologie génique (GO) permettent la visualisation des voies de signalisation et le regroupement des RefProts en fonction de leur processus biologique, de leur fonction moléculaire ou de leur localisation cellulaire, et ainsi y placer certaine AltProt.Dans ce travail, nous avons développé une méthodologie combinant XL-MS et le fractionnement subcellulaire. L'étape de fractionnement subcellulaire nous a permis de réduire la complexité des échantillons analysés par chromatographie liquide et spectrométrie de masse (LC-HRMS/MS). Pour évaluer la validité des interactions, nous avons réalisé une modélisation moléculaire des structures 3D des AltProts, suivie d'une prédiction informatique de l'interaction et de mesure des distances de pontages identifiés expérimentalement. L'analyse a révélé des rôles d'AltProts dans les fonctions et les processus biologiques tel que la réparation de l'ADN ou encore la présentation d'antigène.La protéogénomique a été utilisée pour générer des bases de données protéiques personnalisées à partir des données de séquençage ARN afin d'étudier les protéomes de deux lignées cellulaires de cancer de l'ovaire (PEO-4 et SKOV-3) en comparaison avec une lignée cellulaire ovarienne normale (T1074). L'expression différentielle de plusieurs protéines a ainsi été identifiée entre les lignées cellulaires cancéreuses et normales, avec une association aux voies de signalisation connues pour le cancer. Des PPI ont également été identifiées dans les lignées cellulaires cancéreuses en utilisant la méthodologie XL-MS.Ce travail met en évidence le potentiel de l'approche protéogénomique pour découvrir de nouveaux aspects de la biologie du cancer de l'ovaire. Il nous permet d'identifier des protéines et des variants auparavant inconnus qui peuvent avoir une signification fonctionnelle. L'utilisation de bases de données protéiques personnalisées et de l'approche de réticulation a mis en lumière le "protéome fantôme", une vision du protéome restée inexplorée jusqu'à présent
Ovarian cancer (OvCa) has the highest mortality rate among female reproductive cancers worldwide. OvCa is often referred to as a stealth killer because it is commonly diagnosed late or misdiagnosed. Once diagnosed, OvCa treatment options include surgery or chemotherapy. However, chemotherapy resistance is a significant obstacle. Therefore, there is an urgent need to identify new targets and develop novel therapeutic strategies to overcome therapy resistance.In this context the ghost proteome is a potentially rich source of biomarkers. The ghost proteome, also known as the alternative proteome, consists of proteins translated from alternative open reading frames (AltORFs). These AltORFs originate from different start codons within mRNA molecules, such as the coding DNA sequence (CDS) in frameshifts (+1, +2), the 5'-UTR, 3'-UTR, and possible translation products from non-coding RNAs (ncRNA).Studies on alternative proteins (AltProts) are often limited due to their case-by-case occurrence and complexity. Obtaining functional protein information for AltProts requires complex and costly biomolecular studies. However, their functions can be inferred by profiling their interaction partners, known as "guilty by association" approaches. Indeed, assessing AltProts' protein-protein interactions (PPIs) with reference proteins (RefProts) can help identify their function and set them as research targets. Since there is a lack of antibodies against AltProts, crosslinking mass spectrometry (XL-MS) is an appropriate tool for this task. Additionally, bioinformatic tools that link protein functional information through networks and gene ontology (GO) analysis are also powerful. These tools enable the visualization of signaling pathways and the grouping of RefProts based on their biological process, molecular function, or cellular localization, thus enhancing our understanding of cellular mechanisms.In this work, we developed a methodology that combines XL-MS and subcellular fractionation. The key step of subcellular fractionation allowed us to reduce the complexity of the samples analyzed by liquid chromatography tandem mass spectrometry (LC-MS/MS). To assess the validity of crosslinked interactions, we performed molecular modeling of the 3D structures of the AltProts, followed by docking studies and measurement of the corresponding crosslink distances. Network analysis indicated potential roles for AltProts in biological functions and processes. The advantages of this workflow include non-targeted AltProt identification and subcellular identification.Additionally, a proteogenomic analysis was performed to investigate the proteomes of two ovarian cancer cell lines (PEO-4 and SKOV-3 cells) in comparison to a normal ovarian epithelial cell line (T1074 cell). Using RNA-seq data, customized protein databases for each cell line were generated. Differential expression of several proteins, including AltProts, was identified between the cancer and normal cell lines. The expression of some RefProts and their transcripts were associated with cancer-related pathways. Moreover, the XL-MS methodology described above was used to identify PPIs in the cancerous cell lines.This work highlights the significant potential of proteogenomics in uncovering new aspects of ovarian cancer biology. It enables us to identify previously unknown proteins and variants that may have functional significance. The use of customized protein databases and the crosslinking approach have shed light on the "ghost proteome," an area that has remained unexplored until now
APA, Harvard, Vancouver, ISO, and other styles
20

Lerat, Justine. "Neuropathies Périphériques Génétiques et Surdité : Etude des Relations Génétiques et Mécanistiques." Thesis, Limoges, 2018. http://www.theses.fr/2018LIMO0055.

Full text
Abstract:
Les neuropathies périphériques héréditaires (NP) sont caractérisées par des phénotypes très divers et une hétérogénéité génétique importante. La maladie de Charcot-Marie-Tooth (CMT) représente la majeure partie des neuropathies périphériques sensitivo-motrices. D’autres symptômes peuvent être associés, telle que la surdité. A l’heure actuelle, aucune estimation précise de la surdité n’existe dans cette population et la pathogénicité est incertaine. L’objectif de cette thèse était de mieux comprendre la physiopathologie de la surdité chez les patients atteints de neuropathies périphériques. Pour cela plusieurs approches complémentaires ont été mises en œuvre : 1) Approche clinique sur une cohorte française de patients atteints à la fois de neuropathie périphérique et de surdité et tests de génétique moléculaire avec séquençage NGS (Panels NP, surdités et/ou exomes) ; 2) Approche biochimique sur des prélèvements de nerfs cochléaires murins et humains ; 3) Approche bioinformatique afin d’identifier des réseaux de protéines impliquées dans l’apparition de surdité liée à une neuropathie périphérique. Grâce à ce travail, nous avons pu caractériser les phénotypes variés des patients atteints de NP génétique et surdité, et ainsi constater que la surdité peut être endo, rétro ou endo et rétrocochléaire. Trente-six gènes ont été rapportés comme associées à NP et surdité. Le génotype de nos patients NP+Surdité a pu être établi dans 60% des cas, avec la découverte de sept nouveaux variants pathogènes dans cinq gènes différents. Nos travaux suggèrent également que PMP22, le gène le plus retrouvé dans les CMT, n’est probablement pas ou peu impliqué dans l’apparition de la surdité des patients NP. Chez deux de nos patients présentant un variant pathogène de PMP22, un deuxième gène impliqué a été trouvé avec respectivement COCH et MYH14. Des corrélations génotypes-phénotypes ont pu être mises en évidence avec les gènes ABHD12, SH3TC2, NEFL et PRPS1. Deuxièmement, l’étude préliminaire immunohistochimique sur des nerfs auditifs de rats sauvages a permis de mettre en évidence l’expression de pmp22, mpz, nefl et trpv4 au niveau du nerf cochléaire et de pister une différence d’expression chez les rats CMTpmp22/+. L’étude chez l’humain n’a pas été concluante. Dernièrement, la recherche in silico de voies communes aux différents gènes décrits comme impliqués dans NP+surdité a permis de confirmer le lien direct entre PMP22 et MPZ. Des liens indirects entre plusieurs autres protéines ont été pistés. Cette thèse montre également que la surdité est très certainement sous-diagnostiquée dans cette population de NP génétique. Nous proposons donc un suivi audiométrique systématique des patients atteints de NP héréditaire, et une évaluation neurologique pour les enfants diagnostiqués pour surdité
Hereditary Peripheral Neuropathies (PN) are characterized by various phenotypes and great genetic heterogeneity. Charcot-Marie-Tooth disease (CMT) accounts for most sensori-motor peripheral neuropathies. Besides, other symptoms can be associated, such as deafness. No precise estimation of deafness within this population exist and its pathogenicity is uncertain. The aim of this PhD was to better understand the physiopathology of deafness in patients suffering from PN. Various complementary approaches were used; 1) a clinical approach on a French cohort of patients suffering from both PN and hearing loss and molecular genetic tests with NGS sequencing (PN, deafness panels, and/or exomes), 2) a biochemical approach on murine and human cochlear nerve samples and 3) a bioinformatic approach to identify protein hubs implicated in the onset of PN-associated deafness.This has enabled us to characterize the various phenotypes of patients suffering from both hereditary PN and deafness, and then notice that deafness can be endo-, retro- or endo- and retrocochlear. Thirty-six genes were reported to be associated with both PN and hearing impairment. Sixty percent of our patients were genotyped, highlighting seven novel pathogenic variants in five different genes. Our research also suggests that PMP22, the most frequent gene in CMT, is probably not or poorly implicated in deafness onset in PN patients. In two of our patients with PMP22 pathogenic variants, a second involved gene was found with COCH and MYH14 respectively. Genotype-phenotype correlations were found out with the ABHD12, SH3TC2, NEFL and PRPS1 genes. Secondly, the preliminary immunohistochemical study on wild-type rats auditory nerves highlighted the expression of pmp22, mpz, nefl and trpv4 on the cochlear nerve and tracked a different expression in CMTpmp22/+ rats. However, the study on humans was not conclusive. Recently, in silico research of pathways common to the different genes described to be involved in both PN and deafness, has found the direct link between PMP22 and MPZ. Indirect links between several other proteins have been tracked.This thesis also shows that hearing impairment is most probably under-diagnosed in this population of genetic PN sufferers. We suggest regular audiologic follow-up for PN patients and neurological assessment for deaf children
APA, Harvard, Vancouver, ISO, and other styles
21

Ric, Audrey Marie Amélie. "Caractérisation d'aptamères par électrophorèse capillaire couplée au séquençage haut-débit Illumina." Thesis, Toulouse 3, 2017. http://www.theses.fr/2017TOU30388/document.

Full text
Abstract:
Les aptamères sont des oligomères d'ADN ou d'ARN simple brin qui, en se repliant sous forme de structures tridimensionnelles peuvent avoir des interactions fortes et spécifiques envers un certain nombre de cibles. L'objectif de cette thèse a été de compléter les études existantes sur l'utilisation de l'électrophorèse capillaire (CE) et les aptamères afin de mettre au point une méthode de sélection d'aptamères par CE couplée à la fluorescence induite par laser et le séquençage haut-débit Illumina. Dans un premier temps, nous avons mis au point une méthode de détection et de séparation par électrophorèse capillaire couplée à la double détection UV-LEDIF d'une banque d'ADN en interaction avec une cible : la thrombine. C'est un modèle déjà étudié pour lequel deux aptamères ont fait l'objet de publications. Nous avons utilisé l'aptamère T29 dans le cadre de notre étude car c'est celui qui présente la meilleure affinité. L'électrophorèse capillaire est un puissant outil analytique qui facilite l'efficacité de sélection des aptamères et précise la détermination des paramètres d'interactions. Nous avons ainsi pu déterminer la constante d'affinité KD par CE-UV-LEDIF sur le modèle de base : la thrombine. Par ailleurs, nous montrons également comment l'utilisation du tampon Tris peut dégrader un ADN simple brin en électrophorèse capillaire et nous proposons comme alternative l'utilisation d'un tampon sodium phosphate dibasique qui évite ce phénomène de dégradation. Enfin, nous expliquons la difficulté d'amplification par qPCR et PCR d'un aptamère comme le T29 ayant une structure en G-quadruplex. Nous avons montré que le séquençage haut-débit Illumina nous a permis de trouver une corrélation entre le nombre de molécules séquencées et le nombre de séquences obtenues. L'analyse des séquences obtenues montre une quantité importante (20%) de séquences de T29 qui ne correspondent pas à la séquence de cet aptamère. Cela prouve que les étapes de PCR et de séquençage haut débit pour la détection de G-quadruplex peuvent induire un biais dans l'identification de ces molécules
Aptamers are oligomers of small single-stranded DNA or RNA which can have strong and specific interactions with some targets when they fold into three-dimensional structures. The objective of this thesis was to complete existing studies on the use of capillary electrophoresis in order to develop a method for the selection of aptamers by CE coupled to laser induced fluorescence and Illumina high-throughput sequencing. In a first step, we developed a method of detection and separation by capillary electrophoresis coupled with the double detection UV-LEDIF of a DNA library interacting with a target: thrombin. It is a model already studied and for which two aptamers have been published. We used aptamer T29 as part of our study because it has the best affinity. Capillary Electrophoresis is a powerful analytical tool that facilitates the selection efficiency of aptamers and specifies the determination of the interaction parameters. We thus were able to determine the affinity constant KD by CE-UV-LEDIF on the basic model: thrombin. Moreover, we also show how the use of Tris buffer can degrade single-stranded DNA during capillary electrophoresis and we propose as an alternative the use of a dibasic sodium phosphate buffer which avoids the phenomenon of degradation. Finally, we explain the difficulty of amplification by qPCR and PCR of an aptamer such as T29 with a G-quadruplex structure. We showed that the Illumina high-throughput sequencing allowed us to find a correlation between the number of sequenced molecules and the number of sequences obtained. Analysis of the sequences obtained shows a significant amount (20%) of T29 sequences which do not correspond to the sequence of this aptamer. This shows that the PCR and high-throughput sequencing steps for the detection of G-quadruplex can induce bias in the identification of these molecules
APA, Harvard, Vancouver, ISO, and other styles
22

Martinez, Palacios Paulina. "Réponse des agents non codants du génome – éléments transposables et petits ARN – à un événement d'allopolyploïdie : le génome du colza (Brassica napus) comme modèle d'étude." Thesis, Paris 11, 2014. http://www.theses.fr/2014PA112055/document.

Full text
Abstract:
Le succès évolutif de la polyploïdie, notamment de l’allopolyploïdie (où la duplication de génome complet est associée à une hybridation entre génomes différenciés) est en partie lié au fait que cet événement s’accompagne de nombreux changements dans l'organisation du génome et la régulation de l'expression des gènes. On parle du « choc génomique » de l’hybridation interspécifique et de l’allopolyploïdie. Ces sources de diversité génétique, à la fois structurale et fonctionnelle, apparaissent utiles et nécessaires à l'adaptation et l’évolution des espèces. Alors que de nombreuses études portant sur la compréhension des mécanismes moléculaires à l’origine du succès des allopolyploïdes ont concerné les modifications de l’expression des gènes, mes travaux de thèse ont porté sur les agents non codants du génome que sont les éléments transposables et les petits ARN non codants. Le modèle d'étude est le colza (Brassica napus, AACC), espèce allotétraploïde issue de l'hybridation entre les espèces diploïdes navette (B. rapa, AA) et chou (B. oleracea, CC). Nous disposions de colzas néo-synthétisés, étudiés à différentes générations d’autofécondation, permettant de caractériser les changements génomiques accompagnant la formation puis l’évolution du génome néo-allopolyploïde. Une étude a tout d’abord été menée sur un élément transposable (ET) spécifique du génome C, Bot1, en vue d’identifier de nouvelles transpositions survenant chez les colzas néo-synthétisés par rapport aux parents diploïdes, par une approche SSAP. Quelques rares événements de transposition ont été identifiés. Ces résultats, confrontés à ceux obtenus sur deux autres ET, ont permis de mettre en évidence un impact modéré de l’allopolyploïdie sur la transposition de ces différents ET. Par contre, il est apparu que des changements de méthylation auraient accompagné cette allopolyploïdisation, sans doute à l’origine de la réactivation et la transposition de quelques copies de Bot1. Les petits ARN non codants ont été suggérés comme impliqués dans les différents événements génomiques accompagnant la formation d’un génome allopolyploïde. Pour étudier la dynamique d’expression des petits ARN chez des colzas néo-synthétisés pris à deux générations d’autofécondation (S1, S5) en comparaison de leurs parents diploïdes, j’ai exploité des données de séquençage haut débit obtenues pour 11 banques construites à partir des tiges de ces différents génotypes. J’ai ainsi démontré, qu’à une échelle globale, les petits ARN présentaient une réponse immédiate mais transitoire à l’événement d’allopolyploïdie. Les fractions particulièrement affectées par l’allopolyploïdie se sont révélées correspondre (1) à des petits ARN interférents dérivés d’éléments transposables avec une baisse de leur abondance en génération précoce S1, et (2) à des populations de petits ARN de 21 nucléotides exprimées uniquement de manière très précoce, de l’hybride F1 à la génération S1. Nous avons notamment identifié des transcrits de type viral correspondant à ces petits ARN de 21-nt, et présentant les mêmes profils d’expression (de l’hybride F1 à la génération S1), suggérant une réactivation d’éléments viraux endogènes (EVE) en réponse à l’hybridation et l’allopolyploïdie. L’ensemble de mon étude a démontré la mise en place d’une succession des voies de régulation par petits ARN où ET et EVE, réactivés au niveau transcriptionnel, sont immédiatement soumis à une répression post-transcriptionnelle (PTGS), renforcée ensuite par une répression de leur transcription (TGS). L’hypothèse d’une absence de cette régulation par petits ARN lors des phénomènes de nécrose et létalité hybride, amène à envisager ces populations de petits ARN comme les clés de la réussite de la formation d’un génome hybride, où la répression immédiate et efficace des ET et autres endovirus, réactivés suite au choc génomique, se révèle être une nécessité
The evolutionary success of polyploid species is partly due to the dynamic changes in genome organization and gene expression patterns that occur at the onset of the polyploid formation. These changes are promoted by the merging of divergent genomes into a single nucleus (i.e. allopolyploidy) that causes a “genomic shock”; they are thought to provide a rich source of new genetic material upon which selection can act to promote adaptation and evolution. Many studies have thus aimed to uncover molecular mechanisms that are responsible for the evolutionary success of allopolyploid species, most of them focusing on gene expression changes. In the present PhD thesis, my interest has been concentrated on the non-coding components of the genome: transposable elements and small non-coding RNAs. My study involves oilseed rape (Brassica napus, AACC), a relatively young allopolyploid species that originated from hybridizations between B. rapa (AA) and B. oleracea (CC). Specifically, I have used resynthesized B. napus polyploids advanced by self-pollination of single plants for several generations; I have analyzed these plants at different generations for genomic changes accompanying polyploid formation and subsequent evolution. In a first part, sequence-specific amplification polymorphism (SSAP) targeting the C genome-specific transposable element Bot1, was used to evaluate transposition rate of Bot1 in resynthesized B. napus in comparison with the diploid parents. Only a few transposition events were identified. When combined with the results obtained for two other TEs, this work suggests that allopolyploidy has only a moderate impact on TE transposition and restructuring. The changes observed in SSAP profiles led us to hypothesize that some of them resulted from changes in DNA methylation, resulting in rare but highly specific TE activation and transposition. In a second part, I have concentrated on small non-coding RNAs (sRNAs), which are thought to mediate different aspects of the response to the “genomic shock” induced by allopolyploid formation. Comprehensive analyses of sRNA expression in resynthesized B. napus allopolyploids have been carried out by deep sequencing sRNAs from 11 libraries prepared from stems of three allotetraploids (surveyed at the two generations S1 and S5) and the two diploid parents. Characterization of sRNA distributions in these plants indicates that sRNAs show an immediate but transient response to allopolyploidy. The sRNAs derived from transposable elements (down-regulated in the S1) or targeting unknown sequences (no Blast hit against any available public database) were particularly affected. The use of B. napus mRNAseq data revealed that these latest unknown candidates, which are 21-nt long and over-expressed in the earliest generations (F1, S0, S1) were derived from endogenous viral elements (EVE). We confirmed that these EVEs showed the same expression patterns as the 21-nt long sRNAs that specifically target them (over-expression in the F1, S0 and S1). These results suggest that (at least) some EVEs might be reactivated as a response to the merging of divergent genomes (in interspecific hybrids and newly formed allopolyploids). Altogether, our results have demonstrated a succession of sRNA pathways that counteract the reactivation of some specific TEs and/or EVEs at the onset of polyploid formation; reactivated TEs and/or EVEs being immediately repressed at the post-transcriptional level (PTGS), and then fully repressed by transcriptional gene silencing (TGS) in the subsequent generations. Such data lead to hypothesize that sRNAs are essential to overcome interspecific hybrid incompatibilities due to the uncontrolled and deleterious reactivation of TEs / EVEs. Therefore, sRNAs should be considered as the guardians of genome integrity even in newly-formed allopolyploids
APA, Harvard, Vancouver, ISO, and other styles
23

Kopylova, Evguenia. "Algorithmes bio-informatiques pour l'analyse de données de séquençage à haut débit." Phd thesis, Université des Sciences et Technologie de Lille - Lille I, 2013. http://tel.archives-ouvertes.fr/tel-00919185.

Full text
Abstract:
Nucleotide sequence alignment is a method used to identify regions of similarity between organisms at the genomic level. In this thesis we focus on the alignment of millions of short sequences produced by Next-Generation Sequencing (NGS) technologies against a reference database. Particularly, we direct our attention toward the analysis of metagenomic and metatranscriptomic data, that is the DNA and RNA directly extracted for an environment. Two major challenges were confronted in our developed algorithms. First, all NGS technologies today are susceptible to sequencing errors in the form of nucleotide substitutions, insertions and deletions and error rates vary between 1-15%. Second, metagenomic samples can contain thousands of unknown organisms and the only means of identifying them is to align against known closely related species. To overcome these challenges we designed a new approximate matching technique based on the universal Levenshtein automaton which quickly locates short regions of similarity (seeds) between two sequences allowing 1 error of any type. Using seeds to detect possible high scoring alignments is a widely used heuristic for rapid sequence alignment, although most existing software are optimized for performing high similarity searches and apply exact seeds. Furthermore, we describe a new indexing data structure based on the Burst trie which optimizes the search for approximate seeds. We demonstrate the efficacy of our method in two implemented software, SortMeRNA and SortMeDNA. The former can quickly filter ribosomal RNA fragments from metatranscriptomic data and the latter performs full alignment for genomic and metagenomic data.
APA, Harvard, Vancouver, ISO, and other styles
24

Kopylova, Evguenia. "Algorithmes bio-informatiques pour l’analyse de données de séquençage à haut débit." Thesis, Lille 1, 2013. http://www.theses.fr/2013LIL10181/document.

Full text
Abstract:
Les algorithmes d'alignement sont au coeur de l'analyse de séquences en bio-informatique. Dans cette thèse, nous nous focalisons sur le problème de l'alignement de lectures, des millions de courtes séquences produites par les séquenceurs de nouvelle génération (NGS) en particulier pour l'analyse de données de métatranscriptome et de métagénome en biodiversité. Pour cela, il y a deux types de difficulté. Le premier est que toutes les technologies NGS entrainent des erreurs de séquençage, telles que substitutions, insertions et suppressions de nucléotides. Le second est que les échantillons métagénomique peuvent contenir des centaines d'organismes inconnus et que leur analyse demande de procéder à des alignements avec des d'espèces possiblement distantes. Pour résoudre ces problèmes, nous avons développé un nouvel algorithme d'alignement reposant sur des graines avec erreurs. Cela amène un gain en sensibilité par rapport aux logiciels existants optimisés pour le problème du reséquençage, avec des similarités élevées et qui se fondent sur des graines exactes. Nous proposons également une nouvelle méthode d'indexation basée sur le Burst trie qui permet d'optimiser la recherche avec les graines avec erreurs. Nous montrons l'efficacité de nos méthodes dans deux nouveaux outils, SortMeRNA pour l'identification d'ARN ribosomiques dans des données de métatranscriptome, et SortMeDNA pour l'alignement de lectures en génomique et métagénomique
Sequence alignment algorithms are at the heart of bioinformatic sequence analysis. In this thesis we focus on the alignment of millions of short sequences produced by Next-Generation Sequencing (NGS) technologies in particular for the analysis of metagenomic and metatranscriptomic data, that is the DNA and RNA directly extracted for an environment. Two major challenges were confronted in our developed algorithms. First, all NGS technologies today are susceptible to sequencing errors in the form of nucleotide substitutions, insertions and deletions. Second, metagenomic samples can contain hundreds of unknown organisms and the standard approach to identifying them is to align against known closely related species. To overcome these challenges we designed a new approximate matching technique based on the universal Levenshtein automaton which quickly locates short regions of similarity (seeds) between two sequences allowing 1 error of any type. Using seeds to detect possible high scoring alignments is a widely used heuristic for rapid sequence alignment, although most existing software are optimized for performing high similarity searches and apply exact seeds. Furthermore, we describe a new indexing data structure based on the Burst trie which optimizes the search for approximate seeds. We demonstrate the efficacy of our method in two implemented software, SortMeRNA and SortMeDNA. The former can quickly filter ribosomal RNA fragments from metatranscriptomic data and the latter performs full alignment for genomic and metagenomic data
APA, Harvard, Vancouver, ISO, and other styles
25

Latypova, Martin Xénia. "Etude fonctionnelle de variants identifiés par séquençage haut-débit : apports et perspectives." Thesis, Nantes, 2018. http://www.theses.fr/2018NANT1024.

Full text
Abstract:
Les avancées technologiques offrent des opportunités sans précédents à la détection de variations génétiques. L’interprétation de l’information génétique grâce à l’utilisation d’organismes modèles fournit des données essentiellesà l’interprétation de ces variants en génétique médicale. Les pathologies neurodéveloppementales, incluant la déficience intellectuelle et les troubles du spectre autistique, représentent un défi pour l’analyse de variants de séquence du fait de la forte hétérogénéité de locus, la contribution étiologique majeure des variations de novo et les difficultés d’accès aux types cellulaires d’intérêt pour les analyses fonctionnelles. Utilisant des phénotypes anatomiques de substitution, nous avons mis en place et validé deux modèles poisson zèbre de pathologies neurodéveloppementales pour les gènes RORA et SIN3B. La détermination de la direction d’effet de variants non synonymes grâce au modèle poisson zèbre mise en parallèle de données radiologiques et cliniques a permis de définir deux sous-types nosologiques pour le gène RORA, selon la présence ou l’absence de lésions cérébelleuses. De plus, nous avons apporté des informations en faveur de la causalité étiologique de variants de SIN3B chez des patients atteints de déficience intellectuelle associée à un autisme syndromique en montrant des anomalies de mise en place de la structure cranio-faciale suite à l’inactivation du gène orthologue chez le poisson zèbre. Confirmant la haute valeur ajoutée du poisson zèbre pour modéliser les variations génétiques chez des patients atteints de pathologies neurodéveloppementales, ce travail souligne la particulière informativité de cette stratégie en médecine génomique
Technological advances have opened unparalleled opportunities to detect genetic variation. Interpretation of these datausing in vivo disease modeling approaches provides helpful input to inform Medical Genetics clinical practice. Neurodevelopmental disorders, including intellectual disability and autism spectrum disorder, pose a major challengefor genomic data interpretation and disease modeling, given the extensive locus heterogeneity, high contribution of de novo variation to etiologic burden and low accessibility of cell types of interest. Using anatomical surrogate phenotypes in zebrafish, we established relevance to disease and tested pathogenicity of point mutations in novel neurodevelopmental disease causing genes RORA and SIN3B. First, we categorized the RORA-associated disorder in two clinical subtypes depending on the presence of cerebellar features present in addition to intellectual disability and autism spectrum disorder. Nonsynonymous variant testing in zebrafish indicated that there was a diverse direction of variant effect, which was consistent with the clinical subtypes observed. Additionally, we supported SIN3B involvement in a syndromic intellectual disability syndrome by demonstrating that disruption of craniofacial architecture, a comorbid feature, was caused by sin3b targeting in zebrafish. This work highlights the utility of the zebrafish model organism as an informative experimental tool for variant interpretation in genomic medicine, especially in neurodevelopmental disorders
APA, Harvard, Vancouver, ISO, and other styles
26

Vervier, Kevin. "Méthodes d’apprentissage structuré pour la microbiologie : spectrométrie de masse et séquençage haut-débit." Thesis, Paris, ENMP, 2015. http://www.theses.fr/2015ENMP0081/document.

Full text
Abstract:
L'utilisation des technologies haut débit est en train de changer aussi bien les pratiques que le paysage scientifique en microbiologie. D'une part la spectrométrie de masse a d'ores et déjà fait son entrée avec succès dans les laboratoires de microbiologie clinique. D'autre part, l'avancée spectaculaire des technologies de séquençage au cours des dix dernières années permet désormais à moindre coût et dans un temps raisonnable de caractériser la diversité microbienne au sein d'échantillons cliniques complexes. Aussi ces deux technologies sont pressenties comme les piliers de futures solutions de diagnostic. L'objectif de cette thèse est de développer des méthodes d'apprentissage statistique innovantes et versatiles pour exploiter les données fournies par ces technologies haut-débit dans le domaine du diagnostic in vitro en microbiologie. Le domaine de l'apprentissage statistique fait partie intégrante des problématiques mentionnées ci-dessus, au travers notamment des questions de classification d'un spectre de masse ou d'un “read” de séquençage haut-débit dans une taxonomie bactérienne.Sur le plan méthodologique, ces données nécessitent des développements spécifiques afin de tirer au mieux avantage de leur structuration inhérente: une structuration en “entrée” lorsque l'on réalise une prédiction à partir d'un “read” de séquençage caractérisé par sa composition en nucléotides, et un structuration en “sortie” lorsque l'on veut associer un spectre de masse ou d'un “read” de séquençage à une structure hiérarchique de taxonomie bactérienne
Using high-throughput technologies is changing scientific practices and landscape in microbiology. On one hand, mass spectrometry is already used in clinical microbiology laboratories. On the other hand, the last ten years dramatic progress in sequencing technologies allows cheap and fast characterization of microbial diversity in complex clinical samples. Consequently, the two technologies are approached in future diagnostics solutions. This thesis aims to play a part in new in vitro diagnostics (IVD) systems based on high-throughput technologies, like mass spectrometry or next generation sequencing, and their applications in microbiology.Because of the volume of data generated by these new technologies and the complexity of measured parameters, we develop innovative and versatile statistical learning methods for applications in IVD and microbiology. Statistical learning field is well-suited for tasks relying on high-dimensional raw data that can hardly be used by medical experts, like mass-spectrum classification or affecting a sequencing read to the right organism. Here, we propose to use additional known structures in order to improve quality of the answer. For instance, we convert a sequencing read (raw data) into a vector in a nucleotide composition space and use it as a structuredinput for machine learning approaches. We also add prior information related to the hierarchical structure that organizes the reachable micro-organisms (structured output)
APA, Harvard, Vancouver, ISO, and other styles
27

Haidar, Zahraa. "Identification de gènes responsables de maladies neurologiques héréditaires par séquençage à haut débit." Thesis, Aix-Marseille, 2019. http://www.theses.fr/2019AIXM0662.

Full text
Abstract:
Mes travaux de thèse, réalisés en cotutelle entre l’Université Saint-Joseph au Liban et l’Université d’Aix Marseille en France, ont consisté à identifier des gènes impliqués dans des maladies génétiques rares à transmission autosomique récessive, en particulier des maladies neurologiques, dans des familles consanguines libanaises. Les maladies neurologiques constituent un groupe de maladies caractérisées par un défaut de structure et de fonction des différentes régions du système nerveux central et périphérique. Ainsi, j’ai cherché à identifier le défaut moléculaire à l’origine des pathologies étudiées, par l’utilisation du séquençage à haut débit (NGS) (exome, génome). Dans un premier temps, j’ai effectué l’analyse bioinformatique des données issues de NGS, ainsi que la confirmation, par séquençage Sanger, et la ségrégation familiale des variants candidats identifiés. Dans certaines maladies, pour lesquelles une nouvelle mutation ou un nouveau gène ont pu être identifiés, j’ai réalisé des analyses fonctionnelles plus poussées afin de démontrer les mécanismes physiopathologiques enjeu
My work is a joint PhD between Saint Joseph University in Beirut (Lebanon) and Aix Marseille University in Marseille (France). My PhD project aims at identifying genes responsible for rare neurological diseases by next-generation sequencing (NGS) in consanguineous Lebanese families. Neurological diseases are characterized by extensive phenotypic and genetic heterogeneity, and affect the structure and function of different regions of the central and peripheral nervous system.During my PhD work, I have studied several of these families, trying to identify the molecular basis of the studied disease, using NGS technologies. First, I performed the bioinformatics analysis of the exome and genome data, as well as the segregation by Sanger sequencing, and the family segregation of the candidate variants identified by NGS. In some diseases, for which a new mutation or gene has been identified; I have carried out more functional studies, in order to understand the physiopathological mechanisms bases
APA, Harvard, Vancouver, ISO, and other styles
28

Mersch, Marjorie. "Analyse de la méthylation de l'ADN par séquençage haut-débit chez la Poule." Thesis, Toulouse, INPT, 2018. http://www.theses.fr/2018INPT0107/document.

Full text
Abstract:
Anticiper l’impact de fluctuations environnementales de nature climatique ou alimentaire est un enjeu crucial dans les systèmes de productions animales, et plus particulièrement sur la volaille. Cette influence de l’environnement sur les phénotypes passe en partie par des phénomènes épigénétiques, notamment la méthylation de l’ADN, et qui peuvent intervenir dans la régulation de l'expression des gènes. Ce sont des mécanismes qui n'affectent pas la séquence d'ADN mais qui peuvent être transmis par la mitose ou la méiose. Ces interactions entre épigénomes et expression des gènes sont de plus en plus étudiées dans les modèles animaux et chez les plantes. Cependant, les mécanismes de régulation de l'expression du génome par la méthylation de l’ADN sont assez peu connus chez les oiseaux. Ce travail de thèse repose sur deux dispositifs expérimentaux réalisés chez la poule, le but étant de caractériser le méthylome par séquençage haut-débit. Les profils de méthylation le long du génome, et le lien avec l’expression, sont établis d’abord par un séquençage tout-génome (WGBS) au sein d’embryons entiers, puis par un séquençage d'une sous-représentation du génome (RRBS) au sein d’hypothalamus d’individus adultes. À ce jour, aucune étude d'analyses de méthylome par RRBS chez la poule n'a été publiée. Ces deux analyses sont réalisées grâce au développement d'un pipeline bioinformatique, optimisé, disponible à la communauté scientifique. Globalement, le profil de méthylation chez la poule est similaire à ce qui est connu chez les mammifères : les îlots CpG - régions riches en dinucléotides CG, souvent peu méthylées, qui ponctuent le génome principalement dans les régions promotrices des gènes - sont globalement peu méthylés dans les promoteurs sur les données WGBS et RRBS. Les analyses du méthylome des embryons ont confirmé l'absence d'un phénomène de compensation de dose sur les chromosomes sexuels, ou la présence sur le chromosome Z d'une région hyperméthylée. Les analyses des données RRBS révèlent une hyperméthylation globale des CG sur le génome, suggérant une réponse de la méthylation à un stress environnemental. Sur les données WGBS, le niveau de méthylation dans le promoteur est négativement corrélé à l'expression du gène associé. Une méthylation allèle spécifique est également détectée entre les lignées, phénomène mis en évidence pour la première fois chez la poule et dont la fréquence est comparable à ce qui a été observé chez l'Homme. Sur les données RRBS, des résultats préliminaires de la réponse du méthylome aux stress environnementaux montrent le caractère complexe de cette relation. L’utilisation d’aliments moins énergétiques entraînerait une plus grande mobilisation des réserves lipidiques, tandis que les individus soumis à un stress à la chaleur ont un poids corporel plus léger. Une intégration de ces données à des mesures phénotypiques permettrait de faire le lien entre méthylation et environnement. Au-delà de l'aspect fondamental de cette thèse, l'application plus concrète de ces connaissances peut s'appliquer aux systèmes d'élevage pour obtenir des animaux mieux adaptés à l’environnement, en améliorant les caractères de production
Anticipating the impact of environmental changes (on climate and feed) is a crucial issue for livestock production systems, including poultry. The influence of the environment on phenotypes is partly mediated by epigenetic phenomena, including DNA methylation, which may be involved in the regulation of gene expression. These mechanisms do not affect the DNA sequence but can be inherited by mitosis or meiosis. The interactions between epigenomes and gene expression are increasingly being studied in animal models and in plants. However, the mechanisms of regulation of genome expression through DNA methylation are relatively unknown in birds. This thesis work is based on two experimental devices realized in chicken aiming to characterize the methylome by high-throughput sequencing. The methylation patterns across the genome, and their link with expression, were first established by whole-genome bisulfite sequencing (WGBS) in whole embryos, following a reduced representation bisulfite sequencing (RRBS) from hypothalamus of adults. To date, no specific chicken RRBS study has been published. These two analyses were carried out by developing an optimized bioinformatics pipeline, available for scientific community. Overall, the pattern of methylation in chicken is like those in mammals: CpG islands - dinucleotides CG-rich regions which are often poorly methylated, and which are found mainly in the promoter regions of the genome - are generally poorly methylated in promoters on WGBS and RRBS data. Embryo methylome analyses confirmed the absence of a dose-compensation phenomenon on sex chromosomes, or the presence of a hypermethylated region on the Z chromosome. The analyses of RRBS data revealed an overall hypermethylation of CGs across the genome, suggesting a methylation response to environmental stress. From the analysis of WGBS data, we found that the level of methylation in promoters was negatively correlated with the expression of the associated gene. For the first time, a specific allele methylation was also detected between chicken lines whose frequency is comparable to that observed in humans. On the RRBS data, preliminary results of the methylome response to environmental stresses showed the complex nature of this relationship. The use of a low-energy diet would led to greater mobilization of body fat, while individuals with heat stress had a lighter body weight. Integrating these data with phenotypic measurements would allow to link methylation and environment. Beyond the fundamental aspect of this thesis, the method developed in this work could be applied to livestock systems to breed animals better adapted to a changing environment, by improving production traits
APA, Harvard, Vancouver, ISO, and other styles
29

Fermey, Pierre. "Identification de nouvelles bases moléculaires des cancers précoces par séquençage à haut débit." Thesis, Normandie, 2017. http://www.theses.fr/2017NORMR110/document.

Full text
Abstract:
Une des plus grandes avancées en cancérologie et en génétique au cours des vingt dernières années fût l'identification des formes héréditaires de cancer et des gènes deprédisposition impliqués. Chez une majorité de patients soupçonnés de présenter une formehéréditaire de cancer, les analyses centrées sur les gènes connus pour être impliqués dansles prédispositions mendéliennes au cancer restent bien souvent négatives. Aujourd'hui,grâce à l'émergence du séquençage à haut-débit (NGS), il est possible de séquencerl'ensemble des exons (exome) d'un individu ou plusieurs centaines de gènes dans un lapsde temps court et à des coûts raisonnables. Dans ce contexte, nous avons appliqué plusieurs stratégies basées sur ces nouveaux outils, avec l'objectif d'identifier de nouvellesbases moléculaires des cancers héréditaires à survenue précoce. Tout d’abord, nous avons employé une stratégie d'analyse exomique intrafamiliale dans une famille atypique présentant des chondrosarcomes de localisation thoracique pour lesquels aucune base moléculaire n'avait pu être mise en évidence. Grâce à cette stratégie, nous avons pu identifier une altération tronquante du gène EXT2 (NM_000401.3; c.237G>A; p.Trp79*). Les altérations perte de fonction documentées pour ce gène sont impliquées dans la maladie des ostéochondromes multiples (OM), des tumeurs bénignes. Or, dans cette famille, aucun signe clinique d'OM n'était présent. Ces travaux nous ont donc permis d'étendre le spectre phénotypique des mutations EXT2 et de modifier la prise en charge clinique de cette famille. Nous avons ensuite employé une stratégie d'analyse exomique soustractive de trio enfant malade / parents sains dans le but d’identifier des mutations de novo potentiellement responsables de la prédisposition génétique au cancer observée chez un jeune patient ayant développé un médulloblastome du cervelet à l’âge de 8 ans, suivi d’un méningiome à 22 ans. L’analyse exomique du trio a révélé l’existence chez ce patient d'une mutation de novo faux-sens affectant un acide aminé très conservé de la protéine HID-1. Cette dernière est particulièrement exprimée dans les cellules neuronales et sécrétrices, et semble fonctionner autour de l’appareil de Golgi pour réguler le tri des vésiculesnouvellement formées. Ainsi, notre hypothèse est qu’un défaut de la protéine HID-1, lié à une mutation du gène HID-1, perturberait la voie de sécrétion et participerait à la genèse du médulloblastome. Ces travaux, toujours en cours, démontrent à la fois la force de la stratégie exomique de trio pour identifier rapidement des mutations de novo et illustre toute la difficultéd'interprétation des variants détectés dans des gènes non impliqués dans le cancer. Par ailleurs, nous avons appliqué une stratégie exomique soustractive et interfamiliale à une cohorte de dix patients ayant développé un corticosurrénalome à un âge très précoce et pour lesquels aucune base moléculaire n'a pu être mise en évidence. Malheureusement, nous n'avons pas pu identifier de nouvelles bases moléculaires du corticosurrénalome de l'enfant par ces techniques. Enfin, sous l'hypothèse que des mutations rares ou privées dans un nombre limité de gènes impliqués dans le cancer contribueraient à des formes héréditaires de cancer, nous avons entrepris un projet visant à séquencer à haut débit 201 gènes fortement impliqués dans le cancer chez des patients ayant développé des tumeurs à un âge pédiatrique. Les premiers résultats de ce projet toujours en cours ont permis de confirmer la robustesse de cette technique et suggèrent une extension phénotypique du spectre des mutations DICER1 ainsi qu'une contribution oligogénique des gènes de réparation de l'ADN dans les tumeurs pédiatriques. L'ensemble de ces résultats seront bientôt compilés au sein d'une base de données et bénéficieront d'une analyse statistique fine avec l'objectif d'identifier des enrichissements en variants rares dans des gènes ou voies biologiques
One of the greatest advances in oncology and genetics over the past 20 years has been the identification of hereditary forms of cancer and of the cancer genes. Nevertheless, in a majority of patients suspected to present an inherited form of cancer, analyses of the genes known to be involved in the Mendelian predispositions to cancer often remain negative. Today, thanks to the emergence of high-throughput sequencing (NGS), it is now possible to sequence all exons of an individual (exome) or several hundred genes in a short period of time and for a reasonable cost. In this context, we have applied several strategiesbased on these new tools in order to identify new molecular basis of early-onset cancers. First, we applied an intra-familial exome analysis strategy to an atypical family with chondrosarcomas of the chest, for which no molecular basis could be identified. Using this strategy, we were able to identify a truncating alteration of the EXT2 gene NM_000401.3; c.237G> A; p.Trp79 *). The documented loss of function alterations of this gene are implicated in a disease called multiple osteochondromas (OM), associated with benign lesions. Interestingly, these patients showed no clinical signs of OM indicating a potential phenotypic extension of EXT2 mutations. Plus, this work allowed us to change the clinical management of this family. We then used a strategy of subtractive exomic analysis of trio sick child/healthy parents in order to identify de novo mutations in a young patient who developed a medulloblastoma of the cerebellum at 8 years-old followed by a meningioma at 22 years-old. The analysis of the trio revealed the existence of a de novo mutation affecting a highly conserved amino acid of the HID-1 protein. HID-1 is specifically expressed in neuronal and secretory cells, and seems to function around the Golgi apparatus to regulate the sorting of newly formed vesicles. Our hypothesis is that a defect of the HID-1 protein linked to a mutation of the HID-1 gene, could alter the secretory pathway therefore contributing to the development of the tumor. This work, which is still ongoing, demonstrates both the strength of the trio strategy for the rapid identification of de novo mutations and illustrates all the difficulty of interpreting variants detected in genes not yet involved in cancer. Then, thanks to the recruitment of the Laboratory of Molecular Genetics of the CHU of Rouen, we have collected a cohort of 10 patients who developed an adrenocortical carcinoma (ACC) at a very early age and for which no molecular basis could be identified. Despite subtractive and inter-familial exomic analyses, we were unable to highlight new molecular bases for these cases of pediatric ACC. Finally, under the assumption that rare or private mutations in a limited number of genes involved in cancer could contribute to inherited forms of cancer, we undertook a project to sequence 201 genes involved in cancer in patients who developed tumors at a pediatric age. The first results of this project confirmed the robustness of this technique and suggested a phenotypic extension of the DICER1 mutation spectrum as well as an oligogenic contribution of DNA repair genes in pediatric tumors. Soon, these results will be compiled in a database and will benefit from a statistical analysis with the objective to identify enrichment of rare variants in specific genes or biological pathways in these patients compared to control individuals
APA, Harvard, Vancouver, ISO, and other styles
30

Nguyen, Quang Nam. "Utilisation du séquençage à haut débit pour la sélection et l'ingénierie des aptamères." Thesis, Université Paris-Saclay (ComUE), 2017. http://www.theses.fr/2017SACLS238.

Full text
Abstract:
Le SELEX est une technique d’évolution moléculaire dirigée qui permet, après plusieurs tours de sélection, d’enrichir une banque d’acides nucléiques en séquences capable de se lier de manière spécifique à une cible. Le séquençage est utilisé pour identifier ces séquences que l’on nomme « aptamères ». Depuis l’arrivée récente du séquençage à haut débit (HD), il est possible d’analyser des millions de séquences. L’objectif de la thèse était de développer des méthodes pour traiter et analyser les données de séquençage HD afin de faciliter l’identification des meilleurs aptamères d’un SELEX. Au cours de cette thèse, un test robotisé de liaison sur cellules adhérentes vivantes a été mis au point pour mesurer l’affinité d’aptamères issus de SELEX ciblant des cellules (cell-SELEX). Puis, l’évolution de l’abondance des séquences d’un cell-SELEX a été analysée par séquençage HD. Ceci nous a permis de concevoir une nouvelle approche phylogénétique baptisée FREDROGRAM. Cette approche évolutive a permis d’identifier des mutants avec une meilleure affinité au sein d’une famille d’aptamères issu de ce cell-SELEX. Enfin, le séquençage HD de deux SELEX dirigés contre des protéines a contribué à mieux comprendre l’impact des paramètres de sélection sur la population de séquences et à identifier de nouveaux aptamères, notamment en réduisant le nombre de tours de SELEX. En conclusion, ces travaux montrent l’utilité du séquençage HD pour l’identification des meilleurs aptamères et suggèrent de nouvelles pratiques pour la conduite des SELEX futurs
SELEX is a directed molecular evolution technic which allows, after several rounds of selection, enriching a library from random nucleic acids to sequences able to bind specifically a target. Sequencing technics are then used to identify these sequences called « aptamers ». Since the arrival of High-Throughput Sequencing (HTS), it is now possible to analyse millions of sequences. The aim of the thesis was to develop methods for the treatment and the analysis of HTS data, in order to facilitate the identification of the best aptamers inside a SELEX. During this thesis, a semi-automatic binding test on adherent living cells has been developed to measure the affinity of aptamers identified in SELEX directed against specific cells (cell-SELEX). Then, the evolution of the sequence enrichment during a cell-SELEX has been analysed by HTS. This analysis gave us the possibility to design a new phylogenetic approch named FREDROGRAM. This evolutive approch allowed to identify variants of an aptamer’s family with a better affinity. Finally, HTS of two SELEX directed against proteins has contributed to a better understanding of the impact of selection parameters on the library and to identified new aptamers, notably by reducing the number of SELEX rounds. To conclude, this work shows the importance of HTS in the identification of the best aptamers and suggests new protocols to monitor the next SELEX in a different manner
APA, Harvard, Vancouver, ISO, and other styles
31

Mambu, Mambueni Hendrick. "Identification de nouveaux variants rares associés à la spondyloarthrite par séquençage haut-débit." Electronic Thesis or Diss., université Paris-Saclay, 2022. http://www.theses.fr/2022UPASL064.

Full text
Abstract:
La spondyloarthrite (SpA) est une maladie multifactorielle avec une héritabilité estimée à plus de 90%, principalement en lien avec le HLA-B27. L'ensemble des facteurs de susceptibilité identifiés, incluant HLA-B27, expliquent moins du tiers de l'héritabilité. L'implication de variants rares pourrait expliquer une partie de cette héritabilité manquante. L'objectif de ce travail était d'identifier des variants rares associés à la SpA via une approche combinant analyses familiales et séquençage haut-débit. D'abord, nous avons séquencé une région de 1,4 Mb significativement liée à la SpA en 13q13 chez 71 patients et 21 témoins sains appartenant à des familles avec un score de liaison élevée dans cette région. Nous avons identifié un variant rare dans le gène FREM2 présent chez 9 malades d'une famille fortement liée à la région et non retrouvé dans d'autres familles ou cas isolés de SpA. Nous avons ensuite séquencé l'exome de 48 malades venant de 20 familles multiplex. Malheureusement, nous n'avons pas observé de variants récurrents entre les familles. Puis, nous nous sommes concentrés sur un deuxième pic de liaison génétique, déjà connu, sur le chromosome 9. L'étude de la famille la plus liée à cette région, qui comprend 12 patients, a conduit à l'identification de plusieurs variants rares codants ségrégeant avec la maladie. Cependant les études ultérieures ont montré des fréquences alléliques de ces variants équivalentes entres les cas et les témoins. Enfin, le séquençage du génome entier de 413 patients issus de 76 familles multiplex avec 4 malades ou plus a été réalisé. Nous avons identifié 1203 variants rares, codants et non synonymes et partagés par au moins tous les membres atteints d'une famille. Les analyses de validation génétique et fonctionnelle de ces variants sont en cours, tout comme l'analyse des variants non-codants. En conclusion, ces différentes approches suggèrent une importante hétérogénéité génétique de la SpA et soulignent également la difficulté de confirmer l'implication de variants rares dans les maladies complexes
Spondyloarthritis (SpA) is a multifactorial disease with an estimated heritability of over 90%, mainly related to HLA-B27. All identified susceptibility factors, including HLA-B27, explain less than one third of the heritability. The involvement of rare variants could explain part of this missing heritability. The aim of this work was to identify rare variants associated with SpA via a combined family analysis and high-throughput sequencing approach. First, we sequenced a 1.4 Mb region significantly linked to SpA at 13q13 in 71 patients and 21 healthy controls from families with a high linkage score in this region. We identified a rare variant in the FREM2 gene present in 9 patients from a family with high linkage to the region and not found in other families or isolated cases of SpA. We then sequenced the exome of 48 patients from 20 multiplex families. Unfortunately, we did not observe any recurrent variants between families. We then focused on a second, previously known genetic linkage peak on chromosome 9. The study of the family most linked to this region, which includes 12 patients, led to the identification of several rare coding variants segregating with the disease. However, subsequent studies have shown equivalent allelic frequencies of these variants between cases and controls. Finally, whole genome sequencing of 413 patients from 76 multiplex families with 4 or more patients was performed. We identified 1203 rare, coding, non-synonymous variants shared by at least all affected family members. Genetic and functional validation analyses of these variants are underway, as is the analysis of non-coding variants. In conclusion, these different approaches suggest significant genetic heterogeneity in SpA and also highlight the difficulty of confirming the involvement of rare variants in complex diseases
APA, Harvard, Vancouver, ISO, and other styles
32

Gicquel, Evelyne. "Etude par approches globales de la sélectivité d’atteinte dans les dystrophies des ceintures." Thesis, Université Paris-Saclay (ComUE), 2016. http://www.theses.fr/2016SACLE041.

Full text
Abstract:
Les Dystrophies des Ceintures sont des maladies génétiques affectant les différents muscles du corps à des degrés de sévérité variables. Les facteurs à l’origine de ces différences d’atteinte musculaire ne sont pas identifiés.Les travaux de cette thèse visent à identifier des différences moléculaires existant dans des conditions normales entre des muscles présentant une différence d’atteinte dans des conditions de déficience génétique associée à un phénotype de Dystrophie des Ceintures. Nous basant sur l’hypothèse que les différences d’atteinte entre muscles seraient causées par des mécanismes de modification de l’expression de gènes protecteurs du muscle ou le sensibilisant à la dystrophie, nous avons exploré ces mécanismes par une approche globale en comparant la signature de différents muscles. Des analyses par séquençage haut-débit chez le Primate ont permis de mettre en évidence plusieurs gènes et éléments régulateurs dont l’expression est différente entre les muscles sensibles et les muscles résistants à la pathologie. Certaines de ces différences sont conservées dans le modèle murin. Nous avons ensuite exploré par quels mécanismes les éléments régulateurs identifiés pourraient intervenir dans la sélectivité d’atteinte. Les résultats de cette thèse permettent d’approfondir la compréhension des mécanismes physiopathologiques des Dystrophies des Ceintures. Ils pourront également servir de base à la mise en place de nouveaux traitements pour ce groupe de maladies
Limb Girdle Muscular Dystrophies are a group of genetic diseases affecting the muscles of the body with different degrees of severity. The factors behind these differences of impairment have not been identified.The objective of this thesis work is to identify the molecular differences existing in normal condition between muscles known to show a difference of impairment in case of genetic deficiencies asssociated with Limb Girdle Muscular Dystrophy. We based our work on the assumption that the differences of impairment between muscles would be caused by mechanisms leading to modifications of the expression of protective or sensitizer genes in the muscle. Therefore, we explored these mechanisms through a global approach. Analyses by high-throughput sequencing in Primate muscles allowed the identification of several genes and regulatory elements whose expression differs between the sensitive and the resistant muscles. These genes interact in a common network of interactions, which could be targeted for therapeutic purpose. Some of these differences were shown to be conserved in the mouse. We then explored the mechanisms by which the identified regulatory elements may be involved in selectivity of impairment. The results of this thesis provide a deeper understanding of the pathophysiological mechanisms of Limb Girdle Muscular Dystrophies. They will also pave the way for the development of new treatments for this group of diseases
APA, Harvard, Vancouver, ISO, and other styles
33

Liais, Etienne. "Identification et caractérisation de virus aviaires par des approches de séquençage à haut débit." Thesis, Toulouse, INPT, 2014. http://www.theses.fr/2014INPT0134/document.

Full text
Abstract:
En médecine humaine et vétérinaire, les agents pathogènes représentent la cause de mortalité principale à travers la planète. Les méthodes de diagnostic de ces pathogènes ont considérablement changé et évolué particulièrement depuis l’apparition du séquençage haut débit. Les nouvelles méthodes de séquençage massif ont considérablement diminué le prix d’une séquence permettant de rendre accessible cette technologie révolutionnaire. Dans le cadre de mes travaux de thèse, nous avons mis en place un protocole pour l’utilisation du séquençage Illumina® (avec le séquenceur MiSeq) comme méthode de diagnostic lors de différents cas pathologiques aviaires. L’utilisation de cette méthode nous a permis dans un premier temps d’identifier l’agent étiologique de la maladie foudroyante de la pintade. Cette étude nous a permis de valider l’utilisation de ce genre de méthode pour des cas ciblés, ici lors d’un épisode clinique particulier n’impliquant vraisemblablement qu’un seul candidat pathogène. Ce nouveau coronavirus a fait l’objet d’études complémentaires afin de le caractériser. Nous avons élargis les cibles recherchées en analysant dans un deuxième temps l’ensemble des virus ARN chez le canard lors d’épisodes cliniques respiratoires et/ou de chute de ponte. L’analyse des données a mis en évidence une importante diversité virale et a permis d’identifier des candidats responsables potentiels. L’ensemble des résultats obtenus nous permet de valider l’utilisation du séquençage à haut débit comme un outil puissant de diagnostic
Infectious diseases are considered the most prevalent cause of mortality in humans as well as other animals worldwide. Since the advent of high throughput sequencing technologies, diagnostic methods for these conditions have quickly changed and evolved, as the continuously decreasing cost of mass sequencing is making this tool available to larger numbers of people. As part of my thesis project, an Illumina®-based sequencing method (on a MiSeq machine) was designed for diagnostic purposes in clinical cases in poultry. We first used this method to identify the causative agent of the fulminating disease of guinea fowl. This validated the use of our protocol to identify the pathogenic infectious agent behind a specific condition. This newly identified Coronavirus was further analysed and characterised. In a second study we used an unbiased mass sequencing approach to describe the RNA virus populations present in the duck respiratory tract during clinical episodes (respiratory illness or egg drops). Data showed an important viral diversity and we identified some candidate pathogens. Taken together, these results validate the use of high throughput sequencing as a powerful diagnostic tool
APA, Harvard, Vancouver, ISO, and other styles
34

Mirauta, Bogdan. "Etude du transcriptome à partir de données de comptages issues de séquençage haut débit." Thesis, Paris 6, 2014. http://www.theses.fr/2014PA066424/document.

Full text
Abstract:
Les technologies de séquençage jouent un rôle croissant dans l'analyse de l'expression des transcrits . La méthode la plus courante de séquençage du transcriptome, RNA-Seq est une méthode d'investigation d'une population de transcrits par cisaillement aléatoire, amplification et séquençage à haut débit. Les données issues du RNA-Seq peuvent être utilisées pour la quantification des niveaux d'expression des transcrits et pour la détection des régions transcrites et demandent des approches bioinformatiques.Nous avons développé des approches statistiques pour l'estimation des niveaux de transcription et l'identification des frontières de transcription sans faire usage de l'annotation existante et pour l'analyse des différences dans l'expression entre deux conditions. La reconstruction du paysage transcriptionel est faite dans un cadre probabiliste (Chaînes de Markov Caché - HMM) ou les variations du niveau de la transcription sont prises en compte en termes de changements brusques et de dérives. Le HMM est complété par une loi d'émission qui capture la variance des comptages dans un transcrit, l'auto-corrélation de courte portée et la fraction des positions avec zéro comptages. L'estimation repose sur un algorithme de Monte Carlo Séquentiel (SMC), le Particle Gibbs, dont le temps d'exécution est plus adapté aux génomes microbiennes. L'analyse des différences dans l'expression (DE) est réalisée sans faire usage de l'annotation existante. L'estimation de DE est premièrement faite à la résolution de position et en suite les régions avec un signal DE continu sont agrégés. Deux programmes nommés Parseq et Pardiff sont disponibles à http://www.lgm.upmc.fr/parseq/
In this thesis we address the problem of reconstructing the transcription profile from RNA-Seq reads in cases where the reference genome is available but without making use of existing annotation. In the first two chapters consist of an introduction to the biological context, high-throughput sequencing and the statistical methods that can be used in the analysis of series of counts. Then we present our contribution for the RNA-Seq read count model, the inference transcription profile by using Particle Gibbs and the reconstruction of DE regions. The analysis of several data-sets proved that using Negative Binomial distributions to model the read count emission is not generally valid. We develop a mechanistic model which accounts for the randomness generated within all RNA-Seq protocol steps. Such a model is particularly important for the assessment of the credibility intervals associated with the transcription level and coverage changes. Next, we describe a State Space Model accounting for the read count profile for observations and transcription profile for the latent variable. For the transition kernel we design a mixture model combining the possibility of making, between two adjacent positions, no move, a drift move or a shift move. We detail our approach for the reconstruction of the transcription profile and the estimation of parameters using the Particle Gibbs algorithm. In the fifth chapter we complete the results by presenting an approach for analysing differences in expression without making use of existing annotation. The proposed method first approximates these differences for each base-pair and then aggregates continuous DE regions
APA, Harvard, Vancouver, ISO, and other styles
35

Mirauta, Bogdan. "Etude du transcriptome à partir de données de comptages issues de séquençage haut débit." Electronic Thesis or Diss., Paris 6, 2014. http://www.theses.fr/2014PA066424.

Full text
Abstract:
Les technologies de séquençage jouent un rôle croissant dans l'analyse de l'expression des transcrits . La méthode la plus courante de séquençage du transcriptome, RNA-Seq est une méthode d'investigation d'une population de transcrits par cisaillement aléatoire, amplification et séquençage à haut débit. Les données issues du RNA-Seq peuvent être utilisées pour la quantification des niveaux d'expression des transcrits et pour la détection des régions transcrites et demandent des approches bioinformatiques.Nous avons développé des approches statistiques pour l'estimation des niveaux de transcription et l'identification des frontières de transcription sans faire usage de l'annotation existante et pour l'analyse des différences dans l'expression entre deux conditions. La reconstruction du paysage transcriptionel est faite dans un cadre probabiliste (Chaînes de Markov Caché - HMM) ou les variations du niveau de la transcription sont prises en compte en termes de changements brusques et de dérives. Le HMM est complété par une loi d'émission qui capture la variance des comptages dans un transcrit, l'auto-corrélation de courte portée et la fraction des positions avec zéro comptages. L'estimation repose sur un algorithme de Monte Carlo Séquentiel (SMC), le Particle Gibbs, dont le temps d'exécution est plus adapté aux génomes microbiennes. L'analyse des différences dans l'expression (DE) est réalisée sans faire usage de l'annotation existante. L'estimation de DE est premièrement faite à la résolution de position et en suite les régions avec un signal DE continu sont agrégés. Deux programmes nommés Parseq et Pardiff sont disponibles à http://www.lgm.upmc.fr/parseq/
In this thesis we address the problem of reconstructing the transcription profile from RNA-Seq reads in cases where the reference genome is available but without making use of existing annotation. In the first two chapters consist of an introduction to the biological context, high-throughput sequencing and the statistical methods that can be used in the analysis of series of counts. Then we present our contribution for the RNA-Seq read count model, the inference transcription profile by using Particle Gibbs and the reconstruction of DE regions. The analysis of several data-sets proved that using Negative Binomial distributions to model the read count emission is not generally valid. We develop a mechanistic model which accounts for the randomness generated within all RNA-Seq protocol steps. Such a model is particularly important for the assessment of the credibility intervals associated with the transcription level and coverage changes. Next, we describe a State Space Model accounting for the read count profile for observations and transcription profile for the latent variable. For the transition kernel we design a mixture model combining the possibility of making, between two adjacent positions, no move, a drift move or a shift move. We detail our approach for the reconstruction of the transcription profile and the estimation of parameters using the Particle Gibbs algorithm. In the fifth chapter we complete the results by presenting an approach for analysing differences in expression without making use of existing annotation. The proposed method first approximates these differences for each base-pair and then aggregates continuous DE regions
APA, Harvard, Vancouver, ISO, and other styles
36

Da, Silva Ophélie. "Structure de l'écosystème planctonique : apport des données à haut débit de séquençage et d'imagerie." Electronic Thesis or Diss., Sorbonne université, 2021. http://www.theses.fr/2021SORUS183.

Full text
Abstract:
Les organismes planctoniques, acteurs clés des écosystèmes, soutiennent les réseaux trophiques et ont un rôle majeur dans les cycles biogéochimiques et la régulation du climat. Tandis que la répartition spatio-temporelle de la diversité planctonique peut être étudiée à plusieurs niveaux, du gène jusqu’à l’écosystème, comprendre les mécanismes qui sous-tendent cette organisation est un défi. En effet, la structure de la diversité résulte de différents processus évolutifs et écologiques qui peuvent agir simultanément sur le vivant. Depuis le début du XXIème siècle, le milieu océanique fait l'objet d’une surveillance croissante. De nombreuses plateformes d’observation ont été déployées permettant l’acquisition de très nombreuses données couvrant de multiples caractéristiques environnementales. En parallèle, les technologies d’étude du vivant se sont développées, conduisant à un échantillonnage sans précédent des organismes planctoniques. En particulier, les données à haut débit de séquençage et d’imagerie permettent de fournir des informations moléculaires, taxonomiques et fonctionnelles à l’échelle des communautés. L’objectif de cette thèse était d’explorer la structure des écosystèmes planctoniques à l’aide des données à haut débit de séquençage et d’imagerie. Le couplage avec les données environnementales pourrait contribuer à une meilleure compréhension de la répartition spatiale de la diversité planctonique, des espèces jusqu’au communautés. Dans une première partie, la diversité génétique de protistes a été étudiée à l’échelle de l’espèce. L’hypothèse était que les données métagénomiques pourraient permettre d’accéder à l’organisation de cette diversité mal caractérisée pour les protistes, ainsi qu’aux mécanismes qui la sous-tendent. Dans une deuxième partie, le lien entre diversité génétique et diversité fonctionnelle a été exploré. La transparence a été ciblée. Ce trait fonctionnel est peu exploré à l’échelle des communautés et les bases moléculaires sont mal identifiées. Une approche permettant de faire émerger ce trait des données d’imagerie a été utilisée, ayant conduit à l’exploration de sa biogéographie et ses bases moléculaires. Dans la dernière partie, le haut potentiel de complémentarité entre jeux de données de séquençage, d’imagerie et environnementaux a été exploré, afin de mettre en lumière la structure multi-échelle de l’écosystème planctonique et d’identifier sa structure globale. Enfin, l’ensemble des résultats a été discuté pour mettre en évidence les apports que peuvent fournir ces données à la compréhension des écosystèmes planctoniques, ainsi que les limites auxquelles elles peuvent faire face
Planktonic organisms are key actors in oceanic ecosystems, which support trophic networks and play a major role in biogeochemical cycles and climate regulation. While the spatio-temporal distribution of planktonic diversity can be investigated at several levels, from the gene to the ecosystem, identifying the underlying mechanisms is challenging. Indeed, the structure of diversity results from different evolutionary and ecological processes that can act simultaneously. Since the beginning of the 21st century, the oceanic environment has been increasingly monitored. Numerous observation platforms have been deployed, leading to the acquisition of a large amount of data for multiple environmental characteristics. At the same time, technologies for studying living organisms have been developed. Thus, an unprecedented sampling of planktonic organisms has taken place. In particular, high-throughput sequencing and imaging data provide molecular, taxonomic and functional information at several biological levels. The objective of this thesis was to explore the structure of planktonic ecosystems using high-throughput sequencing and imaging data. Coupling with environmental data could contribute to a better understanding of the spatial distribution of planktonic diversity, from species to communities. In the first part, the genetic diversity of protists was studied at the species level. The hypothesis was that metagenomics could provide access to the poorly characterized spatial organization of the intraspecific protist genetic diversity, as well as to the mechanisms underlying it. In a second part, the link between genetic diversity and functional diversity was explored. Transparency was targeted. This functional trait is little explored at the community level and its molecular basis is poorly identified. A data-driven approach allowed this trait to emerge from imaging data, leading to the exploration of its biogeography and molecular basis. In the last part, the high potential of complementarity between sequencing, imaging and environmental datasets was explored, in order to highlight the multi-scale structure of the planktonic ecosystem and to identify its global structure. Finally, all the results were discussed to highlight the contributions that these data can provide to the understanding of planktonic ecosystems, as well as the limitations they can face
APA, Harvard, Vancouver, ISO, and other styles
37

Chaaya, Nancy. "Anticorps catalytiques et répertoires immuns murins : analyse génétique, biochimique et bio-informatique." Thesis, Compiègne, 2019. http://www.theses.fr/2019COMP2495.

Full text
Abstract:
A la fin des années 80, des anticorps catalytiques ont été découverts dans le sérum de patients, en particulier de patients atteints de maladies auto-immunes. Certains anticorps catalytiques ont un effet bénéfique sur la santé, tandis que d'autres sont délétères. Afin de comprendre le lien existant entre anticorps catalytiques et pathologies auto-immunes, des travaux antérieurs ont mené à la synthèse de quatre banques de fragments d’anticorps (scFv) exposés en surface de phages, représentant différents fonds génétiques et états immunologiques. Les scFv, constitues des régions variables des chaines lourdes (H) et légères (L) des anticorps, sont codes par différents segments de gènes d'immunoglobuline : V-D- J pour la chaine lourde, V et J pour la chaine légère. Dans l'objectif de récolter des informations sur l’immunogénétique des anticorps catalytiques, la distribution des sous-groupes de gènes au sein de chaque répertoire a été étudiée, en se basant sur l’étude de plus de 300 000 séquences. L'analyse des données NGS a montré une expression différentielle des sous-groupes de gènes selon la banque d’origine, suggérant que le fond génétique et / ou l'état immunologique influencent l'expression du sous-groupe de gènes d'immunoglobuline. La présence d'anticorps potentiellement catalytiques à activité β-lactamase a ensuite été étudiée dans les quatre banques par une approche in silico de modélisation tridimensionnelle. Les résultats suggèrent que certaines banques expriment potentiellement plus d'anticorps catalytiques que d'autres. Enfin, dans le but de valider cette approche in silico, une approche in vitro a été initiée. Cinq scFv exposés à la surface des phages ont été sélectionnés lors d'un travail précèdent par un processus itératif sur la base de leur activité catalytique. Chacun possède une structure primaire et tertiaire unique. L’un d’entre eux, le scFv P90C2, a été cloné et exprimé dans des bactéries E. coli BL21 (DE3) sous forme de corps d'inclusion, puis solubilise et enfin renaturé. Bien que le scFv P90C2 soluble conserve son activité de reconnaissance, son pouvoir catalytique est complètement perdu. L’influence de différents paramètres sur la fonctionnalité du scFv a été évaluée : (i) optimisation des conditions du protocole de renaturation, (ii) choix des codons à l’origine de la séquence peptidique du scFv, et enfin (iii) influence de la protéine de fusion pIII
In the late 80s, catalytic antibodies have been discovered in the serum of patients, especially patients with auto-immune diseases. Some of the catalytic antibodies appear to have a beneficial effect on health while others are deleterious. In order to understand the link between catalytic antibodies and immune system pathologies, previous work leaded to 4 single chain Fragment variable (scFv) libraries exposed on phage surface, representing different genetic backgrounds and immunological states. The scFvs, composed with the variable regions of the heavy (H) and light (L) chains, are encoded by immunoglobulin gene subgroups V(H), D(H), J(H), V(L) and J(L). With the objective to decipher the potential origin of catalytic antibodies, a statistical representation of each subgroup within each repertoire has been done, based on more than 300 000 sequences. The NGS data analysis showed a variable expression of some gene subgroups (comprising “rare” ones) between the 4 libraries showing that the genetic background and/or the immunological state influence immunoglobulin gene subgroup expression. Then, we investigated the presence of antibodies with potent active sites in the libraries by molecular modelling. Libraries express more putative catalytic antibodies than others depending on the genetic background and the immunological state profile. Finally, in the objective to validate this in silico approach, an in vitro approach was considered. 5 scFvs exposed on phage surface have thus been selected during a previous work by iterative process on the basis of their catalytic activity: β-lactamase like activity. Each of them displays a unique primary and tertiary structure. The scFvs exposed on the phage surface must be catalytically active while expressed in soluble form too. One of the selected scFvs, P90C2, was optimized and expressed in E. coli BL21 (DE3) bacteria in the form of inclusion bodies and then solubilized and refolded. Although soluble P90C2 fully retained its binding activity, its catalytic potency was completely lost. Further experiments aimed to i) optimize refolding protocol, ii) study the impact of scFv codon-optimization, and iii) show the influence of the pIII fusion protein on the scFv catalytic activity
APA, Harvard, Vancouver, ISO, and other styles
38

Hurel, Julie. "Détection d'organismes génétiquement modifiés (OGM) inconnus par analyse statistique de données de séquençage haut débit." Thesis, Rennes 1, 2020. http://www.theses.fr/2020REN1B027.

Full text
Abstract:
L’Union Européenne a adopté une politique très restrictive vis-à-vis de la diffusion et de l’utilisation des organismes génétiquement modifiés (OGM), dont l'utilisation dans l'alimentation est mal acceptée par les consommateurs. Bien qu'un seuil maximal existe pour qu'un aliment soit étiqueté « sans OGM », ne sont aisément détectables que les OGM connus. Un OGM est constitué principalement d’un génome hôte et d’une séquence insérée par un procédé non naturel conférent une propriété particulière à l’organisme comme la résistance à certaines maladies. Depuis quelques années, des OGM dont la séquence insérée n’est pas connue ont été produits, non détectables par des approches utilisées jusqu'à présent (de type PCR). D'où la nécessité de créer un outil de détection d'OGM inconnus, objet de cette thèse, s'appuyant sur les avancées récentes en terme de séquençage haut débit. Statistiquement, chaque organisme a une fréquence d’utilisation des nucléotides dans son génome qui lui est propre. Toute introduction de matériel génétique étranger va modifier localement les fréquences d’utilisation des nucléotides dans cette région, entraînant ainsi des fréquences d’utilisation des nucléotides différentes de celles de l’organisme hôte. En se basant sur cette affirmation, un outil de détection d'OGM inconnu a été mis au point à partir de données de séquençages bactériens dès lors que cet OGM résulte de l'insertion d'un gène étranger, de la troncation ou de la fusion d'un gène pouvant appartenir au génome hôte. L’outil a été testé sur 4 génomes bactériens OGM, 7 génomes bactériens sauvages et sur 42 génomes synthétiques. Les résultats démontrent l’efficacité de la méthode développée ne présentant qu'un gène faux positif et en identifiant plus de 99% des gènes d'inserts OGM
The European Union has adopted a very restrictive policy towards the dissemination and use of genetically modified organisms (GMOs), whose use in food is not well accepted by consumers. Although a maximum threshold exists for a food to be labelled "GM-free", only known GMOs are easily detectable. A GMO consists mainly of a host genome and a sequence inserted by a non-natural process that confers a particular property on the organism, such as resistance to certain diseases. In recent years, GMOs with an inserted sequence that is not known have been produced that are not detectable by approaches used until now (PCR-type). Hence the need to propose a tool for the detection of unknown GMOs, the subject of this thesis, based on recent advances in terms of high-throughput sequencing. Statistically, each organism has a specific frequency of nucleotide use in its genome. Any introduction of foreign genetic material will locally alter the nucleotide use frequencies in that region, resulting in different nucleotide use frequencies compared to those of the host organism. Based on this assertion, an unknown GMO detection tool has been developed from bacterial sequencing data when the GMO results from the insertion of a foreign gene, the truncation or fusion of a gene that may belong to the host genome. The tool has been tested on 4 GMO bacterial genomes, 7 wild bacterial genomes and 42 synthetic bacterial genomes. The results demonstrate the effectiveness of the method developed by presenting only one false positive gene and identifying more than 99% of the genes of GMO inserts
APA, Harvard, Vancouver, ISO, and other styles
39

Brinda, Karel. "Nouvelles techniques informatiques pour la localisation et la classification de données de séquençage haut débit." Thesis, Paris Est, 2016. http://www.theses.fr/2016PESC1027/document.

Full text
Abstract:
Depuis leur émergence autour de 2006, les technologies de séquençage haut débit ont révolutionné la recherche biologique et médicale. Obtenir instantanément une grande quantité de courtes ou longues lectures de presque tout échantillon biologique permet de détecter des variantes génomiques, révéler la composition en espèces d’un métagénome, déchiffrer la biologie du cancer, décoder l'évolution d’espèces vivantes ou disparues, ou mieux comprendre les schémas de la migration humaine et l'histoire humaine en général. La vitesse à laquelle augmente le débit des technologies de séquençage dépasse la croissance des capacités de calcul et de stockage, ce qui crée de nouveaux défis informatiques dans le traitement de données de séquençage haut débit. Dans cette thèse, nous présentons de nouvelles techniques informatiques pour la localisation (mapping) de lectures dans un génome de référence et pour la classification taxonomique. Avec plus d'une centaine d’outils de localisation publiés, ce problème peut être considéré comme entièrement résolu. Cependant, une grande majorité de programmes suivent le même paradigme et trop peu d'attention a été accordée à des approches non-standards. Ici, nous introduisons la localisation dynamique dont nous montrons qu’elle améliore significativement les alignements obtenus, par comparaison avec les approches traditionnelles. La localisation dynamique est basée sur l'exploitation de l'information fournie par les alignements calculés précédemment, afin d’améliorer les alignements des lectures suivantes. Nous faisons une première étude systématique de cette approche et démontrons ses qualités à l'aide de Dynamic Mapping Simulator, une pipeline pour comparer les différents scénarios de la localisation dynamique avec la localisation statique et le “référencement itératif”. Une composante importante de la localisation dynamique est un calculateur du consensus online, c’est-à-dire un programme qui collecte des statistiques des alignements pour guider, à la volée, les mises à jour de la référence. Nous présentons OCOCO, calculateur du consensus online qui maintient des statistiques des positions génomiques individuelles à l’aide de compteurs de bits compacts. Au-delà de son application à la localisation dynamique, OCOCO peut être utilisé comme un calculateur de SNP online dans divers pipelines d'analyse, ce qui permet de prédire des SNP à partir d'un flux sans avoir à enregistrer les alignements sur disque. Classification métagénomique de lectures d’ADN est un autre problème majeur étudié dans la thèse. Etant donné des milliers de génomes de référence placés sur un arbre taxonomique, le problème consiste à affecter rapidement aux nœuds de l'arbre une énorme quantité de lectures NGS, et éventuellement estimer l'abondance relative des espèces concernées. Dans cette thèse, nous proposons des techniques améliorées pour cette tâche. Dans une série d'expériences, nous montrons que les graines espacées améliorent la précision de la classification. Nous présentons Seed-Kraken, extension sur les graines espacées du logiciel populaire Kraken. En outre, nous introduisons une nouvelle stratégie d'indexation basée sur le transformé de Burrows-Wheeler (BWT), qui donne lieu à un indice beaucoup plus compact et plus informatif par rapport à Kraken. Nous présentons une version modifiée du logiciel BWA qui améliore l’index BWT pour la localisation rapide de k-mers
Since their emergence around 2006, Next-Generation Sequencing technologies have been revolutionizing biological and medical research. Obtaining instantly an extensive amount of short or long reads from almost any biological sample enables detecting genomic variants, revealing the composition of species in a metagenome, deciphering cancer biology, decoding the evolution of living or extinct species, or understanding human migration patterns and human history in general. The pace at which the throughput of sequencing technologies is increasing surpasses the growth of storage and computer capacities, which still creates new computational challenges in NGS data processing. In this thesis, we present novel computational techniques for the problems of read mapping and taxonomic classification. With more than a hundred of published mappers, read mapping might be considered fully solved. However, the vast majority of mappers follow the same paradigm and only little attention has been paid to non-standard mapping approaches. Here, we propound the so-called dynamic mapping that we show to significantly improve the resulting alignments compared to traditional mapping approaches. Dynamic mapping is based on exploiting the information from previously computed alignments, helping to improve the mapping of subsequent reads. We provide the first comprehensive overview of this method and demonstrate its qualities using Dynamic Mapping Simulator, a pipeline that compares various dynamic mapping scenarios to static mapping and iterative referencing. An important component of a dynamic mapper is an online consensus caller, i.e., a program collecting alignment statistics and guiding updates of the reference in the online fashion. We provide OCOCO, the first online consensus caller that implements a smart statistics for individual genomic positions using compact bit counters. Beyond its application to dynamic mapping, OCOCO can be employed as an online SNP caller in various analysis pipelines, enabling calling SNPs from a stream without saving the alignments on disk. Metagenomic classification of NGS reads is another major problem studied in the thesis. Having a database of thousands reference genomes placed on a taxonomic tree, the task is to rapidly assign to tree nodes a huge amount of NGS reads, and possibly estimate the relative abundance of involved species. In this thesis, we propose improved computational techniques for this task. In a series of experiments, we show that spaced seeds consistently improve the classification accuracy. We provide Seed-Kraken, a spaced seed extension of Kraken, the most popular classifier at present. Furthermore, we suggest a new indexing strategy based on a BWT-index, obtaining a much smaller and more informative index compared to Kraken. We provide a modified version of BWA that improves the BWT-index for a quick k-mer look-up
APA, Harvard, Vancouver, ISO, and other styles
40

Caporossi, Alban. "Apport du séquençage haut débit dans l'analyse bioinformatique du génome du virus de l'hépatite C." Thesis, Université Grenoble Alpes (ComUE), 2019. http://www.theses.fr/2019GREAS021/document.

Full text
Abstract:
Le séquençage haut débit a été utilisé dans ce travail pour reconstruire avec des méthodes adaptées le génomeviral entier du virus de l’hépatite C (VHC) notamment pour le typer avec précision. Une étude a ainsi permisde mettre en évidence la présence d’une forme recombinante du VHC chez un patient. Une autre a permisde typer et détecter les mutations de résistance de plusieurs souches de VHC de génotypes différents. Enfin,une dernière étude basée sur cette approche a permis de découvrir une souche VHC appartenant à un nouveausous-type. Le séquençage haut débit a aussi été utilisé dans ce travail pour détecter des infections multiples etanalyser l’évolution virale en ciblant des gènes du VHC et en mettant en œuvre des méthodes non spécifiquespour 2 patients VHC sous traitement. Cette étude rétrospective a permis de définir la composition de chaqueéchantillon temporel, estimer leur diversité nucléotidique, explorer la structure génétique de la population viraleet son évolution temporelle et dater les infections secondaires. Les résultats obtenus supportent l’hypothèse d’unmécanisme d’apparition de résistance au traitement (selective sweeps)
High-throughput sequencing has been used in this work to reconstruct with adapted methods the whole genomeof the hepatitis C virus (HCV) particularly for accurately typing the virus. Thus, we managed to detect in a studya recombinant form of HCV circulating within a patient. We typed and detected in another study resistancemutations of several HCV strains of different genotypes. Finally, a last study based on this approach enabled touncover a HCV strain belonging to a new subtype. High-throughput sequencing has also been used in this workto detect multiple infections and analyze viral evolution with targeted HCV genes and non-specific methods for2 HCV patients under treatment. This retrospective study enabled to define the composition of each temporalsample, assess their nucleotide diversity, investigate viral population genetic structure and temporal evolutionand date secondary infections. Results of this analysis support the hypothesis of onset mechanism of treatmentresistance (selective sweeps)
APA, Harvard, Vancouver, ISO, and other styles
41

Chaara, Wahiba. "Caractérisation de la diversité du répertoire TCR par modélisation de données de séquençage haut-débit." Thesis, Paris 6, 2016. http://www.theses.fr/2016PA066410/document.

Full text
Abstract:
Les lymphocytes T (LT) sont des acteurs-clés du système immunitaire, un système complexe et dynamique évoluant au cours de la vie de l'organisme. On appelle " répertoire lymphocytaire ", une collection de lymphocytes partageant un même phénotype, une même fonction ou tout autres critères, chacun caractérisé par un récepteur membranaire unique, appelé TCR, lui permettant de reconnaitre de manière spécifique les antigènes. Les TCR sont caractérisés par des régions variables, produites par une série de réarrangements somatiques ayant lieu pendant la différenciation thymique, et qui assurent la diversité de reconnaissance des LT. On parle de répertoire TCR lorsque l'on s'attache à définir les caractéristiques clonales des populations lymphocytaires T sur la base de la diversité des TCR exprimés à l'échelle de la population. Le séquençage à haut débit des chaînes TCR permet désormais de décrire cette diversité avec une précision sans précédent. Cette approche requiert néanmoins des outils adaptés pour permettre une caractérisation pertinente de la structure des répertoires analysés. Un axe de recherche de L'unité I3 est l'analyse du répertoire TR de plusieurs populations lymphocytaires T en situation d'auto-immunité ou d'inflammation. Dans ce contexte, les objectifs de ma thèse ont été de : i) approfondir le concept de diversité du répertoire lymphocytaire, ii) mettre au point une méthodologie adaptée permettant d'exploiter les données de séquençage de manière optimale en prenant en compte les limites de cette technologie, et iii) développer un outil permettant aux immunologistes une caractérisation approfondie et facilement interprétable des répertoires qu'ils étudient
T lymphocytes (LT) are key players in the immune system, a complex and dynamic system evolving over the organism’s life. The concept of "lymphocyte repertoire" designates a collection of lymphocytes sharing the same phenotype, the same function or any other criteria. Each LT is characterized by a unique membrane receptor, called TCR, allowing it to recognize specifically antigens. TCRs are characterized by variable regions produced by a series of somatic rearrangements that occur during the thymic differentiation; these regions engage LT recognition diversity. The “TCR repertoire” approach focuses the clonal characterisation of LT populations on the diversity of the TCR expressed on the scale of the population. The high-throughput sequencing of TCR chains (RepSeq) describes this diversity with unprecedented precision. However, this approach requires adapted tools to enable a relevant deciphering of the analysed TCR repertoire diversity. My thesis aimed to: i) deepen the concept of diversity of the lymphocyte repertoire, ii) develop an appropriate methodology to exploit optimally RepSeq data while taking into account the limits of this technology, and iii) develop a tool providing immunologists a thorough characterisation of their TCR repertoires of interest
APA, Harvard, Vancouver, ISO, and other styles
42

Chaara, Wahiba. "Caractérisation de la diversité du répertoire TCR par modélisation de données de séquençage haut-débit." Electronic Thesis or Diss., Paris 6, 2016. https://accesdistant.sorbonne-universite.fr/login?url=https://theses-intra.sorbonne-universite.fr/2016PA066410.pdf.

Full text
Abstract:
Les lymphocytes T (LT) sont des acteurs-clés du système immunitaire, un système complexe et dynamique évoluant au cours de la vie de l'organisme. On appelle " répertoire lymphocytaire ", une collection de lymphocytes partageant un même phénotype, une même fonction ou tout autres critères, chacun caractérisé par un récepteur membranaire unique, appelé TCR, lui permettant de reconnaitre de manière spécifique les antigènes. Les TCR sont caractérisés par des régions variables, produites par une série de réarrangements somatiques ayant lieu pendant la différenciation thymique, et qui assurent la diversité de reconnaissance des LT. On parle de répertoire TCR lorsque l'on s'attache à définir les caractéristiques clonales des populations lymphocytaires T sur la base de la diversité des TCR exprimés à l'échelle de la population. Le séquençage à haut débit des chaînes TCR permet désormais de décrire cette diversité avec une précision sans précédent. Cette approche requiert néanmoins des outils adaptés pour permettre une caractérisation pertinente de la structure des répertoires analysés. Un axe de recherche de L'unité I3 est l'analyse du répertoire TR de plusieurs populations lymphocytaires T en situation d'auto-immunité ou d'inflammation. Dans ce contexte, les objectifs de ma thèse ont été de : i) approfondir le concept de diversité du répertoire lymphocytaire, ii) mettre au point une méthodologie adaptée permettant d'exploiter les données de séquençage de manière optimale en prenant en compte les limites de cette technologie, et iii) développer un outil permettant aux immunologistes une caractérisation approfondie et facilement interprétable des répertoires qu'ils étudient
T lymphocytes (LT) are key players in the immune system, a complex and dynamic system evolving over the organism’s life. The concept of "lymphocyte repertoire" designates a collection of lymphocytes sharing the same phenotype, the same function or any other criteria. Each LT is characterized by a unique membrane receptor, called TCR, allowing it to recognize specifically antigens. TCRs are characterized by variable regions produced by a series of somatic rearrangements that occur during the thymic differentiation; these regions engage LT recognition diversity. The “TCR repertoire” approach focuses the clonal characterisation of LT populations on the diversity of the TCR expressed on the scale of the population. The high-throughput sequencing of TCR chains (RepSeq) describes this diversity with unprecedented precision. However, this approach requires adapted tools to enable a relevant deciphering of the analysed TCR repertoire diversity. My thesis aimed to: i) deepen the concept of diversity of the lymphocyte repertoire, ii) develop an appropriate methodology to exploit optimally RepSeq data while taking into account the limits of this technology, and iii) develop a tool providing immunologists a thorough characterisation of their TCR repertoires of interest
APA, Harvard, Vancouver, ISO, and other styles
43

Glouzon, Jean-Pierre. "Étude de la dynamique des populations du viroïde de la mosaïque latente du pêcher par séquençage à haut débit et segmentation." Mémoire, Université de Sherbrooke, 2012. http://hdl.handle.net/11143/6582.

Full text
Abstract:
Les viroïdes sont des agents pathogènes responsables de maladies affectant les plantes telles que l'avocatier, le pêcher, la tomate, la pomme dé terre, etc. Parce qu'ils dégradent la qualité des fruits et des légumes qu'ils infectent, les viroïdes sont la cause de la perte d'environ 50 % de la production mondiale des cultures touchées. La compréhension des mécanismes couvrant l'infection aux viroïdes constitue un enjeu économique majeur visant l'amélioration de la productivité, dans l'exploitation de ces plantes. Cette étude aborde l'analyse des processus liés à l'infection aux viroïdes par la découverte de nouveaux aspects caractérisant la variabilité génétique du viroïde de la mosaïque latente du pêcher (PLMVd). Elle décrit la dynamique des populations de PLMVd. La grande variabilité de PLMVd, expliquée par un fort taux de mutations, implique la génération de séquences diverses et variées, prenant la forme de nuages. Notre approche pour comprendre cette variabilité génétique de PLMVd consiste à infecter un pêcher à partir d'une seule séquence de PLMVd, puis à en extraire les séquences et analyser leurs caractéristiques intrinsèques par une nouvelle méthode bio-informatique. À notre connaissance, notre étude, à ce jour, est la première à utiliser les récentes techniques de séquençage à haut débit, à des fins d'analyses des viroïdes. La structure relativement simple des viroïdes, brin d'ARN circulaire d'environ 240 à 400 nucléotides, leur confère l'avantage de pouvoir être séquencé dans leur longueur totale par le séquençage à haut débit. Ce dernier couvre de grands volumes de données biologiques, ce qui convient pour séquencer les nuages de séquences qu'on peut retrouver au sein de la population de PLMVd. En bio-informatique, il existe de nombreux algorithmes permettant de comparer des séquences pour en extraire de l'information. L'un des défis majeurs de ces algorithmes est la prise en charge efficace et rapide de quantité de données en constante croissance. Dans le cadre de notre étude, le volume de séquences généré par PLMVd rend impraticable l'application des algorithmes d'alignement pour comparer les séquences et en estimer leurs similarités. D'autres algorithmes tels que ceux basés sur les N-grammes impliquent une perte partielle de l'information contenue dans les séquences. Nous avons donc utilisé une mesure de similarité basée sur le modèle de probabilité conditionnelle (CPD) qui nous permet d'une part, de conserver l'information sous forme de patrons (sous-séquences) contenus dans les séquences, et d'autre part, d'éviter l'alignement de séquences tout en comparant directement chaque séquence avec un ensemble de séquences. Le modèle CPD est intégré dans un nouvel algorithme de segmentation pour les séquences catégoriques, appelé DHCS. Cette étude révèle de nouveaux aspects dans la variabilité génétique de PLMVd. En effet, elle nous a permis d'une part d'extraire des familles de séquences caractérisées par des mutations spécifiques, puis d'autre part, de représenter la distribution de ces mutations dans une arborescence. Par la suite, elle a favorisé l'observation de mutations localisées dans le noyau d'un motif particulier, nommé le ribozyme en tête de marteau des séquences, servant à l'amélioration de l'adaptation de PLMVd. Celui-ci est effectivement sujet à mutations parce que la séquence inoculée au pêcher après 6 mois d'infections n'a pas été retrouvée et que le nombre de mutations enregistrées varie de 2 à 51. Des deux librairies obtenues, nous avons répertorié 1125 et 1061 séquences pour un total de 2186 nouvelles séquences de PLMVd. Seules 300 séquences étaient connues à ce jour. Nous avons observé que les séquences possèdent, selon la librairie, en moyenne 4.6 et 6.3 mutations par rapport à la séquence inoculée. Certaines d'entre elles ont jusqu'à 20 % de dissimilarité par rapport à la séquence inoculée, ce qui est considérable. Grâce à DHCS, les différentes séquences ont pu être groupées en familles, au nombre de 7 et 8 selon la librairie.
APA, Harvard, Vancouver, ISO, and other styles
44

Mbareche, Hamza. "Molecular tools for the study of fungal aerosols." Doctoral thesis, Université Laval, 2019. http://hdl.handle.net/20.500.11794/35697.

Full text
Abstract:
Depuis le développement rapide des méthodes de séquençage à haut débit (SHD) en écologie moléculaire, les moisissures ont eu moins d’attention que les bactéries et les virus, en particulier dans les études de bioaérosols. Les études d'exposition aux moisissures dans différents environnements sont limitées par les méthodes de culture traditionnelles qui sousestiment le large spectre de moisissures pouvant être présentes dans l'air. Bien que certains problèmes de santé soient déjà associés à une exposition fongique, le risque peut être sousestimé en raison des méthodes utilisées. L’application du séquençage à haut débit dans des échantillons de sol par exemple a permis de mieux comprendre le rôle des moisissures dans les écosystèmes. Cependant, la littérature n'est pas clair quant à la région génomique à utiliser comme cible pour l'enrichissement et le séquençage des moisissures. Cette thèse vise à déterminer laquelle des deux régions universellement utilisées, ITS1 et ITS2, convient le mieux pour étudier les moisissures dans l’air. Durant le développement de la méthode moléculaire, un autre défi, touchant la perte de cellules fongiques lors de la centrifugation d'échantillons d'air liquide à des fins de concentration, s’est rajouté. Ainsi, cette thèse décrit une nouvelle méthode de filtration pour remédier à la perte due à la centrifugation. Ces deux objectifs représentent la première partie de la thèse qui se concentre sur le développement de méthodes: le traitement des échantillons d’air avant extraction de l’ADN et la meilleure région à cibler avec la méthode SHD. La deuxième partie consiste à appliquer la méthodologie développée pour caractériser l'exposition aux moisissures dans trois environnements de travail différents: le compost, la biométhanisation et les fermes laitières. Les résultats montrent que la région d’ITS1 a surpasser ITS2 en couvrant davantage de diversité dans les bioaérosols. En raison de profils taxonomiques complémentaires, l'auteur de la thèse suggère d'utiliser les deux régions pour couvrir la plupart des taxons lorsque la taxonomie constitue le principal intérêt de l'étude. Cependant, ITS1 devrait être le premier choix dans les autres études, principalement en raison de la grande diversité et de la similarité des profils taxonomiques obtenus par l’approche métagénomique et l’approche ciblant ITS1. De plus, la nouvelle approche de filtration proposée constitue une meilleure alternative pour compenser la perte fongique due à la centrifugation. Ensemble, ces méthodes ont permis une meilleure description de l’exposition aux moisissures en milieu professionnel
Since the rapid development of high-throughput sequencing methods in molecular ecology, fungi have been the underdogs of the microbial world, especially in bioaerosol studies. Particularly, studies describing fungal exposure in different occupational environments have been limited by traditional culture methods that underestimate the broad spectrum of fungi present in the air. There are potential risks in the human inhalation of fungal spores in an occupational scenario where the quantity and diversity of fungi is high. Although some health problems are already known to be associated with fungal exposure in certain work environments, the risk may be underestimated due to the methods used. Applying high-throughput sequencing in soil samples has helped the explanation of the fungal role in ecosystems. However, the literature is not decisive in terms of the genomic region to use as target for the enrichment and sequencing of fungi. The present thesis deals with the challenge of determining which region from the two universally used regions, ITS1 and ITS2, is best suited for study of fungal aerosols. In tandem with this challenge came another of addressing the loss of fungal cells during the centrifugation of liquid impaction air samples for purposes of concentration. This thesis describes a new filtration-based method to circumvent such losses during centrifugation. These two challenges represent the first part of the thesis, which focuses on methodology development. In synopsis, the treatment of air samples prior to DNA extraction is considered, along with the identification of the best region to target in amplicon-based high throughput sequencing. In the second part of the thesis, the focus turns to the application of the developed methodology to characterize fungal exposure in three different work environments: compost, biomethanization, and dairy farms. All three are of special interest due to potentially high fungal exposure. Results show that ITS1 outperformed ITS2 in disclosing higher levels of fungal diversity in aerosol samples. Due to complementarity in the taxonomic profiles disclosed by the two regions, the author suggests the use of both regions to cover the greatest possible number of taxa when taxonomy is the main interest of the study. However, ITS1 should be the first choice in other studies, mainly because of the high diversity it reveals and its concordance with results obtained via shotgun metagenomic profiling. In addition, the new filtration-based approach proposed in this work might be the best alternative available for compensating the loss of propagules in centrifugation done prior to DNA extraction. Taken together, these methods allowed a profound characterization of fungal exposure in occupational environments.
APA, Harvard, Vancouver, ISO, and other styles
45

Karaouzene, Thomas. "Bioinformatique et infertilité : analyse des données de séquençage haut-débit et caractérisation moléculaire du gène DPY19L2." Thesis, Université Grenoble Alpes (ComUE), 2017. http://www.theses.fr/2017GREAS041/document.

Full text
Abstract:
Ces dix dernières années, l’investigation des maladies génétiques a été bouleversée par l’émergence des techniques de séquençage haut-débit. Celles-ci permettent désormais de ne plus séquencer les gènes un par un, mais d’avoir accès à l’intégralité de la séquence génomique ou transcriptomique d’un individu. La difficulté devient alors d’identifier les variants causaux parmi une multitude d’artefacts techniques et de variants bénins, pour ensuite comprendre la physiopathologie des gènes identifiés.L’application du séquençage haut débit est particulièrement prometteuse dans le champ de la génétique de l’infertilité masculine car il s’agit d’une pathologie dont l’étiologie est souvent génétique, qui est génétiquement très hétérogène et pour laquelle peu de gènes ont été identifiés. Mon travail de thèse est donc centré sur la l’infertilité et comporte deux parties majeures : l’analyse des données issues du séquençage haut débit d’homme infertiles et de modèles animaux et la caractérisation moléculaire d’un phénotype spécifique d’infertilité, laglobozoospermie.Le nombre de variants identifiés dans le cadre d’un séquençage exomique pouvant s’élever à plusieurs dizaines de milliers, l’utilisation d’un outil informatique performant est indispensable. Pour arriver à une liste de variants suffisamment restreinte pour pouvoir être interprétée, plusieurs traitements sont nécessaires. Ainsi, j’ai développé un pipeline d’analyse de données issues de séquençage haut-débit effectuant de manière successive l’intégralité des étapes de l’analyse bio-informatique, c’est-à-dire l’alignement des reads sur un génome de référence, l’appel des génotypes, l’annotation des variants obtenus ainsi que le filtrage de ceux considérés comme non pertinents dans le contexte de l’analyse. L’ensemble de ces étapes étant interdépendantes,les réaliser au sein du même pipeline permet de mieux les calibrer pour ainsi réduire le nombre d’erreurs générées. Ce pipeline a été utilisé dans cinq études au sein du laboratoire, et a permis l’identification de variants impactant des gènes candidats prometteurs pouvant expliquer le phénotype d’infertilité des patients.L’ensemble des variants retenus ont ensuite pu être validés expérimentalement.J’ai également pris part aux investigations génétiques et moléculaires permettant la caractérisation du gène DPY19L2, identifié au laboratoire et dont la délétion homozygote entraine une globozoospermie, caractériséepar la présence dans l’éjaculât de spermatozoïdes à tête ronde dépourvus d’acrosome. Pour cela, j’ai contribué à caractériser les mécanismes responsables de cette délétion récurrente, puis, en utilisant le modèle murin Dpy19l2 knock out (KO) mimant le phénotype humain, j’ai réalisé une étude comparative des transcriptomes testiculaires de souris sauvages et de souris KO Dpy19l2-/-. Cette étude a ainsi permis de mettre en évidence la dérégulation de 76 gènes chez la souris KO. Parmi ceux-ci, 23 sont impliqués dans la liaison d’acides nucléiques et de protéines, pouvant ainsi expliquer les défauts d’ancrage de l’acrosome au noyau chez les spermatozoïdes globozoocéphales.Mon travail a donc permis de mieux comprendre la globozoospermie et de développer un pipeline d’analyse bioinformatique qui a déjà permis l’identification de plus de 15 gènes de la gamétogenèse humaine impliqués dans différents phénotypes d’infertilité
In the last decade, the investigations of genetic diseases have been revolutionized by the rise of high throughput sequencing (HTS). Thanks to these new techniques it is now possible to analyze the totality of the coding sequences of an individual (exome sequencing) or even the sequences of his entire genome or transcriptome.The understanding of a pathology and of the genes associated with it now depends on our ability to identify causal variants within a plethora of technical artifact and benign variants.HTS is expected to be particularly useful in the field infertility as this pathology is expected to be highly genetically heterogeneous and only a few genes have so far been associated with it. My thesis focuses on male infertility and is divided into two main parts: HTS data analysis of infertile men and the molecular characterization of a specific phenotype, globozoospermia.Several thousands of distinct variants can be identified in a single exome, thereby using effective informatics is essential in order to obtain a short and actionable list of variants. It is for this purpose that I developed a HTS data analysis pipeline performing successively all bioinformatics analysis steps: 1) reads mapping along a reference genome, 2) genotype calling, 3) variant annotation and 4) the filtering of the variants considered as non-relevant for the analysis. Performing all these independent steps within a single pipeline is a good way to calibrate them and therefore to reduce the number of erroneous calls. This pipeline has been used in five studies and allowed the identification of variants impacting candidate genes that may explain the patients’ infertility phenotype. All these variants have been experimentally validated using Sanger sequencing.I also took part in the genetic and molecular investigations which permitted to demonstrate that the absence of the DPY192 gene induces male infertility due to globozoospermia, the presence in the ejaculate of only round-headed and acrosomeless spermatozoa. Most patients with globozoospermia have a homozygous deletion of the whole gene. I contributed to the characterization of the mechanisms responsible for this recurrent deletion, then, using Dpy19l2 knockout (KO) mice, I realized the comparative study of testicular transcriptome of wild type and Dpy19l2 -/- KO mice. This study highlighted a dysregulation of 76 genes in KO mice. Among them, 23 are involved in nucleic acid and protein binding, which may explain acrosome anchoring defaults observed in the sperm of globozoospermic patients.My work allowed a better understanding of globozoospermia and the development of a HTS data analysis pipeline. The latter allowed the identification of more than 15 human gametogenesis genes involved in different infertility phenotypes
APA, Harvard, Vancouver, ISO, and other styles
46

Limasset, Antoine. "Nouvelles approches pour l'exploitation des données de séquences génomique haut débit." Thesis, Rennes 1, 2017. http://www.theses.fr/2017REN1S049/document.

Full text
Abstract:
Cette thèse a pour sujet les méthodes informatiques traitant les séquences ADN provenant des séquenceurs haut débit. Nous nous concentrons essentiellement sur la reconstruction de génomes à partir de fragments ADN (assemblage génomique) et sur des problèmes connexes. Ces tâches combinent de très grandes quantités de données et des problèmes combinatoires. Différentes structures de graphe sont utilisées pour répondre à ces problèmes, présentant des compromis entre passage à l'échelle et qualité d'assemblage. Ce document introduit plusieurs contributions pour répondre à ces problèmes. De nouvelles représentations de graphes d'assemblage sont proposées pour autoriser un meilleur passage à l'échelle. Nous présentons également de nouveaux usages de ces graphes, différent de l'assemblage, ainsi que des outils pour utiliser ceux-ci comme références dans les cas où un génome de référence n'est pas disponible. Pour finir nous montrons comment utiliser ces méthodes pour produire un meilleur assemblage en utilisant des ressources raisonnables
Novel approaches for the exploitation of high throughput sequencing data In this thesis we discuss computational methods to deal with DNA sequences provided by high throughput sequencers. We will mostly focus on the reconstruction of genomes from DNA fragments (genome assembly) and closely related problems. These tasks combine huge amounts of data with combinatorial problems. Various graph structures are used to handle this problem, presenting trade-off between scalability and assembly quality. This thesis introduces several contributions in order to cope with these tasks. First, novel representations of assembly graphs are proposed to allow a better scaling. We also present novel uses of those graphs apart from assembly and we propose tools to use such graphs as references when a fully assembled genome is not available. Finally we show how to use those methods to produce less fragmented assembly while remaining tractable
APA, Harvard, Vancouver, ISO, and other styles
47

Doan, Trung-Tung. "Epidémiologie moléculaire et métagénomique à haut débit sur la grille." Phd thesis, Université Blaise Pascal - Clermont-Ferrand II, 2012. http://tel.archives-ouvertes.fr/tel-00778073.

Full text
APA, Harvard, Vancouver, ISO, and other styles
48

Muller, Etienne. "Les défis du séquençage à haut débit dans l'exploration génétique des cancers du sein et de l'ovaire." Thesis, Normandie, 2017. http://www.theses.fr/2017NORMR100/document.

Full text
Abstract:
Les cancers du sein et de l’ovaire apparaissent dans 5 à 10% dans un contexte de prédisposition génétique, dont seule une faible part est expliquée par la présence d’un variant pathogène sur les gènes BRCA1, BRCA2 et PALB2. Le séquençage à haut-débit permet d’explorer cette hérédité manquante, mais représente un nouveau défi à la fois informatique, statistique et biologique. Trois approches utilisant cette nouvelle technologie ont été employées pour rechercher de nouveaux facteurs de prédisposition. En premier lieu, les risques associés à 34 gènes connus ou suspectés d’être impliqués dans les prédispositions ont été estimés à partir de l’analyse de 5 131 cas index et le développement d’une nouvelle approche statistique. Aussi la participation des néo-mutations en mosaïque dans le syndrome a été explorée à partir de 1 750 cas index issus de l’étude précédente, avec un logiciel de détection des variants faiblement représentés développé spécifiquement: outLyzer. Enfin, l’exploration par séquençage de l’hérédité manquante a été étendue à un panel de 201 gènes impliqués dans le cancer, à partir de 118 patientes sélectionnées pour la précocité d’apparition de leur maladie, élément fortement évocateur d’un facteur de prédisposition. Les résultats de ces travaux ont permis de valider la pertinence de l’étude de PALB2, RAD51C et RAD51D pour la prise en charge des patients, et suggèrent aussi une implication sous-estimée des variants en mosaïque. Cependant il reste encore très probablement d’autres facteurs génétiques fortement pénétrants à découvrir mais dont la modulation du risque répond à un modèle oligogénique
Breast and ovarian cancers appear in 5 to 10% of cases in a context of genetic predisposition, of which only a small proportion is explained by the presence of a pathogenic variant on the BRCA1, BRCA2 and PALB2 genes. High throughput sequencing can explore this missing heredity, but represents a new challenge both in computing, statistics and biology. Three approaches using this new technology have been used to investigate new predisposition factors. First, the risks associated with 34 known or suspected genes involved in predispositions were estimated from the analysis of 5,131 index cases and the development of a new statistical approach. Also, the participation of mosaic neo-mutations in the syndrome was explored from 1,750 index cases from the previous study, with a software developed specifically for detecting poorly represented variants: outLyzer. Finally, the exploration by sequencing of the missing heredity was extended to a panel of 201 genes involved in cancer, from 118 patients selected for the early onset of their disease, a highly suggestive element of a predisposition factor. The results of this work validated the relevance of the PALB2, RAD51C and RAD51D study for patient management, and also suggested an underestimated involvement of mosaic variants. However, there are still very likely other highly penetrating genetic factors to be discovered, but whose risk modulation is based on an oligogenic model
APA, Harvard, Vancouver, ISO, and other styles
49

Nguyen, Do Ngoc Linh. "Mise au point de l’analyse par séquençage à haut-débit du microbiote fongique et bactérien respiratoire chez les patients atteints de mucoviscidose." Thesis, Lille 2, 2016. http://www.theses.fr/2016LIL2S011/document.

Full text
Abstract:
L’infection broncho-pulmonaire représente le problème majeur des malades atteints de la mucoviscidose. Plusieurs bactéries sont connues depuis des dizaines années comme les principaux agents responsables de ces infections (par exemple Pseudomonas aeruginosa, Staphylococcus aureus, Burkholderia cepacia, Achromobacter xylosoxidans…). Récemment, certains genres fongiques notamment les champignons filamenteux (comme Aspergillus, Scedosporium…) ont été identifiés comme des pathogènes émergeants ou ré-émergeants pouvant être responsables d’infection invasive. Ainsi, la détection des microorganismes impliqués dans ces colonisations et/ou infections respiratoires demeure importante sur le plan physiopathologique et clinique.Si la culture microbiologique reste la méthode la plus utilisée à ce jour pour le diagnostic des infections microbiennes, elle ne permet pas d’identifier les microbes non-cultivables ou difficiles à cultiver. Depuis quelques années, grâce au développement de la technique moléculaire de séquençage à haut-débit (next generation sequencing ou NGS), plusieurs études ont montré que l’écologie microbienne du poumon des patients atteints de la mucoviscidose est très complexe et correspond à une flore poly-microbienne, appelée le microbiote pulmonaire, comprenant non seulement des bactéries mais également des micromycètes (levures et/ou champignons filamenteux) et des virus et phages. Une dysbiose (modification en abondance et diversité) de cette flore pourrait influencer la fonction respiratoire et l’état clinique du patient.Alors que le microbiome bactérien et son rôle en pathogenèse sont largement étudiés, peu d’études ont porté sur la composante fongique (mycobiote/mycobiome) du microbiote pulmonaire. Notre travail de thèse s’inscrit dans les différents projets développés au sein de l’axe de recherche « Microbiote pro- et eucaryote pulmonaire » coordonné par le Pr Laurence Delhaes dans l’équipe Biologie et Diversité des Pathogènes Eucaryotes Emergeants (BDPEE) dirigée par le Dr Eric Viscogliosi. Il se focalise sur l’analyse NGS du microbiote pro- et eucaryotique respiratoire chez les patients atteints de la mucoviscidose et notamment la comparaison de différentes approches méthodologiques en vue d’une optimisation et standardisation de la méthode.Dans un premier temps, nous présenterons une synthèse des connaissances actuelles d’une part des phénomènes de colonisations/infections fongiques chez les patients atteints de mucoviscidose et d’autre part dans le domaine du microbiote pulmonaire et surtout du mycobiote pulmonaire autour duquel notre équipe se focalise.2Dans un deuxième temps, nous avons travaillé à mieux adapter l’approche NGS aux études du microbiote pulmonaire dans la mucoviscidose. En effet, le séquençage à haut-débit est une technique puissante mais pour laquelle des biais peuvent être introduits à de nombreuses étapes méthodologiques. Un des biais les plus importants est que l’approche NGS ne permet pas de différencier les microorganismes vivants, des cellules mortes ou endommagées, ni de l’ADN extracellulaire. Dans le contexte de notre travail –celui du microbiote pulmonaire chez des patients atteints de mucoviscidose et souvent exposés aux antibiotiques par voie intraveineuse à forte dose, l’analyse NGS pourrait évaluer incorrectement l’abondance et la diversité de ce microbiote pulmonaire. Un prétraitement des échantillons par propidium monoazide (PMA), qui permet de cibler sélectivement l’ADN des cellules vivantes, pourrait être une solution pour palier à cette limite. Notre étude avait donc comme objectif de déterminer si un prétraitement par PMA des expectorations modifiait le microbiote pro- et eucaryote pulmonaire analysé par NGS. Nous discutons l’intérêt et la relevance clinique de cette approche « PMA - NGS » permettant une quantification isolée des microorganismes vivants dans le contexte de la mucoviscidose
Chronic pulmonary infection results in an irreversible decline in lung function in patients with cystic fibrosis (CF). While several bacteria are known as main causes for these infections (for example: Pseudomonas aeruginosa, Staphylococcus aureus, Burkholderia cepacia, Achromobacter xylosoxidans...), more recently some fungal genera including filamentous fungi (such as Aspergillus, Scedosporium...) have also been identified as emerging or re-emerging pathogens able to cause invasive mycosis. Thus, the identification of the microorganisms involved in the respiratory colonizations and/or infections has become essential.Still now culture methods remain the gold standard for diagnostic of microbial infections. However, it could not identify non-culturable or difficult-to-cultivate microorganisms. Thanks to the development of high-throughput sequencing (next generation sequencing or NGS), recent studies have shown that the lung of patients with CF is a complex poly-microbial flora, also called the CF lung microbiota, which includes not only bacteria but also fungi (yeast and/or filamentous fungi), and viruses and phages. Dysbiosis (loss of abundance and/or diversity) of the lung microbiota has been associated with the patient's decreased lung function and poor clinical status.While lung bacteriota and its role in pathogenesis have widely been studied, few research studies focus on the fungal component (mycobiota/ mycobiome) of the lungs. Our thesis (PhD work) focuses on NGS analysis of pro- and eukaryotic lung microbiota in CF patients, in particular on the comparison of different methodological approaches to optimize and standardize the NGS protocol. This project has been developed under the supervision of Pr. Laurence Delhaes in the “Biology and Diversity of Eukaryotic Emerging Pathogens” team directed by Dr. Eric Viscogliosi.Firstly, we present a state of art on the current knowledge on the fungal colonization/infections risk in CF as well as the development of new concepts of lung microbiota and lung mycobiota on which our team focuses.Secondly, we applied the NGS approach to study the pro- and eukaryotic microbiota in the sputum samples of CF patient lung. Indeed, NGS is a powerful technique that may introduce biases on numerous methodological steps. One of the most important biases is that this technique could not differentiate among the living microorganisms, the dead or damaged cells, and the extracellular DNA. In the context of the CF lung microbiota which is often exposed to high-dose intravenous antibiotics, the analysis by NGS might evaluate4inaccurately the abundance and the diversity of the lung microbiota. Pretreatment of samples by propidium monoazide (PMA), which can target selectively the DNA of viable cells, could be a solution to overcome this limitation. Our study aimed to determine whether a sample pretreatment with PMA modified the lung pro- and eukaryotic microbiota analyzed by NGS. We discuss the clinical relevance of this approach "PMA - NGS" in the context of CF patients to a better quantification of living microorganisms
APA, Harvard, Vancouver, ISO, and other styles
50

Padioleau, Ismaël. "Étude génomique de l'interférence entre la réplication et la transcription comme source du stress réplicatif." Thesis, Montpellier, 2017. http://www.theses.fr/2017MONTT053/document.

Full text
Abstract:
L’activation d’oncogènes entraine une prolifération aberrante des cellules, un stress réplicatif et des cassures de l’ADN. Un lien a été établi entre l’instabilité génomique résultant des cassures et l’inhibition de checkpoints entrainant l’accumulation de mutations et finalement le cancer (Halazonetis et al. 2008). Cependant, les mécanismes liant ces différents évènements n’ont pas encore été caractérisés. Notre hypothèse est que la prolifération incontrôlée des cellules augmente les incidents dus aux conflits entre les polymérases responsables de la réplication et celles responsables de la transcription. Lors de la rencontre des deux polymérases, l’accumulation de surenroulements positifs de l’ADN induit un blocage des fourches de réplication. Ceci crée des zones de fragilité, notamment dues à l’exposition d’ADN simple brin, et pourrait être à l’origine des cassures observées chez les cellules tumorales. Pour valider cette hypothèse, les biologistes de l'équipe ont étudié plusieurs lignées de cellules HeLa dans lesquelles les conflits réplication-transcription sont augmentés et j'ai réalisé l'analyse bioinformatique des approches génomiques suivantes :-DRIP-seq pour la détection des R-loops, une structure double brin hybride ADN/ARN qui se forme lors de la transcription, exposant ainsi un brin d’ADN simple brin.- ChIP-seq de γ-H2AX, une marque d’histone indiquant les cassures de l’ADN.-ChIP-seq de phospho-RPA (S33), un substrat de la kinase ATR au niveau des fourches bloquées. Pour chaque expérience, nous avons utilisé une lignée contrôle et deux lignées dans lesquelles TOP1 et ASF/SF2 sont appauvries avec un shRNA inductible (shTOP1 et shASF). La Topoisomérase I (TOP1) est une enzyme qui relaxe les surenroulements de l’ADN. Le complexe ASF/SF2 est un facteur d’épissage responsable entre autres de l’assemblage des mRNP (ribonucleoprotein particles) au moment de la transcription, qui limitent la formation des R-loops. L’analyse bioinformatique de ces données, ainsi que d'autres données de la littérature, m'a permis d'identifier des régions à risque du génome, localisées en aval de gènes fortement transcrits et répliqués précocement en phase S par des fourches progressant en sens opposé à la transcription. J’ai également observé que les gènes impliqués dans le cancer sont surreprésentés dans ces régions à risque
Oncogenes activation promotes aberrant cell proliferation, increasing replication stress and DNA damage. It has been proposed that genomic instability leads to checkpoints inhibition and promotes cancer development (Halazonetis et al. 2008). However, the link between aberrant proliferation, replication stress and DNA breaks is still unclear. We hypothesized that aberrant proliferation leads to more incident due to DNA and RNA polymerases encounter and stalling. When the two polymerases encounter, the accumulation of positive-supercoiled DNA between two polymerases induces fork stalling, resulting in the formation of fragile structures such as single-stranded DNA (ssDNA). These ssDNAs formed at stalled forks could be a source for DNA breaks, promoting the development of cancer cells. To validate this hypothesis, biologists from our team have worked on HeLa cell lines with increased replication-transcription conflicts. I perform the bioinformatics analysis of the following genomic data:- DRIP-seq: R-Loops positioning on genome using immunoprecipitation on DNA/RNA hybrids.-γ-H2AX ChIP-Seq: Gamma-H2AX is an histone mark found at DNA breaks.-pRPA ChIP-Seq : Positioning of stalled forks using the substrate of ATR kinase, phospho-RPA (S33) as a marker.Each data was produced on control cells and two cell lines where TOP1 and ASF/SF2 were depleted by as inducible shRNA (shTOP1 and shASF). Topoisomerase 1 is a topological enzyme that unwinds DNA when supercoiling accumulates. ASF/SF2 is part of the splicing complexes that processes mRNP (messenger ribonucleoprotein particles) to prevent the accumulation of R-loops during transcription. Using these data and others from literature, I determined that regions having higher risk to induce replication stress are located downstream of highly transcribed and early replicated genes, and preferentially with head-on collision between DNA and RNA polymerases. I also revealed that cancer-related genes are enriched in these regions of the genome
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography