Dissertations / Theses on the topic 'Dati NGS'
Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles
Consult the top 50 dissertations / theses for your research on the topic 'Dati NGS.'
Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.
You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.
Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.
LAMONTANARA, ANTONELLA. "Sviluppo ed applicazione di pipilines bioinformatiche per l'analisi di dati NGS." Doctoral thesis, Università Cattolica del Sacro Cuore, 2015. http://hdl.handle.net/10280/6068.
Full textThe advance in sequencing technologies has led to the birth of sequencing platforms able to produce gigabases of sequencing data in a single run. These technologies commonly referred to as Next Generation Sequencing or NGS produce millions of short sequences called “reads” generating large and complex datasets that pose several challenges for Bioinformatics. The analysis of large omics dataset require the development of bioinformatics pipelines that are the organization of the bioinformatics tools in computational chains in which the output of one analysis is the input of the subsequent analysis. A work of scripting is needed to chain together a group of existing software tools.This thesis deals with the methodological aspect of the data analysis in NGS sequencing performed with the Illumina technology. In this thesis three bioinformatics pipelines were developed.to the following cases of study: 1) a global transcriptome profiling of “Oleaeuropeae” during cold acclimation, aimed to unravel the molecular mechanisms of cold acclimation in this species; 2) a SNPs profiling in the transcriptome of two cattle breeds aimed to produce an extensive catalogue of SNPs; 3) the genome sequencing, the assembly and annotation of the genome of a Lactobacillus plantarum strain showing probiotic properties.
Giannini, Simone. "Strumenti statistici per elaborazione dati su sequenziamenti di genoma umano." Bachelor's thesis, Alma Mater Studiorum - Università di Bologna, 2016. http://amslaurea.unibo.it/12059/.
Full textDENTI, LUCA. "Algorithms for analyzing genetic variability from Next-Generation Sequencing data." Doctoral thesis, Università degli Studi di Milano-Bicocca, 2020. http://hdl.handle.net/10281/263551.
Full textDNA contains the genetic information that is essential for the correct development of any organism. Being able to investigate DNA is of utmost importance for analyzing the reasons behind diseases and for improving the quality of life. Development of DNA sequencing technologies has revolutionized the way this kind of investigation is performed. Due to the huge amount of sequencing data available, nowadays computer science plays a key role in their analysis. Luckily, in many applications, the biological information contained in a DNA molecule can be represented as a string in which each character represents a nucleotide. Strings are a well-known and well-studied notion in computer science and therefore it is possible to exploit the huge literature related to storing and processing strings for improving the analysis of DNA. Within this context, this thesis focuses on two specific problems arising from the analysis of sequencing data: the study of transcript variability due to alternative splicing and the investigation of genetic variability among different individuals due to small variations such as Single Nucleotide Polymorphisms and indels. Regarding both these problems, we investigate two novel computational approaches by devising original strategies and we prove their efficacy by comparing them with the most used state-of-the-art approaches. In both these areas, our focus is on the development of bioinformatics tools that combine accurate algorithms with efficient data structures. The first problem we tackle is the detection of alternative splicing events from RNA-Seq data. Alternative splicing plays an important role in many different life aspects, from the correct evolution of an individual to the development of diseases. Differently from current techniques that rely on the reconstruction of transcripts or on the spliced alignment of RNA-Seq reads against a reference genome, we investigate an alternative algorithmic approach that exploits the novel notion of alignment against a splicing graph. We implemented such an approach in a tool, called ASGAL, that aligns a RNA-Seq sample against the splicing graph of a gene and then detects the alternative splicing events supported by the sample by comparing the alignments with the gene annotation. ASGAL is the first tool that aligns reads against a splicing graph and that is able to detect novel alternative splicing events even when only a single transcript per gene is supported by the sample. The results of our experiments show the usefulness of aligning reads against a splicing graph and prove the ability of the proposed approach in detecting alternative splicing events. The second problem we tackle is the genotyping of a set of known Single Nucleotide Polymorphisms and indels from sequencing data. An in-depth analysis of these variants allows to understand genetic variability among different individuals of a population and their genetic risks factors for diseases. Standard pipelines for variant discovery and genotyping include read alignment, a computationally expensive procedure that is too time consuming for typical clinical applications. When variant discovery is not desired, it is possible to avoid read alignment by genotyping only the set of known variants that are already established to be of medical relevance. To solve this problem, we devised a novel alignment-free algorithmic approach and we implemented it in a bioinformatic tool, called MALVA. MALVA is the first alignment-free approach that is able to genotype SNPs, indels, and multi-allelic variants. Thanks to its alignment-free strategy, MALVA requires one order of magnitude less time than alignment-based pipelines to genotype a donor individual while achieving similar accuracy. Remarkably, on indels it provides even better results than the most widely adopted approaches.
Bombonato, Juliana Rodrigues. "Dados filogenômicos para inferência de relações evolutivas entre espécies do gênero Cereus Mill. (Cactaceae, Cereeae)." Universidade de São Paulo, 2018. http://www.teses.usp.br/teses/disponiveis/59/59139/tde-08062018-160032/.
Full textPhylogenomics studies using Next Generation Sequencing (NGS) are becoming increasingly common. The use of Double Digest Restriction Site Associated DNA Sequencing (ddRADSeq) markers to this end is promising, at least considering its cost-effectiveness in large datasets of non-model groups as well as the genome-wide representation recovered in the data. Here we used ddRADSeq to infer the species level phylogeny of genus Cereus (Cactaceae). This genus comprises about 25 species recognized predominantly South American species distributed into four subgenera. Our sample includes representatives of Cereus, in addition to species from the closely allied genera Cipocereus and Praecereus, besides outgroups. The ddRADSeq library was prepared using EcoRI and HPAII enzymes. After the quality control (fragments size and quantification) the library was sequenced in Illumina HiSeq 2500. The bioinformatic processing on raw FASTQ files included adapter trimming, quality filtering (FastQC, MultiQC and SeqyClean softwares) and SNPs calling (iPyRAD software). Three scenarios of permissiveness to missing data were carry out in iPyRAD, recovering datasets with 333 (up tp 40% missing data), 1440 (up to 60% missing data) and 6141 (up to 80% missing data) loci. For each dataset, Maximum Likelihood (ML) trees were generated using two supermatrices: SNPs linked and Loci. In general, we observe few inconsistences between ML trees generated in distinct softwares (IQTree and RaxML) or based in distinctive matrix type (SNP linked and Loci). On the other hand, the accuracy and resolution were improved using the larger dataset (up to 80% missing data). Overall, we present a phylogeny with unprecedent resolution for genus Cereus, which was resolved as a likely monophyletic group, composed by four main clades and with high support in their internal relationships. Further, our data contributes to aggregate information on the debate about to increasing missing data to conduct phylogenetic analysis with RAD loci.
Alic, Andrei Stefan. "Improved Error Correction of NGS Data." Doctoral thesis, Universitat Politècnica de València, 2016. http://hdl.handle.net/10251/67630.
Full text[ES] El trabajo realizado en el marco de esta tesis doctoral se centra en la corrección de errores en datos provenientes de técnicas NGS utilizando técnicas de computación intensiva. Debido a la reducción de costes y el incremento en las prestaciones de los secuenciadores, la cantidad de datos disponibles en NGS se ha incrementado notablemente. La utilización de computadores en el análisis de estas muestras se hace imprescindible para poder dar respuesta a la avalancha de información generada por estas técnicas. El uso de NGS transciende la investigación con numerosos ejemplos de uso clínico y agronómico, por lo que aparecen nuevas necesidades en cuanto al tiempo de proceso y la fiabilidad de los resultados. Para maximizar su aplicabilidad clínica, las técnicas de proceso de datos de NGS deben acelerarse y producir datos más precisos. En este contexto es en el que las técnicas de comptuación intensiva juegan un papel relevante. En la actualidad, es común disponer de computadores con varios núcleos de proceso e incluso utilizar múltiples computadores mediante técnicas de computación paralela distribuida. Las tendencias actuales hacia arquitecturas con un mayor número de núcleos ponen de manifiesto que es ésta una aproximación relevante. Esta tesis comienza con un análisis de los problemas fundamentales del proceso de datos en NGS de forma general y adaptado para su comprensión por una amplia audiencia, a través de una exhaustiva revisión del estado del arte en la corrección de datos de NGS. Esta revisión introduce gradualmente al lector en las técnicas de secuenciación masiva, presentando problemas y aplicaciones reales de las técnicas de NGS, destacando el impacto de esta tecnología en ciencia. De este estudio se concluyen dos ideas principales: La necesidad de analizar de forma adecuada las características de los datos de NGS, atendiendo a la enorme variedad intrínseca que tienen las diferentes técnicas de NGS; y la necesidad de disponer de una herramienta versátil, eficiente y precisa para la corrección de errores. En el contexto del análisis de datos, la tesis presenta MuffinInfo. La herramienta MuffinInfo es una aplicación software implementada mediante HTML5. MuffinInfo obtiene información relevante de datos crudos de NGS para favorecer el entendimiento de sus características y la aplicación de técnicas de corrección de errores, soportando además la extensión mediante funciones que implementen estadísticos definidos por el usuario. MuffinInfo almacena los resultados del proceso en ficheros JSON. Al usar HTML5, MuffinInfo puede funcionar en casi cualquier entorno hardware y software. La herramienta está implementada aprovechando múltiples hilos de ejecución por la gestión del interfaz. La segunda conclusión del análisis del estado del arte nos lleva a la oportunidad de aplicar de forma extensiva técnicas de computación de altas prestaciones en la corrección de errores para desarrollar una herramienta que soporte múltiples tecnologías (Illumina, Roche 454, Ion Torrent y experimentalmente PacBio). La herramienta propuesta (MuffinEC), soporta diferentes tipos de errores (sustituciones, indels y valores desconocidos). MuffinEC supera los resultados obtenidos por las herramientas existentes en este ámbito. Ofrece una mejor tasa de corrección, en un tiempo muy inferior y utilizando menos recursos, lo que facilita además su aplicación en muestras de mayor tamaño en computadores convencionales. MuffinEC utiliza una aproximación basada en etapas multiples. Primero agrupa todas las secuencias utilizando la métrica de los k-mers. En segundo lugar realiza un refinamiento de los grupos mediante el alineamiento con Smith-Waterman, generando contigs. Estos contigs resultan de la corrección por columnas de atendiendo a la frecuencia individual de cada base. La tesis se estructura por capítulos cuya base ha sido previamente publicada en revistas indexadas en posiciones dest
[CAT] El treball realitzat en el marc d'aquesta tesi doctoral se centra en la correcció d'errors en dades provinents de tècniques de NGS utilitzant tècniques de computació intensiva. A causa de la reducció de costos i l'increment en les prestacions dels seqüenciadors, la quantitat de dades disponibles a NGS s'ha incrementat notablement. La utilització de computadors en l'anàlisi d'aquestes mostres es fa imprescindible per poder donar resposta a l'allau d'informació generada per aquestes tècniques. L'ús de NGS transcendeix la investigació amb nombrosos exemples d'ús clínic i agronòmic, per la qual cosa apareixen noves necessitats quant al temps de procés i la fiabilitat dels resultats. Per a maximitzar la seua aplicabilitat clínica, les tècniques de procés de dades de NGS han d'accelerar-se i produir dades més precises. En este context és en el que les tècniques de comptuación intensiva juguen un paper rellevant. En l'actualitat, és comú disposar de computadors amb diversos nuclis de procés i inclús utilitzar múltiples computadors per mitjà de tècniques de computació paral·lela distribuïda. Les tendències actuals cap a arquitectures amb un nombre més gran de nuclis posen de manifest que és esta una aproximació rellevant. Aquesta tesi comença amb una anàlisi dels problemes fonamentals del procés de dades en NGS de forma general i adaptat per a la seua comprensió per una àmplia audiència, a través d'una exhaustiva revisió de l'estat de l'art en la correcció de dades de NGS. Esta revisió introduïx gradualment al lector en les tècniques de seqüenciació massiva, presentant problemes i aplicacions reals de les tècniques de NGS, destacant l'impacte d'esta tecnologia en ciència. D'este estudi es conclouen dos idees principals: La necessitat d'analitzar de forma adequada les característiques de les dades de NGS, atenent a l'enorme varietat intrínseca que tenen les diferents tècniques de NGS; i la necessitat de disposar d'una ferramenta versàtil, eficient i precisa per a la correcció d'errors. En el context de l'anàlisi de dades, la tesi presenta MuffinInfo. La ferramenta MuffinInfo és una aplicació programari implementada per mitjà de HTML5. MuffinInfo obté informació rellevant de dades crues de NGS per a afavorir l'enteniment de les seues característiques i l'aplicació de tècniques de correcció d'errors, suportant a més l'extensió per mitjà de funcions que implementen estadístics definits per l'usuari. MuffinInfo emmagatzema els resultats del procés en fitxers JSON. A l'usar HTML5, MuffinInfo pot funcionar en gairebé qualsevol entorn maquinari i programari. La ferramenta està implementada aprofitant múltiples fils d'execució per la gestió de l'interfície. La segona conclusió de l'anàlisi de l'estat de l'art ens porta a l'oportunitat d'aplicar de forma extensiva tècniques de computació d'altes prestacions en la correcció d'errors per a desenrotllar una ferramenta que suport múltiples tecnologies (Illumina, Roche 454, Ió Torrent i experimentalment PacBio). La ferramenta proposada (MuffinEC), suporta diferents tipus d'errors (substitucions, indels i valors desconeguts). MuffinEC supera els resultats obtinguts per les ferramentes existents en este àmbit. Oferix una millor taxa de correcció, en un temps molt inferior i utilitzant menys recursos, la qual cosa facilita a més la seua aplicació en mostres més gran en computadors convencionals. MuffinEC utilitza una aproximació basada en etapes multiples. Primer agrupa totes les seqüències utilitzant la mètrica dels k-mers. En segon lloc realitza un refinament dels grups per mitjà de l'alineament amb Smith-Waterman, generant contigs. Estos contigs resulten de la correcció per columnes d'atenent a la freqüència individual de cada base. La tesi s'estructura per capítols la base de la qual ha sigut prèviament publicada en revistes indexades en posicions destacades de l'índex del Journal of Citation Repor
Alic, AS. (2016). Improved Error Correction of NGS Data [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/67630
TESIS
Spáčil, Michael. "Zálohování dat a datová úložiště." Master's thesis, Vysoké učení technické v Brně. Fakulta podnikatelská, 2021. http://www.nusl.cz/ntk/nusl-444686.
Full textHriadeľ, Ondřej. "Návrh a implementace plánu zálohování dat společnosti." Master's thesis, Vysoké učení technické v Brně. Fakulta podnikatelská, 2019. http://www.nusl.cz/ntk/nusl-399540.
Full textJaníček, Libor. "Zálohování dat a datová úložiště." Master's thesis, Vysoké učení technické v Brně. Fakulta podnikatelská, 2020. http://www.nusl.cz/ntk/nusl-417707.
Full textChen, Dao-Peng. "Statistical power for RNA-seq data to detect two epigenetic phenomena." The Ohio State University, 2013. http://rave.ohiolink.edu/etdc/view?acc_num=osu1357248975.
Full textSAGGESE, IGOR. "NGS data analysis approaches for clinical applications." Doctoral thesis, Università del Piemonte Orientale, 2017. http://hdl.handle.net/11579/86924.
Full textOtto, Raik. "Distance-based methods for the analysis of Next-Generation sequencing data." Doctoral thesis, Humboldt-Universität zu Berlin, 2021. http://dx.doi.org/10.18452/23267.
Full textThe analysis of NGS data is a central aspect of modern Molecular Genetics and Oncology. The first scientific contribution is the development of a method which identifies Whole-exome-sequenced CCL via the quantification of a distance between their sets of small genomic variants. A distinguishing aspect of the method is that it was designed for the computer-based identification of NGS-sequenced CCL. An identification of an unknown CCL occurs when its abstract distance to a known CCL is smaller than is expected due to chance. The method performed favorably during benchmarks but only supported the Whole-exome-sequencing technology. The second contribution therefore extended the identification method by additionally supporting the Bulk mRNA-sequencing technology and Panel-sequencing format. However, the technological extension incurred predictive biases which detrimentally affected the quantification of abstract distances. Hence, statistical methods were introduced to quantify and compensate for confounding factors. The method revealed a heterogeneity-robust benchmark performance at the trade-off of a slightly reduced sensitivity compared to the Whole-exome-sequencing method. The third contribution is a method which trains Machine-Learning models for rare and diverse cancer types. Machine-Learning models are subsequently trained on these distances to predict clinically relevant characteristics. The performance of such-trained models was comparable to that of models trained on both the substituted neoplastic data and the gold-standard biomarker Ki-67. No proliferation rate-indicative features were utilized to predict clinical characteristics which is why the method can complement the proliferation rate-oriented pathological assessment of biopsies. The thesis revealed that the quantification of an abstract distance can address sources of erroneous NGS data analysis.
Qiao, Dandi. "Statistical Approaches for Next-Generation Sequencing Data." Thesis, Harvard University, 2012. http://dissertations.umi.com/gsas.harvard:10689.
Full textPrieto, Barja Pablo 1986. "NGS applications in genome evolution and adaptation : A reproducible approach to NGS data analysis and integration." Doctoral thesis, Universitat Pompeu Fabra, 2017. http://hdl.handle.net/10803/565601.
Full textEn aquest doctorat he utilitzat tecnologies NGS en diferents organismes i projectes com l'ENCODE, comparant la conservació i evolució de seqüències de RNA llargs no codificant entre el ratolí i l'humà, utilitzant evidències experimentals del genoma, transcriptoma i cromatina. He seguit una estratègia similar en altres organismes com són la mongeta mesoamericana i el pollastre. En altres anàlisis he hagut d'utilitzar dades NGS en l'estudi del conegut paràsit leishmània Donovani, l'agent causatiu de la malaltia Leishmaniosis. Utilitzant dades NGS obtingudes del genoma i transcriptoma he estudiat les conseqüències del genoma en estratègies d'adaptació i evolució a llarg termini. Aquest treball es va realitzar mentre treballava en eines i estratègies per dissenyar eficientment i implementar els anàlisis bioinformàtics coneguts com a diagrames de treball, per tal de fer-los fàcils d'utilitzar, fàcilment realitzables, accessibles i amb un alt rendiment. Aquest treball present diverses estratègies per tal d'evitar la falta de reproductibilitat i consistència en la investigació científica amb aplicacions reals a la biologia de l'anàlisi de seqüències i evolució de genomes.
Ranciati, Saverio <1988>. "Statistical modelling of spatio-temporal dependencies in NGS data." Doctoral thesis, Alma Mater Studiorum - Università di Bologna, 2016. http://amsdottorato.unibo.it/7680/1/thesis_ranciati_saverio.pdf.
Full textRanciati, Saverio <1988>. "Statistical modelling of spatio-temporal dependencies in NGS data." Doctoral thesis, Alma Mater Studiorum - Università di Bologna, 2016. http://amsdottorato.unibo.it/7680/.
Full textKavánková, Iva. "Zálohování dat a datová úložiště." Master's thesis, Vysoké učení technické v Brně. Fakulta podnikatelská, 2021. http://www.nusl.cz/ntk/nusl-444687.
Full textRusso, A. "DIET-SPECIFIC EPIGENETIC SIGNATURE REVEALED BY H3K4ME3 AND H3K27ME3 DATA ANALYSIS IN C57BL6 MICE." Doctoral thesis, Università degli Studi di Milano, 2016. http://hdl.handle.net/2434/365343.
Full textRobitaille, Alexis. "Detection and identification of papillomavirus sequences in NGS data of human DNA samples : a bioinformatic approach." Thesis, Lyon, 2019. http://www.theses.fr/2019LYSE1358.
Full textHuman Papillomaviruses (HPV) are a family of small double-stranded DNA viruses that have a tropism for the mucosal and cutaneous epithelia. More than 200 types of HPV have been discovered so far and are classified into several genera based on their DNA sequence. Due to the role of some HPV types in human disease, ranging from benign anogenital warts to cancer, methods to detect and characterize HPV population in DNA sample have been developed. These detection methods are needed to clarify the implications of HPV at the various stages of the disease. The detection of HPV from targeted wet-lab approaches has traditionally used PCR- based methods coupled with cloning and Sanger sequencing. With the introduction of next generation sequencing (NGS) these approaches can be improved by integrating the sequencing power of NGS. While computational tools have been developed for metagenomic approaches to search for known or novel viruses in NGS data, no appropriate bioinformatic tool has been available for the classification and identification of novel viral sequences from data produced by amplicon-based methods. In this thesis, we initially describe five fully reconstructed novel HPV genomes detected from skin samples after amplification using degenerate L1 primers. Then, is the second part, we present PVAmpliconFinder, a data analysis workflow designed to rapidly identify and classify known and potentially new Papillomaviridae sequences from NGS amplicon sequencing with degenerate PV primers. This thesis describes the features of PVAmpliconFinder and presents several applications using biological data obtained from amplicon sequencing of human specimens, leading to the identification of new HPV types
Chen, Xi. "Bayesian Integration and Modeling for Next-generation Sequencing Data Analysis." Diss., Virginia Tech, 2016. http://hdl.handle.net/10919/71706.
Full textPh. D.
Favero, Francesco. "Development of two new approaches for NGS data analysis of DNA and RNA molecules and their application in clinical and research fields." Doctoral thesis, Università del Piemonte Orientale, 2019. http://hdl.handle.net/11579/102446.
Full textWan, Mohamad Nazarie Wan Fahmi Bin. "Network-based visualisation and analysis of next-generation sequencing (NGS) data." Thesis, University of Edinburgh, 2017. http://hdl.handle.net/1842/28923.
Full textAlmost all participants of this usability test agree that this application would encourage biologists to visualise and understand the alternative splicing together with existing tools. The participants agreed that Sashimi plots rather difficult to view and visualise and perhaps would lose something interesting features. However, there were also reviews of this application that need improvements such as the capability to analyse big network in a short time, side-by-side analysis of network with Sashimi plot and Ensembl. Additional information of the network would be necessary to improve the understanding of the alternative splicing. In conclusion, this work demonstrates the utility of network visualisation of RNAseq data, where the unusual structure of these networks can be used to identify issues in assembly, repetitive sequences within transcripts and splice variation. As such, this approach has the potential to significantly improve our understanding of transcript complexity. Overall, this thesis demonstrates that network-based visualisation provides a new and complementary approach to characterise alternative splicing from RNA-seq data and has the potential to be useful for the analysis and interpretation of other kinds of sequencing data.
Dwivedi, Ankit. "Functional analysis of genomic variations associated with emerging artemisinin resistant P. falciparum parasite populations and human infecting piroplasmida B. microti." Thesis, Montpellier, 2016. http://www.theses.fr/2016MONTT073/document.
Full textThe undergoing WHO Malaria elimination program is threatened by the emergenceand potential spread of the Plasmodium falciparum artemisinin resistant parasite.Recent reports have shown (a) SNPs in region of chromosome 13 to be understrong recent positive selection in Cambodia, (b) presence of P. falciparum parasiteresistant and sensitive subpopulations in Cambodia, (c) the evidence that mutationsin the Kelch propeller domain of the k13 gene are major determinants ofartemisinin resistance in Cambodian parasite population and (d) parasite subpopulations in Northern Cambodia near Thailand and Laos with mefloquine drugresistance and carrying R539T allele of the k13 gene.Identifying the genetic basis of resistance is important to monitor and control thetransmission of resistant parasites and to understand parasite metabolism for the development of new drugs. This thesis focuses on analysis of P. falciparum population structure in Cambodia and description of metabolic properties of these subpopulations and gene flow among them. This could help in identifying the genetic evidence associated to transmission and acquisition of artemisinin resistance over the country.First, a barcode approach was used to identify parasite subpopulations using smallnumber of loci. A mid-throughput PCR-LDR-FMA approach based on LUMINEXtechnology was used to screen for SNPs in 537 blood samples (2010 - 2011) from 16health centres in Cambodia. Based on successful typing of 282 samples, subpopulations were characterized along the borders of the country. Gene flow was described based on the gradient of alleles at the 11 loci in the barcode. The barcode successfully identifies recently emerging parasite subpopulations associated to artemisinin and mefloquine resistance.In the second approach, the parasite population structure was defined based on167 parasite NGS genomes (2008 - 2011) originating from four locations in Cambodia,recovered from the ENA database. Based on calling of 21257 SNPs, eight parasite subpopulations were described. Presence of admixture parasite subpopulation couldbe supporting artemisinin resistance transmission. Functional analysis based on significant genes validated similar background for resistant isolates and revealed PI3K pathway in resistant populations supporting acquisition of resistance by assisting the parasite in ring stage form.Our findings question the origin and the persistence of the P. falciparum subpopulations in Cambodia, provide evidence of gene flow among subpopulations anddescribe a model of artemisinin resistance acquisition.The variant calling approach was also implemented on the Babesia microti genome.This is a malaria like syndrome, and is endemic in the North-Eastern USA. Theobjective was to validate the taxonomic position of B. microti as out-group amongpiroplasmida and improve the functional genome annotation based on genetic variation, gene expression and protein antigenicity. We identified new proteins involved in parasite host interactions
Batra, Rajbir Nath. "Decoding the regulatory role and epiclonal dynamics of DNA methylation in 1482 breast tumours." Thesis, University of Cambridge, 2018. https://www.repository.cam.ac.uk/handle/1810/274923.
Full textSchipani, Angela <1994>. "Comprehensive characterization of SDH-deficient GIST using NGS data and iPSC models." Doctoral thesis, Alma Mater Studiorum - Università di Bologna, 2022. http://amsdottorato.unibo.it/10190/1/Schipani_Angela_thesis.pdf.
Full textCaniato, Elisa. "Development and Application of New Strategies for Genome Scaffolding and Gene Predictio applied to NGS data." Doctoral thesis, Università degli studi di Padova, 2011. http://hdl.handle.net/11577/3422022.
Full textLa commercializzazione delle nuove tecnologie di sequenziamento (NGS, Next Generation Sequencing), ha avuto un grande impatto sia a livello economico sia biologico, grazie alla significativa riduzione dei tempri di produzione e dei costi, e all’aumento della quantità di dati ottenuti. Le nuove tecniche di sequenziamento hanno permesso di ricreare il genoma di migliaia di organismi, sia piccoli come i microbi, sia grandi come il genoma umano, aprendo nuove aree di ricerca. Ad esempio, ora è possibile studiare il DNA antico, fare ricerca su malattie genetiche, studiare caratteristiche e differenze evolutive tra organismi,... I nuovi metodi si possono applicare a tre campi principali: genomico (come l’assemblaggio dei genomi, la ricerca di SNPs e variazioni strutturali), trascrittomico (per eseguire la predizione genica, l’annotazione e lo studio di splicing alternativi) ed epigenetico. I sequenziatori di nuova generazione hanno apportato cambiamenti anche a livello bioinformatico. Infatti, con l’acquisizione di moli di dati sempre più grandi, si è reso necessario affrontare il problema della loro gestione dal punto di vista sia di tempo computazionale per analizzarli sia di memoria richiesta per immagazzinarli. Inoltre, si è resa necessaria l’implementazione di strumenti in grado di elaborare i dati grezzi ottenuti, per trasformali in utili informazioni da applicare nelle analisi biologiche. Attualmente le tre piattaforme di sequenziamento più utilizzate sono Roche/454 , Illumina/Solexa Genome Analyzer, e Applied Biosystems SOLiDTM. Il primo sequenziatore ad essere commercializzato nel 2005 fu il 454. Si basa su tecniche di sequenziamento innovative (pyrosequencing) ed è in grado di produrre sequenze lunghe 300-400 basi, con una buona qualità media. Tuttavia il 454 non raggiunge i livelli di produzione di altri sequenziatori, come SOLiD ed Illumina, che in poco tempo sono in grado di produrre milioni di sequenze, anche se di dimensioni minori (circa 50 e 70 basi rispettivamente per SOLiD e Illumina). L’idea del mio dottorato è di applicare le conoscenze matematiche ed informatiche allo studio di nuove tecniche per l’utilizzo dei dati di nuova generazione in problemi biologici. Lo scopo è di sviluppare dei programmi in grado di elaborare grandi quantità di dati in poco tempo. Con la mia ricerca ho collaborato all’implementazione di metodi per la risoluzione di problemi di assemblaggio e di predizione genica. Il sequenziamento de novo e successivamente l’assemblaggio sono un punto fondamentale per l’analisi del genoma di un organismo. Attualmente il problema dell’assemblaggio è un problema ancora aperto e ampiamente studiato: non esistono ancora programmi in grado di ricostruire un genoma completo partendo da reads prodotte con un sequenziamento di nuova generazione. Esistono software come Newbler, Velvet e Cabog che producono lunghi frammenti di sequenza (contigs), ma tra loro disgiunti e di cui non si conosce la corretta posizione occupata all’interno del genoma d’origine. Alla maggior parte dei programmi manca una fase di “scaffolding” e “finishing”, in cui tutti i frammenti prodotti con l’assemblaggio vengono ordinati e orientati, creando gli scaffolds. Il mio scopo era di realizzare un metodo di scaffolding, Consort, e di analisi per il miglioramento dell’assemblaggio ottenuto. Il programma richiede come dati di input un insieme di contigs prodotti assemblando le reads 454 con il Newbler, e un insieme di mate-pairs generati con il SOLiD. La predizione genica è stata la mia seconda area di ricerca. E’ un problema ben studiato e negli anni moltissimi programmi sono stati sviluppati per predire efficientemente i geni contenuti in un genoma. Tra questi i più utilizzati e conosciuti sono: Jigsaw, GeneID, GeneSplice, Genscan, Glimmer, SNAP, TigrScan, Twinscan. La maggior parte dei software richiede un insieme di dati di allenamento dal quale apprendere le caratteristiche per eseguire la successiva predizione, che molto spesso non sono disponibili. Pertanto, si devono creare a partire da genomi simili. Tuttavia, questa soluzione non è sempre applicabile, anche se molto spesso lavora bene e permette di ottenere buon risultati. Infatti, se l’organismo studiato è nuovo e non se ne conoscono altri di abbastanza vicini, si rischia di non avere i i dati richiesti. La mia ricerca in quest’area si applica allo sviluppo di un metodo di creazione di un insieme di dati di allenamento a partire da sequenze di trascriptoma dello stesso organismo. L’idea è di allineare le reads prodotte sul genoma e di estrarre tutte le regioni individuate, che sono potenziali geni. L’algoritmo implementato ha mostrato la possibilità di ricavare insieme di dati sicuri con questa tecnica. Tuttavia, il metodo è soggetto alla predizione di molti falsi positivi a causa dell’elevato rumore di fondo. Per evitare di creare un training set poco affidabile, è preferibile essere molto stringenti nei criteri di selezione dei geni.
SANDIONIGI, ANNA. "Biodiversity in the era of big data. On the problem of taxonomy assignment and the distribution of diversity in complex biological systems." Doctoral thesis, Università degli Studi di Milano-Bicocca, 2014. http://hdl.handle.net/10281/81694.
Full textTrebulová, Debora. "Zálohování dat a datová úložiště." Master's thesis, Vysoké učení technické v Brně. Fakulta podnikatelská, 2017. http://www.nusl.cz/ntk/nusl-318599.
Full textBERETTA, STEFANO. "Algorithms for next generation sequencing data analysis." Doctoral thesis, Università degli Studi di Milano-Bicocca, 2013. http://hdl.handle.net/10281/42355.
Full textGomes, Ana Rita Silva. "Inovação e exportação nas PME's e nas grandes empresas." Master's thesis, Instituto Superior de Economia e Gestão, 2010. http://hdl.handle.net/10400.5/3387.
Full textO presente estudo faz a análise dos principais factores explicativos das exportações e da despesa em investigação e desenvolvimento (I&D) das PME´s e das grandes empresas a operar em Portugal, para o período 2004-2008. A partir de uma amostra constituída por 200 PME´s e por 30 grandes empresas exportadoras o estudo utiliza dados de painel e os estimadores de efeitos fixos e efeitos aleatórios para estimar os efeitos sobre as exportações e sobre a despesa em I&D. Em relação às exportações, o estudo conclui pelo efeito positivo do aumento da produtividade e da despesa em I&D tanto nas PME´s como nas grandes empresas e que as PME´s estrangeiras exportam mais que as PME´s nacionais. Quanto às determinantes da despesa em I&D o estudo conclui que o aumento dos capitais próprios e dos resultados líquidos tem um efeito positivo sobre as despesas em I&D nas grandes empresas ao passo que nas PME´s é o aumento das exportações que leva ao aumento das despesas em I&D, tendo o aumento dos resultados líquidos um efeito negativo.
This study analyses the main determinants of exports and research and development (R&D) expenses of small and medium enterprises (SME) and large companies operating in Portugal during the period 2004-2008. From a sample of 200 SMEs and 30 major exporting companies, the study uses a panel data analysis and fixed-effects and random-effects estimators to estimate the effects on exports and on R & D. Regarding exports, the study found a positive effect in terms of increased productivity and R & D in both SMEs and large companies. The results also suggest that SMEs that are owned by foreign enterprises export more than national SMEs. In relation to the determinants of spending on R & D, the study concludes that the increase in equity and net income has a positive effect on R & D spending in large companies, while in SMEs, increased expenditure on R & D is a consequence of increasing exports, whereas the increase in net income has a negative effect on R & D.
Carraro, Marco. "Development of bioinformatics tools to predict disease predisposition from Next Generation Sequencing (NGS) data." Doctoral thesis, Università degli studi di Padova, 2018. http://hdl.handle.net/11577/3426807.
Full textIl completamento del progetto genoma umano ha aperto numerosi nuovi orizzonti di ricerca. Tra questi, la possibilità di conoscere le basi genetiche che rendono ogni individuo suscettibile alle diverse malattie ha aperto la strada ad una nuova rivoluzione: l’avvento della medicina personalizzata. Le tecnologie di sequenziamento del DNA hanno subito una notevole evoluzione, ed oggi il prezzo per sequenziare un genoma è ormai prossimo alla soglia psicologica dei $ 1 000. La promessa di identificare varianti genetiche che influenzano il nostro stile di vita e che ci rendono suscettibili alle malattie sta quindi diventando realtà. Tuttavia, molto lavoro è ancora necessario perché questo nuovo tipo di medicina possa trasformarsi in realtà. In particolare la sfida oggi non è più data dalla generazione dei dati di sequenziamento, ma è rappresentata invece dalla loro interpretazione. L'obiettivo del mio progetto di dottorato è lo sviluppo di metodi bioinformatici per predire la predisposizione a patologie, a partire da dati di sequenziamento. Molti di questi metodi sono stati testati nel contesto del Critical Assessment of Genome Interpretation (CAGI), una competizione internazionale focalizzata nel definire lo stato dell’arte per l’interpretazione del genoma, ottenendo sempre buoni risultati. Durante il mio progetto di dottorato ho avuto l'opportunità di affrontare l’intero spettro delle sfide che devono essere gestite per tradurre le nuove capacità di sequenziamento del genoma in pratica clinica. Uno dei problemi principali che si devono gestire quando si ha a che fare con dati di sequenziamento è l'interpretazione della patogenicità delle mutazioni. Decine di predittori sono stati creati per separare varianti neutrali dalle mutazioni che possono essere causa di un fenotipo patologico. In questo contesto il problema del benchmarking è fondamentale, in quanto le prestazioni di questi tool sono di solito testate su diversi dataset di varianti, rendendo impossibile un confronto di performance. Per affrontare questo problema, una comparazione dell’accuratezza di questi predittori è stata effettuata su un set di mutazioni con fenotipo ignoto nel contesto del CAGI, realizzando la valutazione per predittori di patogenicità più completa tra tutte le edizioni di questo esperimento collaborativo. La previsione di fenotipi a partire da dati di sequenziamento è un'altra sfida che deve essere affrontata per realizzare le promesse della medicina personalizzata. Durante il mio dottorato ho avuto l'opportunità di sviluppare diversi predittori per fenotipi complessi utilizzando dati provenienti da pannelli genici ed esomi. In questo contesto sono stati affrontati problemi come errori di interpretazione o la sovra interpretazione della patogenicità della varianti, come nel caso della sfida focalizzata sulla predizione di fenotipi a partire dall’Hopkins Clinical Panel. Sono inoltre emersi altri problemi complementari alla previsione di fenotipo, come per esempio la possibile presenza di risultati accidentali. Specifiche strategie di predizione sono state definite lavorando con diversi tipi di dati di sequenziamento. Un esempio è dato dal morbo di Crohn. Tre edizioni del CAGI hanno proposto la sfida di identificare individui sani o affetti da questa patologia infiammatoria utilizzando unicamente dati di sequenziamento dell’esoma. L'analisi dei dataset ha rivelato come la presenza di struttura di popolazione e problemi nella preparazione e sequenziamento degli esomi abbiano compromesso le predizioni per questo fenotipo, generando una sovrastima delle performance di predizione. Tenendo in considerazione questo dato è stata definita una strategia di predizione completamente nuova per questo fenotipo, testata in occasione dell'ultima edizione del CAGI. Dati provenienti da studi di associazione GWAS e l’analisi delle reti di interazione proteica sono stati utilizzati per definire liste di geni coinvolti nell’insorgenza della malattia. Buone performance di predizione sono state ottenute in particolare per gli individui a cui era stata assegnata una elevata probabilità di essere affetti. In ultima istanza, il mio lavoro è stato focalizzato sulla predizione di gruppi sanguigni, sempre a partire da dati di sequenziamento. L'accuratezza dei test sierologici, infatti, è ridotta in caso di gruppi di sangue minori o fenotipi deboli. Incompatibilità per tali gruppi sanguigni possono essere critiche per alcune classi di individui, come nel caso dei pazienti oncoematologici. La nostra strategia di predizione ha sfruttato i dati genotipici per geni che codificano per gruppi sanguigni, presenti in database dedicati, e il principio di nearest neighbour per effettuare le predizioni. L’accuratezza del nostro metodo è stata testata sui sistemi ABO e RhD ottenendo buone performance di predizione. Inoltre le nostre analisi hanno aperto la strada ad un ulteriore aumento delle prestazioni per questo tool.
Tominaga, Sacomoto Gustavo Akio. "Efficient algorithms for de novo assembly of alternative splicing events from RNA-seq data." Phd thesis, Université Claude Bernard - Lyon I, 2014. http://tel.archives-ouvertes.fr/tel-01015506.
Full textBarcelona, Cabeza Rosa. "Genomics tools in the cloud: the new frontier in omics data analysis." Doctoral thesis, Universitat Politècnica de Catalunya, 2021. http://hdl.handle.net/10803/672757.
Full textLos avances tecnológicos en la secuenciación de próxima generación (NGS) han revolucionado el campo de la genómica. El aumento de velocidad y rendimiento de las tecnologías NGS de los últimos años junto con la reducción de su coste ha permitido interrogar base por base el genoma humano de una manera eficiente y asequible. Todos estos avances han permitido incrementar el uso de las tecnologías NGS en la práctica clínica para la identificación de variaciones genómicas y su relación con determinadas enfermedades. Sin embargo, sigue siendo necesario mejorar la accesibilidad, el procesamiento y la interpretación de los datos debido a la enorme cantidad de datos generados y a la gran cantidad de herramientas disponibles para procesarlos. Además de la gran cantidad de algoritmos disponibles para el descubrimiento de variantes, cada tipo de variación y de datos requiere un algoritmo específico. Por ello, se requiere una sólida formación en bioinformática tanto para poder seleccionar el algoritmo más adecuado como para ser capaz de ejecutarlo correctamente. Partiendo de esa base, el objetivo de este proyecto es facilitar el procesamiento de datos de secuenciación para la identificación e interpretación de variantes para los no bioinformáticos. Todo ello mediante la creación de flujos de trabajo de alto rendimiento y con una sólida base científica, sin dejar de ser accesibles y fáciles de utilizar, así como de una plataforma sencilla y muy intuitiva para la interpretación de datos. Se ha realizado una exhaustiva revisión bibliográfica donde se han seleccionado los mejores algoritmos con los que crear flujos de trabajo automáticos para el descubrimiento de variantes cortas germinales (SNPs e indels) y variantes estructurales germinales (SV), incluyendo tanto CNV como reordenamientos cromosómicos, de ADN humano moderno. Además de crear flujos de trabajo para el descubrimiento de variantes, se ha implementado un flujo para la optimización in silico de la detección de CNV a partir de datos de WES y TS (isoCNV). Se ha demostrado que dicha optimización aumenta la sensibilidad de detección utilizando solo datos NGS, lo que es especialmente importante para el diagnóstico clínico. Además, se ha desarrollado un flujo de trabajo para el descubrimiento de variantes mediante la integración de datos de WES y RNA-seq (varRED) que ha demostrado aumentar el número de variantes detectadas sobre las identificadas cuando solo se utilizan datos de WES. Es importante señalar que la identificación de variantes no solo es importante para las poblaciones modernas, el estudio de las variaciones en genomas antiguos es esencial para comprender la evolución humana. Por ello, se ha implementado un flujo de trabajo para la identificación de variantes cortas a partir de muestras antiguas de WGS. Dicho flujo se ha aplicado a una mandíbula humana datada entre el 16980-16510 a.C. Las variantes ancestrales allí descubiertas se informaron sin mayor interpretación debido a la baja cobertura de la muestra. Finalmente, se ha implementado GINO para facilitar la interpretación de las variantes identificadas por los flujos de trabajo desarrollados en esta tesis. GINO es una plataforma fácil de usar para la visualización e interpretación de variantes germinales que requiere licencia de uso. Con el desarrollo de esta tesis se ha conseguido implementar las herramientas necesarias para la identificación de alto rendimiento de todos los tipos de variantes germinales, así como de una poderosa plataforma para visualizar dichas variantes de forma sencilla y rápida. El uso de esta plataforma permite a los no bioinformáticos centrarse en interpretar los resultados sin tener que preocuparse por el procesamiento de los datos con la garantía de que estos sean científicamente robustos. Además, ha sentado las bases para en un futuro próximo implementar una plataforma para el completo análisis y visualización de datos genómicos
Bioinformática
Matocha, Petr. "Efektivní hledání překryvů u NGS dat." Master's thesis, Vysoké učení technické v Brně. Fakulta informačních technologií, 2017. http://www.nusl.cz/ntk/nusl-363811.
Full textPadmanabhan, Babu roshan. "Taxano-genomics, a strategy incorporating genomic data into the taxonomic description of human bacteria." Thesis, Aix-Marseille, 2014. http://www.theses.fr/2014AIXM5056.
Full textMy PhD project was to create a pipeline for taxono-genomics for the comparison of multiple bacterial genomes. Secondly I automated the process of assembly (NGS) and annotation using various open source softwares as well as creating in house scripts for the lab. Finally we incorporated the pipeline in describing several bacterial species from out lab. This thesis is subdivided mainly into Taxono-genomics and Microbiogenomics. The reviews in taxono-genomics section, describes about the technological advances in genomics and metagenomics relevant to the field of medical microbiology and describes the strategy taxono-genomics in detail and how polyphasic strategy along with genomic approaches are reformatting the definition of bacterial taxonomy. The articles describes clinically important bacteria, their whole genome sequencing and the genomic, comparative genomic and taxono-genomic studies of these bacteria
Demidov, German 1990. "Methods for detection of germline and somatic copy-number variants in next generation sequencing data." Doctoral thesis, Universitat Pompeu Fabra, 2019. http://hdl.handle.net/10803/668208.
Full textLas variantes en el número de copias genéticas, tanto en estado germinal (CNV) como en somático (CNA), juegan un papel muy importante en muchos rasgos fenotípicos y están frecuentemente relacionadas con una gran variedad enfermedades genéticas y cáncer. Aunque la secuenciación de próxima generación (NGS) permite detectar variantes cortas con una gran precisión, la correcta detección de CNVs a gran escala con datos de secuenciación sigue siendo un gran desafío. En esta tesis, me centro en abordar este problema y describo un nuevo método estadístico para la detección de CNV y CNA englobado en una nueva herramienta llamada ClinCNV. Para el análisis del rendimiento de ClinCNV y demostrar las ventajas de este nuevo algoritmo, comparamos nuestra herramienta con otras existentes en distintos conjuntos de datos. Por otra parte, ClinCNV ya está implementado como parte del sistema de trabajo de diagnóstico en el Instituto de Genética Médica y Genómica Aplicada (IMGAG) en Tuebingen (Alemania). En resumen, ClinCNV tiene el potencial de facilitar el diagnóstico molecular de enfermedades genéticas y cáncer mediante la precisa detección de variantes en el número de copias genéticas.
Pesare, Stefano. "Sistemi di Backup e tecniche di conservazione dei dati digitali." Bachelor's thesis, Alma Mater Studiorum - Università di Bologna, 2018.
Find full textFinotello, Francesca. "Computational methods for the analysis of gene expression from RNA sequencing data." Doctoral thesis, Università degli studi di Padova, 2014. http://hdl.handle.net/11577/3423789.
Full textIl patrimonio genetico di ogni organismo vivente è codificato, sotto forma di DNA, nel genoma. Il genoma è costituito da geni e da sequenze non codificanti e racchiude in sé tutte le informazioni necessarie al corretto funzionamento delle cellule dell'organismo. Le cellule possono accedere a specifiche istruzioni di questo codice tramite un processo chiamato espressione genica, ovvero attivando o disattivando un particolare set di geni e trascrivendo l'informazione necessaria in RNA. L'insieme degli RNA trascritti caratterizza quindi un preciso stato cellulare e può fornire importanti informazioni sui meccanismi coinvolti nella patogenesi di una malattia. Recentemente, una metodologia per il sequenziamento dell'RNA, chiamata RNA-seq, sta rapidamente sostituendo i microarray nello studio dell'espressione genica. Grazie alle proprietà delle tecnologie di sequenziamento su cui è basato, l'RNA-seq permette di misurare il numero di RNA presenti in un campione e al contempo di "leggerne" l'esatta sequenza. In realtà, il sequenziamento produce milioni di sequenze, chiamate "read", che rappresentano piccole stringhe lette da posizioni random degli RNA in input. Le read devono quindi essere mappate con un algoritmo su un genoma di riferimento, in modo da ricostruire una mappa trascrizionale, in cui il numero di read allineate su ciascun gene dà una misura digitale (chiamata "count") del suo livello di espressione. Sebbene a prima vista questa procedura possa sembrare molto semplice, lo schema di analisi integrale è in realtà molto complesso e non ben definito. In questi anni sono stati sviluppati diversi metodi per ciascuna delle fasi di elaborazione, ma non è stata tuttora definita una pipeline di analisi dei dati RNA-seq standardizzata. L'obiettivo principale del mio progetto di dottorato è stato lo sviluppo di una pipeline computazionale per l'analisi di dati RNA-seq, dal pre-processing alla misura dell'espressione genica differenziale. I diversi moduli di elaborazione sono stati definiti e implementati tramite una serie di passi successivi. Inizialmente, abbiamo considerato e ridefinito metodi e modelli per la descrizione e l'elaborazione dei dati, in modo da stabilire uno schema di analisi preliminare. In seguito, abbiamo considerato più attentamente uno degli aspetti più problematici dell'analisi dei dati RNA-seq: la correzione dei bias presenti nei count. Abbiamo dimostrato che alcuni di questi bias possono essere corretti in modo efficace tramite le tecniche di normalizzazione correnti, mentre altri, ad esempio il "length bias", non possono essere completamente rimossi senza introdurre ulteriori errori sistematici. Abbiamo quindi definito e testato un nuovo approccio per il calcolo dei count che minimizza i bias ancora prima di procedere con un'eventuale normalizzazione. Infine, abbiamo implementato la pipeline di analisi completa considerando gli algoritmi più robusti e accurati, selezionati nelle fasi precedenti, e ottimizzato alcun step in modo da garantire stime dell'espressione genica accurate anche in presenza di geni ad alta similarità. La pipeline implementata è stata in seguito applicata ad un caso di studio reale, per identificare i geni coinvolti nella patogenesi dell'atrofia muscolare spinale (SMA). La SMA è una malattia neuromuscolare degenerativa che costituisce una delle principali cause genetiche di morte infantile e per la quale non sono ad oggi disponibili né una cura né un trattamento efficace. Con la nostra analisi abbiamo identificato un insieme di geni legati ad altre malattie del tessuto connettivo e muscoloscheletrico i cui pattern di espressione differenziale correlano con il fenotipo, e che quindi potrebbero rappresentare dei meccanismi protettivi in grado di combattere i sintomi della SMA. Alcuni di questi target putativi sono in via di validazione poiché potrebbero portare allo sviluppo di strumenti efficaci per lo screening diagnostico e il trattamento di questa malattia. Gli obiettivi futuri riguardano l'ottimizzazione della pipeline definita in questa tesi e la sua estensione all'analisi di dati dinamici da "time-series RNA-seq". A questo scopo, abbiamo definito il design di due data set "time-series", uno reale e uno simulato. La progettazione del design sperimentale e del sequenziamento del data set reale, nonché la modellazione dei dati simulati, sono stati parte integrante dell'attività di ricerca svolta durante il dottorato. L'evoluzione rapida e costante che ha caratterizzato i metodi per l'analisi di dati RNA-seq ha impedito fino ad ora la definizione di uno schema di analisi standardizzato e la risoluzione di problematiche legate a diversi aspetti dell'elaborazione, quali ad esempio la normalizzazione. In questo contesto, la pipeline definita in questa tesi e, più in ampiamente, i temi discussi in ciascun capitolo, toccano tutti i diversi aspetti dell'analisi dei dati RNA-seq e forniscono delle linee guida utili a definire un approccio computazionale efficace e robusto.
Sutharzan, Sreeskandarajan. "CLUSTERING AND VISUALIZATION OF GENOMIC DATA." Miami University / OhioLINK, 2019. http://rave.ohiolink.edu/etdc/view?acc_num=miami1563973517163859.
Full textEvenstone, Lauren. "Employing Limited Next Generation Sequence Data for the Development of Genetic Loci of Phylogenetic and Population Genetic Utility." FIU Digital Commons, 2015. http://digitalcommons.fiu.edu/etd/2191.
Full textCamerlengo, Terry Luke. "Techniques for Storing and Processing Next-Generation DNA Sequencing Data." The Ohio State University, 2014. http://rave.ohiolink.edu/etdc/view?acc_num=osu1388502159.
Full text蘇金照 and Kam-chiu Ivan So. "Social workers' and NGOs' attitudes towards using computers in social welfare services." Thesis, The University of Hong Kong (Pokfulam, Hong Kong), 1993. http://hub.hku.hk/bib/B31977467.
Full textDefibaugh, June, and Norman Anderson. "National Guard Data Relay and the LAV Sensor System." International Foundation for Telemetering, 1996. http://hdl.handle.net/10150/611416.
Full textThe Defense Evaluation Support Activity (DESA) is an independent Office of the Secretary of Defense (OSD) activity that provides tailored evaluation support to government organizations. DESA provides quick-response support capabilities and performs activities ranging from studies to large-scale field activities that include deployment, instrumentation, site setup, event execution, analysis and report writing. The National Guard Bureau requested DESA's assistance in the development and field testing of the Light Armored Vehicle (LAV) Sensor Suite (LSS). LSS was integrated by DESA to provide a multi-sensor suite that detects and identifies ground targets on foot or in vehicles with minimal operator workload. The LSS was designed primarily for deployment in high density drug trafficking areas along the northern and southern borders using primarily commercial-off-the-shelf and government-off-the-shelf equipment. Field testing of the system prototype in summer of 1995 indicates that the LSS will provide a significant new data collection and transfer capability to the National Guard in control of illegal drug transfer across the U.S. borders.
Alshatti, Danah Ahmed. "Examining Driver Risk Factors in Road Departure Conflicts Using SHRP2 Data." University of Dayton / OhioLINK, 2018. http://rave.ohiolink.edu/etdc/view?acc_num=dayton152534759506242.
Full textGatton, Tim. "Using Telemetry Front-end Equipment and Network Attached Storage Connected to Form a Real-time Data Recording and Playback System." International Foundation for Telemetering, 2004. http://hdl.handle.net/10150/605316.
Full textThe use of traditional telemetry decommutation equipment can be easily expanded to create a real-time pulse code modulation (PCM) telemetry data recorder. However, there are two areas that create unique demands where architectural investment is required: the PCM output stage and the storage stage. This paper details the efforts to define the requirements and limits of a traditional telemetry system when used as a real-time, multistream PCM data recorder with time tagging.
Ishi, Soares de Lima Leandro. "De novo algorithms to identify patterns associated with biological events in de Bruijn graphs built from NGS data." Thesis, Lyon, 2019. http://www.theses.fr/2019LYSE1055/document.
Full textThe main goal of this thesis is the development, improvement and evaluation of methods to process massively sequenced data, mainly short and long RNA-sequencing reads, to eventually help the community to answer some biological questions, especially in the transcriptomic and alternative splicing contexts. Our initial objective was to develop methods to process second-generation RNA-seq data through de Bruijn graphs to contribute to the literature of alternative splicing, which was explored in the first three works. The first paper (Chapter 3, paper [77]) explored the issue that repeats bring to transcriptome assemblers if not addressed properly. We showed that the sensitivity and the precision of our local alternative splicing assembler increased significantly when repeats were formally modeled. The second (Chapter 4, paper [11]), shows that annotating alternative splicing events with a single approach leads to missing out a large number of candidates, many of which are significant. Thus, to comprehensively explore the alternative splicing events in a sample, we advocate for the combined use of both mapping-first and assembly-first approaches. Given that we have a huge amount of bubbles in de Bruijn graphs built from real RNA-seq data, which are unfeasible to be analysed in practice, in the third work (Chapter 5, papers [1, 2]), we explored theoretically how to efficiently and compactly represent the bubble space through a bubble generator. Exploring and analysing the bubbles in the generator is feasible in practice and can be complementary to state-of-the-art algorithms that analyse a subset of the bubble space. Collaborations and advances on the sequencing technology encouraged us to work in other subareas of bioinformatics, such as: genome-wide association studies, error correction, and hybrid assembly. Our fourth work (Chapter 6, paper [48]) describes an efficient method to find and interpret unitigs highly associated to a phenotype, especially antibiotic resistance, making genome-wide association studies more amenable to bacterial panels, especially plastic ones. In our fifth work (Chapter 7, paper [76]), we evaluate the extent to which existing long-read DNA error correction methods are capable of correcting high-error-rate RNA-seq long reads. We conclude that no tool outperforms all the others across all metrics and is the most suited in all situations, and that the choice should be guided by the downstream analysis. RNA-seq long reads provide a new perspective on how to analyse transcriptomic data, since they are able to describe the full-length sequences of mRNAs, which was not possible with short reads in several cases, even by using state-of-the-art transcriptome assemblers. As such, in our last work (Chapter 8, paper [75]) we explore a hybrid alternative splicing assembly method, which makes use of both short and long reads, in order to list alternative splicing events in a comprehensive manner, thanks to short reads, guided by the full-length context provided by the long reads
Ekström, Ted, and Eriksson Simon Kristensson. "Datalagring : nätverkslösning." Thesis, Högskolan Kristianstad, Sektionen för hälsa och samhälle, 2013. http://urn.kb.se/resolve?urn=urn:nbn:se:hkr:diva-10404.
Full textSchimd, Michele. "Quality value based models and methods for sequencing data." Doctoral thesis, Università degli studi di Padova, 2015. http://hdl.handle.net/11577/3424144.
Full textIsolata per la prima volta da Friedrich Miescher nel 1869 ed identificata nel 1953 da James Watson e Francis Crick, la molecola del DNA (acido desossiribonucleico) umano ha richiesto più di 50 anni perchè fosse a disposizione della comunità internazionale per studi e analisi approfondite. Le prime tecnologie di sequenziamento sono apparse attorno alla metà degli anni 70, tra queste quella di maggiore successo è stata la tecnologia denominata Sanger rimasta poi lo standard di fatto per il sequenziamento fino a che, agli inizi degli anni 2000, sequenziatori battezzati di nuova generazione (Next Generation Sequencing (NGS)) sono comparsi sul mercato. Questi ultimi hanno velocemente preso piede grazie ai bassi costi di sequenziamento soprattutto se confrontati con le precedenti macchine Sanger. Oggi tuttavia, nuove tecnologie (ad esempio PacBio di Pacific Biosciences) si stanno facendo strada grazie alla loro capacità di produrre frammenti di lunghezze mai ottenute prima d’ora. Nonostante la continua evoluzione nessuna di queste tecnologie è ancora in grado di produrre letture complete del DNA, ma solo parziali frammenti (chiamati read) come risultato del processo biochimico chiamato sequenziamento. Un trend ricorrente durante l’evoluzione dei sequenziatori è rappresentato dalla crescente presenza di errori di sequenziamento, se nelle read Sanger in media una lettura su mille corrisponde ad un errore, le ultime macchine PacBio sono caratterizzate da un tasso di errore di circa il 15%, una situazione più o meno intermedia è rappresentata dalle read NGS all’interno delle quali questo tasso si attesta su valori attorno al 1%. E’ chiaro quindi che algoritmi in grado di processare dati con diversi caratteristiche in termini di errori di sequenziamento stanno acquisendo maggiore importanza mentre lo sviluppo di modelli ad-hoc che affrontino esplicitamente il problema degli errori di sequenziamento stanno assumendo notevole rilevanza. A supporto di queste tecniche le macchine sequenziatrici producono valori di qualità (quality scores o quality values) che possono esser messi in relazione con la probabilità di osservare un errore di sequenziamento. In questa tesi viene presentato un modello stocastico per descrivere il processo di sequenziamento e ne vengono presentate due applicazioni: clustering di read e il filtraggio di read. L’idea alla base del modello è di utilizzare i valori di qualità come fondamento per la definizione di un modello probabilistico che descriva il processo di sequenziamento. La derivazione di tale modello richiede la definizione rigorosa degli spazi di probabilità coinvolti e degli eventi in essi definiti. Inoltre, allo scopo di sviluppare un modello semplice e trattabile è necessario introdurre ipotesi semplificative che agevolino tale processo, tuttavia tali ipotesi debbono essere esplicitate ed opportunamente discusse. Per fornirne una validazione sperimentale, il modello è stato applicato ai problemi di clustering e filtraggio. Nel primo caso il clustering viene eseguito utilizzando le nuove misure Dq2 ottenute come estensione delle note misure alignment-free D2 attraverso l’introduzione dei valori di qualità. Più precisamente anzichè indurre un contributo unitario al conto della frequenza dei k-mer (come avviene per le statistiche D2), nelle misure Dq2 il contributo di un k-mer coincide con la probabilità dello stesso si essere corretto, calcolata sulla base dei valori di qualità associati. I risultati del clustering sono poi utilizzati per risolvere il problema del de-novo assembly (ricostruzione ex-novo di sequenze) e del metagenomic binning (classificazione di read da esperimenti di metagenomica). Una seconda applicazione del modello teorico è rappresentata dal problema del filtraggio di read utilizzando un approccio senza perdita di informazione in cui le read vengono ordinate secondo la loro probabilità di correttezza. L’idea che giustifica l’impiego di tale approccio è che l’ordinamento dovrebbe collocare nelle posizioni più alte le read con migliore qualità retrocedendo quelle con qualità più bassa. Per verificare la validità di questa nostra congettura, il filtraggio è stato utilizzato come fase preliminare di algoritmi per mappaggio di read e de-novo assembly. In entrambi i casi si osserva un miglioramento delle prestazione degli algoritmi quando le read sono presentate nell’ordine indotto dalla nostra misura. La tesi è strutturata nel seguente modo. Nel Capitolo 1 viene fornita una introduzione al sequenziamento e una panoramica dei principali problemi definiti sui dati prodotti. Inoltre vengono dati alcuni cenni sulla rappresentazione di sequenze, read e valori di qualità. Alla fine dello stesso Capitolo 1 si delineano brevemente i principali contributi della tesi e la letteratura correlata. Il Capitolo 2 contiene la derivazione formale del modello probabilistico per il sequenziamento. Nella prima parte viene schematicamente presentato il processo di produzione di una coppia simbolo qualità per poi passare alla definizione di spazi di probabilità per sequenze e sequenziamento. Mentre gli aspetti relativo alla distribuzione di probabilità per la sequenza di riferimento non vengono considerati in questa tesi, la descrizione probabilistica del processo di sequenziamento è trattata in dettaglio nella parte centrale del Capitolo 2 nella cui ultima parte viene presentata la derivazione della probabilità di correttezza di una read che viene poi utilizzata nei capitoli successivi. Il Capitolo 3 presenta le misure Dq2 e gli esperimenti relativi al clustering i cui risultati sono frutto del lavoro svolto in collaborazione con Matto Comin e Andrea Leoni e pubblicato in [CLS14] e [CLS15]. Il Capitolo 4 presenta invece i risultati preliminari fin qui ottenuti per il filtraggio di read basato sui valori di qualità. Infine il Capitolo 5 presenta le conclusioni e delinea le direzioni future che si intendono perseguire a continuamento del lavoro qui presentato.
Britto, Fernando Perez de. "Perspectivas organizacional e tecnológica da aplicação de analytics nas organizações." Pontifícia Universidade Católica de São Paulo, 2016. https://tede2.pucsp.br/handle/handle/19282.
Full textMade available in DSpace on 2016-11-01T17:05:22Z (GMT). No. of bitstreams: 1 Fernando Perez de Britto.pdf: 2289185 bytes, checksum: c32224fdc1bfd0e47372fe52c8927cff (MD5) Previous issue date: 2016-09-12
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
The use of Analytics technologies is gaining prominence in organizations exposed to pressures for greater profitability and efficiency, and to a highly globalized and competitive environment in which cycles of economic growth and recession and cycles of liberalism and interventionism, short or long, are more frequents. However, the use of these technologies is complex and influenced by conceptual, human, organizational and technologicalaspects, the latter especially in relation to the manipulation and analysis of large volumes of data, Big Data. From a bibliographicresearch on the organizational and technological perspectives, this work initially deals with theconcepts and technologies relevant to the use of Analytics in organizations, and then explores issues related to the alignment between business processes and data and information, the assessment of the potential of theuseofAnalytics, the use of Analytics in performance management, in process optimization and as decision support, and the establishment of a continuousimprovement process. Enabling at the enda reflection on the directions, approaches, referrals, opportunities and challenges related to the use of Analytics in organizations
A utilização de tecnologias de Analyticsvem ganhando destaque nas organizações expostas a pressões por maior rentabilidade e eficiência, ea um ambiente altamente globalizado e competitivo no qual ciclos de crescimento econômico e recessão e ciclos de liberalismo e intervencionismo, curtos ou longos, estão mais frequentes. Entretanto, a utilização destas tecnologias é complexa e influenciada por aspectos conceituais, humanos, organizacionais e tecnológicos, este último principalmente com relação à manipulação e análise de grandes volumes de dados, Big Data. A partir de uma pesquisa bibliográfica sobre as perspectivas organizacional e tecnológica, este trabalho trata inicialmente de conceitos e tecnologias relevantes para a utilização de Analyticsnas organizações, eem seguida explora questões relacionadas ao alinhamento entre processos organizacionaise dados e informações, à avaliação de potencial de utilização de Analytics, à utilização de Analyticsem gestão de performance, otimização de processos e como suporte à decisão, e ao estabelecimento de um processo de melhoria contínua.Possibilitandoao finaluma reflexão sobre os direcionamentos, as abordagens, os encaminhamentos, as oportunidades e os desafios relacionados àutilização de Analyticsnas organizações
Kawalia, Amit [Verfasser], Peter [Gutachter] Nürnberg, and Michael [Gutachter] Nothnagel. "Addressing NGS Data Challenges: Efficient High Throughput Processing and Sequencing Error Detection / Amit Kawalia ; Gutachter: Peter Nürnberg, Michael Nothnagel." Köln : Universitäts- und Stadtbibliothek Köln, 2016. http://d-nb.info/112370368X/34.
Full textChebbo, Manal. "Simulation fine d'optique adaptative à très grand champ pour des grands et futurs très grands télescopes." Thesis, Aix-Marseille, 2012. http://www.theses.fr/2012AIXM4733/document.
Full textRefined simulation tools for wide field AO systems on ELTs present new challenges. Increasing the number of degrees of freedom makes the standard simulation's codes useless due to the huge number of operations to be performed at each step of the AO loop process. The classical matrix inversion and the VMM have to be replaced by a cleverer iterative resolution of the Least Square or Minimum Mean Square Error criterion. For this new generation of AO systems, concepts themselves will become more complex: data fusion coming from multiple LGS and NGS will have to be optimized, mirrors covering all the field of view associated to dedicated mirrors inside the scientific instrument itself will have to be coupled using split or integrated tomography schemes, differential pupil or/and field rotations will have to be considered.All these new entries should be carefully simulated, analysed and quantified in terms of performance before any implementation in AO systems. For those reasons i developed, in collaboration with the ONERA, a full simulation code, based on iterative solution of linear systems with many parameters (sparse matrices). On this basis, I introduced new concepts of filtering and data fusion to effectively manage modes such as tip, tilt and defoc in the entire process of tomographic reconstruction. The code will also eventually help to develop and test complex control laws who have to manage a combination of adaptive telescope and post-focal instrument including dedicated DM