Thèses sur le sujet « Inférence de réseau omic »

Pour voir les autres types de publications sur ce sujet consultez le lien suivant : Inférence de réseau omic.

Créez une référence correcte selon les styles APA, MLA, Chicago, Harvard et plusieurs autres

Choisissez une source :

Consultez les 27 meilleures thèses pour votre recherche sur le sujet « Inférence de réseau omic ».

À côté de chaque source dans la liste de références il y a un bouton « Ajouter à la bibliographie ». Cliquez sur ce bouton, et nous générerons automatiquement la référence bibliographique pour la source choisie selon votre style de citation préféré : APA, MLA, Harvard, Vancouver, Chicago, etc.

Vous pouvez aussi télécharger le texte intégral de la publication scolaire au format pdf et consulter son résumé en ligne lorsque ces informations sont inclues dans les métadonnées.

Parcourez les thèses sur diverses disciplines et organisez correctement votre bibliographie.

1

Arsenteva, Polina. « Statistical modeling and analysis of radio-induced adverse effects based on in vitro and in vivo data ». Electronic Thesis or Diss., Bourgogne Franche-Comté, 2023. http://www.theses.fr/2023UBFCK074.

Texte intégral
Résumé :
Dans ce travail nous abordons le problème des effets indésirables induits par la radiothérapie sur les tissus sains. L'objectif est de proposer un cadre mathématique pour comparer les effets de différentes modalités d'irradiation, afin de pouvoir éventuellement choisir les traitements qui produisent le moins d'effets indésirables pour l’utilisation potentielle en clinique. Les effets secondaires sont étudiés dans le cadre de deux types de données : en termes de réponse omique in vitro des cellules endothéliales humaines, et en termes d'effets indésirables observés sur des souris dans le cadre d'expérimentations in vivo. Dans le cadre in vitro, nous rencontrons le problème de l'extraction d'informations clés à partir de données temporelles complexes qui ne peuvent pas être traitées avec les méthodes disponibles dans la littérature. Nous modélisons le fold change radio-induit, l'objet qui code la différence d'effet de deux conditions expérimentales, d’une manière qui permet de prendre en compte les incertitudes des mesures ainsi que les corrélations entre les entités observées. Nous construisons une distance, avec une généralisation ultérieure à une mesure de dissimilarité, permettant de comparer les fold changes en termes de toutes leurs propriétés statistiques importantes. Enfin, nous proposons un algorithme computationnellement efficace effectuant le clustering joint avec l'alignement temporel des fold changes. Les caractéristiques clés extraites de ces dernières sont visualisées à l'aide de deux types de représentations de réseau, dans le but de faciliter l'interprétation biologique. Dans le cadre in vivo, l’enjeu statistique est d’établir un lien prédictif entre des variables qui, en raison des spécificités du design expérimental, ne pourront jamais être observées sur les mêmes animaux. Dans le contexte de ne pas avoir accès aux lois jointes, nous exploitons les informations supplémentaires sur les groupes observés pour déduire le modèle de régression linéaire. Nous proposons deux estimateurs des paramètres de régression, l'un basé sur la méthode des moments et l'autre basé sur le transport optimal, ainsi que des estimateurs des intervalles de confiance basés sur le bootstrap stratifié
In this work we address the problem of adverse effects induced by radiotherapy on healthy tissues. The goal is to propose a mathematical framework to compare the effects of different irradiation modalities, to be able to ultimately choose those treatments that produce the minimal amounts of adverse effects for potential use in the clinical setting. The adverse effects are studied in the context of two types of data: in terms of the in vitro omic response of human endothelial cells, and in terms of the adverse effects observed on mice in the framework of in vivo experiments. In the in vitro setting, we encounter the problem of extracting key information from complex temporal data that cannot be treated with the methods available in literature. We model the radio-induced fold change, the object that encodes the difference in the effect of two experimental conditions, in the way that allows to take into account the uncertainties of measurements as well as the correlations between the observed entities. We construct a distance, with a further generalization to a dissimilarity measure, allowing to compare the fold changes in terms of all the important statistical properties. Finally, we propose a computationally efficient algorithm performing clustering jointly with temporal alignment of the fold changes. The key features extracted through the latter are visualized using two types of network representations, for the purpose of facilitating biological interpretation. In the in vivo setting, the statistical challenge is to establish a predictive link between variables that, due to the specificities of the experimental design, can never be observed on the same animals. In the context of not having access to joint distributions, we leverage the additional information on the observed groups to infer the linear regression model. We propose two estimators of the regression parameters, one based on the method of moments and the other based on optimal transport, as well as the estimators for the confidence intervals based on the stratified bootstrap procedure
Styles APA, Harvard, Vancouver, ISO, etc.
2

Hulot, Audrey. « Analyses de données omiques : clustering et inférence de réseaux Female ponderal index at birth and idiopathic infertility ». Thesis, université Paris-Saclay, 2020. http://www.theses.fr/2020UPASL034.

Texte intégral
Résumé :
Le développement des méthodes de biologie haut-débit (séquençage et spectrométrie de masse) a permis de générer de grandes masses de données, dites -omiques, qui nous aident à mieux comprendre les processus biologiques.Cependant, isolément, chaque source -omique ne permet d'expliquer que partiellement ces processus. Mettre en relation les différentes sources de donnés -omiques devrait permettre de mieux comprendre les processus biologiques mais constitue un défi considérable.Dans cette thèse, nous nous intéressons particulièrement aux méthodes de clustering et d’inférence de réseaux, appliquées aux données -omiques.La première partie du manuscrit présente trois méthodes. Les deux premières méthodes sont applicables dans un contexte où les données peuvent être de nature hétérogène.La première concerne un algorithme d’agrégation d’arbres, permettant la construction d’un clustering hiérarchique consensus. La complexité sous-quadratique de cette méthode a fait l’objet d’une démonstration, et permet son application dans un contexte de grande dimension. Cette méthode est disponible dans le package R mergeTrees, accessible sur le CRAN.La seconde méthode concerne l’intégration de données provenant d’arbres ou de réseaux, en transformant les objets via la distance cophénétique ou via le plus court chemin, en matrices de distances. Elle utilise le Multidimensional Scaling et l’Analyse Factorielle Multiple et peut servir à la construction d’arbres et de réseaux consensus.Enfin, dans une troisième méthode, on se place dans le contexte des modèles graphiques gaussiens, et cherchons à estimer un graphe, ainsi que des communautés d’entités, à partir de plusieurs tables de données. Cette méthode est basée sur la combinaison d’un Stochastic Block Model, un Latent block Model et du Graphical Lasso.Cette thèse présente en deuxième partie les résultats d’une étude de données transcriptomiques et métagénomiques, réalisée dans le cadre d’un projet appliqué, sur des données concernant la Spondylarthrite ankylosante
The development of biological high-throughput technologies (next-generation sequencing and mass spectrometry) have provided researchers with a large amount of data, also known as -omics, that help better understand the biological processes.However, each source of data separately explains only a very small part of a given process. Linking the differents -omics sources between them should help us understand more of these processes.In this manuscript, we will focus on two approaches, clustering and network inference, applied to omics data.The first part of the manuscript presents three methodological developments on this topic. The first two methods are applicable in a situation where the data are heterogeneous.The first method is an algorithm for aggregating trees, in order to create a consensus out of a set of trees. The complexity of the process is sub-quadratic, allowing to use it on data leading to a great number of leaves in the trees. This algorithm is available in an R-package named mergeTrees on the CRAN.The second method deals with the integration data from trees and networks, by transforming these objects into distance matrices using cophenetic and shortest path distances, respectively. This method relies on Multidimensional Scaling and Multiple Factor Analysis and can be also used to build consensus trees or networks.Finally, we use the Gaussian Graphical Models setting and seek to estimate a graph, as well as communities in the graph, from several tables. This method is based on a combination of Stochastic Block Model, Latent Block Model and Graphical Lasso.The second part of the manuscript presents analyses conducted on transcriptomics and metagenomics data to identify targets to gain insight into the predisposition of Ankylosing Spondylitis
Styles APA, Harvard, Vancouver, ISO, etc.
3

Kazhuthuveettil, Sreedharan Jithin. « Échantillonnage et inférence dans réseaux complexes ». Thesis, Université Côte d'Azur (ComUE), 2016. http://www.theses.fr/2016AZUR4121/document.

Texte intégral
Résumé :
L’émergence récente de grands réseaux, surtout réseaux sociaux en ligne (OSN), a révélé la difficulté de crawler le réseau complet et a déclenché le développement de nouvelles techniques distribuées. Dans cette thèse, nous concevons et analysons des algorithmes basés sur les marches aléatoires et la diffusion pour l'échantillonnage, l'estimation et l'inférence des fonctions des réseaux. La thèse commence par le problème classique de trouver les valeurs propres dominants et leurs vecteurs propres de matrices de graphe symétriques, comme la matrice Laplacienne de graphes non orientés. En utilisant le fait que le spectre est associé à une équation de type différentiel Schrödinger, nous développons des techniques évolutives à l’aide de la diffusion sur le graphe. Ensuite, nous considérons l’échantillonnage des fonctions de réseau (comme somme et moyenne) en utilisant les marches aléatoires sur le graphe. Afin d'éviter le temps «burn-in» de marche aléatoire, avec l'idée de régénération à un nœud fixe, nous développons un estimateur de la fonction de somme qui est non asymptotiquement non-biaisé et dérivons une approximation à la postérieure Bayésienne. La dernière partie de la thèse étudie l'application de la théorie des valeurs extrêmes pour faire une inférence sur les événements extrêmes à partir des échantillons stationnaires des différentes marches aléatoires pour l’échantillonnage de réseau
The recent emergence of large networks, mainly due to the rise of online social networks, brought out the difficulty to gather a complete picture of a network and it prompted the development of new distributed techniques. In this thesis, we design and analyze algorithms based on random walks and diffusion for sampling, estimation and inference of the network functions, and for approximating the spectrum of graph matrices. The thesis starts with the classical problem of finding the dominant eigenvalues and the eigenvectors of symmetric graph matrices like Laplacian of undirected graphs. Using the fact that the eigenspectrum is associated with a Schrödinger-type differential equation, we develop scalable techniques with diffusion over the graph and with gossiping algorithms. They are also adaptable to a simple algorithm based on quantum computing. Next, we consider sampling and estimation of network functions (sum and average) using random walks on graph. In order to avoid the burn-in time of random walks, with the idea of regeneration at its revisits to a fixed node, we develop an estimator for the aggregate function which is non-asymptotically unbiased and derive an approximation to its Bayesian posterior. An estimator based on reinforcement learning is also developed making use of regeneration. The final part of the thesis deals with the use of extreme value theory to make inference from the stationary samples of the random walks. Extremal events such as first hitting time of a large degree node, order statistics and mean cluster size are well captured in the parameter “extremal index”. We theoretically study and estimate extremal index of different random walk sampling techniques
Styles APA, Harvard, Vancouver, ISO, etc.
4

Castel, David. « Inférence du réseau génétique d'Id2 dans les kératinocytes humains par intégration de données génomiques à large échelle ». Evry-Val d'Essonne, 2007. http://www.biblio.univ-evry.fr/theses/2007/interne/2007/2007EVRY0026.pdf.

Texte intégral
Résumé :
Dans ce travail nous avons étudié le réseau génétique d'Id2, un régulateur dominant négatif des bHLH, de manière à comprendre son rôle dans le contrôle de l'équilibre entre prolifération et différenciation dans les kératinocytes humains. Nous avons pour cela mis en œuvre une stratégie originale consistant, d'une part à étudier les variations du transcriptome de kératinocytes présentant une surexpression et une extinction d'Id2 de manière à découvrir les gènes qu'elle régule, et d'autre part à cribler les gènes régulateurs de l'expression d'Id2 sur puce à siARN. L'ensemble des résultats, complétés par des mesures phénotypiques, nous ont permis de mettre en évidence le rôle d'Id2 dans l'entrée en différenciation, la régulation de la prolifération, mais aussi dans des fonctions inconnues comme le contrôle de l'anaphase et la réparation des dommages de l'ADN. Enfin, ces résultats nous ont permis plus globalement d'appréhender la topologie du réseau de régulation transcriptionnelle d'Id2
We report in the present study the characterization of the genetic regulatory network of Id2, a dominant negative regulator of bHLH, to further understand its role in the control of the proliferation/differentiation balance in human keratinocytes. To identify Id2 gene targets, we first used gene expression profiling in cells exhibiting Id2 overexpression or knock-down. At the same time we screened an siRNA library using an siRNA microarrays approach to characterize Id2 transcriptionnal regulators. These results, with additional phenotypic observations, show that Id2 exert a key role in the control of keratinocyte commitment into differentiation or proliferation. Furthermore, we unravel new functions of Id2 in anaphase promotion and DNA recombination control. Overal, our results alllowed a first description of Id2 genetic regulatory network topology
Styles APA, Harvard, Vancouver, ISO, etc.
5

Vincent, Jonathan. « Inférence des réseaux de régulation de la synthèse des protéines de réserve du grain de blé tendre (Triticum aestivum L.) en réponse à l'approvisionnement en azote et en soufre ». Thesis, Clermont-Ferrand 2, 2014. http://www.theses.fr/2014CLF22485/document.

Texte intégral
Résumé :
La teneur et la composition en protéines de réserve du grain de blé tendre (Triticum aestivum L.) sont les principaux déterminants de sa valeur d’usage et de sa qualité nutritionnelle. La composition en protéines de réserve du grain est déterminée par la teneur en assimilâts azotés et soufrés par grain via des lois d’échelle qui pourraient être les propriétés émergentes de réseaux de régulation. Plusieurs facteurs de transcription intervenant dans cette régulation ont été mis en évidence, mais les voies et mécanismes impliqués sont encore très peu connus. Le constat est identique en ce qui concerne l’impact de la nutrition azotée et soufrée sur ce réseau de régulation. Le développement des outils de génomique fonctionnelle et de bioinformatique permet aujourd’hui d’aborder ces régulations de manière globale via une approche systémique mettant en relation plusieurs niveaux de régulation. L’objectif du travail présenté est d’explorer les réseaux de régulation –omiques impliqués dans le contrôle de l’accumulation des protéines de réserve dans le grain de blé tendre et leur réponse à l’approvisionnement en azote et en soufre. Une approche d’inférence de réseaux basée sur la découverte de règles a été étendue, implémentée sous la forme d’une plateforme web. L’utilisation de cette plateforme a permis de définir des sémantiques multiples afin d’inférer dans un cadre global, des règles possédant différentes significations biologiques. Des facteurs de transcription spécifiques de certains organes et certaines phases de développement ont été mis en évidence et un intérêt particulier a été apporté à leur position dans les réseaux de règles inférés, notamment en relation avec les protéines de réserve. Les travaux initiés dans cette thèse ouvrent un champ d’investigation innovant pour l’identification de nouvelles cibles de sélection variétale pour l’amélioration de la valeur technologique et de la qualité nutritionnelle du blé. Ils devraient ainsi permettre de mieux maîtriser la composition en protéines de réserve et ainsi produire des blés adaptés à des utilisations ciblées ou carencé en certaines fractions protéiques impliquées dans des phénomènes d’allergénicité et d’intolérance du gluten, ce dans un contexte d’agriculture durable et plus économe en intrants
Grain storage protein content and composition are the main determinants of bread wheat (Triticum aestivum L.) end-use value. Scaling laws governing grain protein composition according to grain nitrogen and sulfur content could be the outcome of a finely tuned regulation network. Although it was demonstrated that the main regulation of grain storage proteins accumulation occurs at the transcriptomic level in cereals, knowledge of the underlying molecular mechanisms is elusive. Moreover, the effects of nitrogen and sulfur on these mechanisms are unknown. The issue of skyrocketing data generation in research projects is addressed by developing high-throughput bioinformatics approaches. Extracting knowledge on from such massive amounts of data is therefore an important challenge. The work presented herein aims at elucidating regulatory networks involved in grain storage protein synthesis and their response to nitrogen and sulfur supply using a rule discovery approach. This approach was extended, implemented in the form of a web-oriented platform dedicated to the inference and analysis of regulatory networks from qualitative and quantitative –omics data. This platform allowed us to define different semantics in a comprehensive framework; each semantic having its own biological meaning, thus providing us with global informative networks. Spatiotemporal specificity of transcription factors expression was observed and particular attention was paid to their relationship with grain storage proteins in the inferred networks. The work initiated here opens up a field of innovative investigation to identify new targets for plant breeding and for an improved end-use value and nutritional quality of wheat in the context of inputs limitation. Further analyses should enhance the understanding of the control of grain protein composition and allow providing wheat adapted to specific uses or deficient in protein fractions responsible for gluten allergenicity and intolerance
Styles APA, Harvard, Vancouver, ISO, etc.
6

Gallopin, Mélina. « Classification et inférence de réseaux pour les données RNA-seq ». Thesis, Université Paris-Saclay (ComUE), 2015. http://www.theses.fr/2015SACLS174/document.

Texte intégral
Résumé :
Cette thèse regroupe des contributions méthodologiques à l'analyse statistique des données issues des technologies de séquençage du transcriptome (RNA-seq). Les difficultés de modélisation des données de comptage RNA-seq sont liées à leur caractère discret et au faible nombre d'échantillons disponibles, limité par le coût financier du séquençage. Une première partie de travaux de cette thèse porte sur la classification à l'aide de modèle de mélange. L'objectif de la classification est la détection de modules de gènes co-exprimés. Un choix naturel de modélisation des données RNA-seq est un modèle de mélange de lois de Poisson. Mais des transformations simples des données permettent de se ramener à un modèle de mélange de lois gaussiennes. Nous proposons de comparer, pour chaque jeu de données RNA-seq, les différentes modélisations à l'aide d'un critère objectif permettant de sélectionner la modélisation la plus adaptée aux données. Par ailleurs, nous présentons un critère de sélection de modèle prenant en compte des informations biologiques externes sur les gènes. Ce critère facilite l'obtention de classes biologiquement interprétables. Il n'est pas spécifique aux données RNA-seq. Il est utile à toute analyse de co-expression à l'aide de modèles de mélange visant à enrichir les bases de données d'annotations fonctionnelles des gènes. Une seconde partie de travaux de cette thèse porte sur l'inférence de réseau à l'aide d'un modèle graphique. L'objectif de l'inférence de réseau est la détection des relations de dépendance entre les niveaux d'expression des gènes. Nous proposons un modèle d'inférence de réseau basé sur des lois de Poisson, prenant en compte le caractère discret et la grande variabilité inter-échantillons des données RNA-seq. Cependant, les méthodes d'inférence de réseau nécessitent un nombre d'échantillons élevé.Dans le cadre du modèle graphique gaussien, modèle concurrent au précédent, nous présentons une approche non-asymptotique pour sélectionner des sous-ensembles de gènes pertinents, en décomposant la matrice variance en blocs diagonaux. Cette méthode n'est pas spécifique aux données RNA-seq et permet de réduire la dimension de tout problème d'inférence de réseau basé sur le modèle graphique gaussien
This thesis gathers methodologicals contributions to the statistical analysis of next-generation high-throughput transcriptome sequencing data (RNA-seq). RNA-seq data are discrete and the number of samples sequenced is usually small due to the cost of the technology. These two points are the main statistical challenges for modelling RNA-seq data.The first part of the thesis is dedicated to the co-expression analysis of RNA-seq data using model-based clustering. A natural model for discrete RNA-seq data is a Poisson mixture model. However, a Gaussian mixture model in conjunction with a simple transformation applied to the data is a reasonable alternative. We propose to compare the two alternatives using a data-driven criterion to select the model that best fits each dataset. In addition, we present a model selection criterion to take into account external gene annotations. This model selection criterion is not specific to RNA-seq data. It is useful in any co-expression analysis using model-based clustering designed to enrich functional annotation databases.The second part of the thesis is dedicated to network inference using graphical models. The aim of network inference is to detect relationships among genes based on their expression. We propose a network inference model based on a Poisson distribution taking into account the discrete nature and high inter sample variability of RNA-seq data. However, network inference methods require a large number of samples. For Gaussian graphical models, we propose a non-asymptotic approach to detect relevant subsets of genes based on a block-diagonale decomposition of the covariance matrix. This method is not specific to RNA-seq data and reduces the dimension of any network inference problem based on the Gaussian graphical model
Styles APA, Harvard, Vancouver, ISO, etc.
7

Brinza, Lilia. « Exploration et inférence du réseau de régulation de la transcription de la bactérie symbiotique intracellulaire à génome réduit Buchnera aphidicola ». Phd thesis, INSA de Lyon, 2010. http://tel.archives-ouvertes.fr/tel-00750363.

Texte intégral
Résumé :
Cette thèse est une étude systémique de la régulation de la transcription des gènes de la bactérie Buchnera aphidicola vivant en symbiose intracellulaire obligatoire avec le puceron du pois, Acyrthosiphon pisum. Plusieurs études expérimentales antérieures sur ce modèle de symbiose attestent d'une part que la bactérie fournit à son hôte le complément nutritionnel qu'il ne trouve pas dans son alimentation, et d'autre part, que la bactérie adapte cette fourniture aux variations de la demande de son hôte, les mécanismes impliqués dans cette régulation demeurant relativement obscurs. Nous avons structuré notre analyse de la régulation de la transcription chez Buchnera en quatre parties. La première dresse l'inventaire de la machinerie transcriptionnelle de Buchnera. La deuxième partie analyse l'architecture génomique de Buchnera, i.e. l'organisation et l'évolution de sa carte opéronique. Pour cette étude, nous avons été amenés à développer une méthode bayésienne de prédiction d'opérons adaptée à Buchnera, ce qui nous a permis de proposer une nouvelle carte opéronique de la bactérie. La troisième partie porte sur les propriétés structurelles séquence-dépendantes du chromosome de Buchnera. Les résultats obtenus à l'Issue de cette approche ascendante, nous ont amené à construire un premier modèle de réseau de la régulation transcriptionnelle chez Buchnera. Enfin, la quatrième partie est un travail de modélisation suivant une approche descendante. Il s'agit du développement d'une méthode d'inférence de réseau de régulation à partir de données d'expression que nous avons appelée IGOIM. Cette méthode a été validée sur des jeux de données simulées et de la littérature.
Styles APA, Harvard, Vancouver, ISO, etc.
8

Haury, Anne-Claire. « Sélection de variables à partir de données d'expression : signatures moléculaires pour le pronostic du cancer du sein et inférence de réseaux de régulation génique ». Phd thesis, Ecole Nationale Supérieure des Mines de Paris, 2012. http://pastel.archives-ouvertes.fr/pastel-00818345.

Texte intégral
Résumé :
De considérables développements dans le domaine des biotechnologies ont modifié notre approche de l'analyse de l'expression génique. En particulier, les puces à ADN permettent de mesurer l'expression des gènes à l'échelle du génome, dont l'analyse est confiée au statisticien.A partir de ces données dites en grande dimension, nous contribuons, dans cette thèse, à l'étude de deux problèmes biologiques. Nous traitons ces questions comme des problèmes d'apprentissage statistique supervisé et, en particulier, de sélection de variables, où il s'agit d'extraire, parmi toutes les variables - gènes - à disposition, celles qui sont nécessaires et suffisantes pour prédire la réponse à une question donnée.D'une part, nous travaillons à repérer des listes de gènes, connues sous le nom de signatures moléculaires et supposées contenir l'information nécessaire à la prédiction de l'issue du cancer du sein. La prédiction des événements métastatiques est en effet cruciale afin d'évaluer, dès l'apparition de la tumeur primaire, la nécessité d'un traitement par chimio-thérapie adjuvante, connue pour son agressivité. Nous présentons dans cette thèse trois contributions à ce problème. Dans la première, nous proposons une comparaison systématique des méthodes de sélection de variables, en termes de performance prédictive, de stabilité et d'interprétabilité biologique de la solution. Les deux autres contributions portent sur l'application de méthodes dites de parcimonie structurée (graph Lasso et k-support norm) au problème de sélection de signatures. Ces trois travaux discutent également l'impact de l'utilisation de méthodes d'ensemble (bootstrap et ré-échantillonnage).D'autre part, nous nous intéressons au problème d'inférence de réseau génique, consistant à déterminer la structure des interactions entre facteurs de transcription et gènes cibles. Les premiers sont des protéines ayant la faculté de réguler la transcription des gènes cibles, c'est-à-dire de l'activer ou de la réprimer. Ces régulations peuvent être représentées sous la forme d'un graphe dirigé, où les noeuds symbolisent les gènes et les arêtes leurs interactions. Nous proposons un nouvel algorithme, TIGRESS, classé troisième lors du challenge d'inférence de réseaux DREAM5 en 2010. Basé sur l'algorithme LARS couplé à une stratégie de ré-échantillonnage, TIGRESS traite chaque gène cible séparément, en sélectionnant ses régulateurs, puis assemble ces sous-problèmes pour prédire l'ensemble du réseau.Enfin, nous consacrons le dernier chapitre à une discussion ayant pour objectif de replacer les travaux de cette thèse dans un contexte bibliographique et épistémologique plus large.
Styles APA, Harvard, Vancouver, ISO, etc.
9

Chevalier, Stéphanie. « Inférence logique de réseaux booléens à partir de connaissances et d'observations de processus de différenciation cellulaire ». Electronic Thesis or Diss., université Paris-Saclay, 2022. http://www.theses.fr/2022UPASG061.

Texte intégral
Résumé :
Les modèles dynamiques sont des outils importants pour l'exploration des mécanismes de régulation en biologie.Les travaux de cette thèse sont guidés par le besoin exprimé en biologie du développement et en cancérologie d'inférer automatiquement des réseaux booléens reproduisant des processus de différenciation cellulaire.En considérant les observations et les connaissances que les modélisateurs ont à disposition, ce mémoire de thèse présente une approche qui permet de modéliser la richesse de ce comportement cellulaire en inférant l’ensemble des réseaux booléens compatibles tout en passant à l’échelle des réseaux de régulation couramment considérés en biologie.Afin de développer cette méthode, les travaux présentés se décomposent en trois contributions principales.La première contribution est la proposition d'un cadre formel sur les propriétés des données collectées pour étudier la différenciation cellulaire. Ce cadre permet de raisonner sur les propriétés dynamiques souhaitées au sein des réseaux booléens pour qu’ils soient compatibles avec ce comportement cellulaire.La deuxième contribution porte sur l'encodage du problème d’inférence de modèles comme un problème de satisfiabilité booléenne dont les solutions sont les réseaux booléens compatibles avec les données biologiques. Pour cela, des contraintes sur la dynamique des réseaux booléens correspondant aux propriétés précédemment formalisées ont été implémentées en programmation logique.La dernière contribution est l’application à des problématiques biologiques réelles de la méthode d’inférence de modèles, nommée BoNesis, qui a été développée grâce aux contraintes créées. Ces applications ont montré l’apport de l’inférence d’ensemble de modèles pour l’analyse de processus et illustré la méthodologie de modélisation, de la préparation des données biologiques à l’analyse des modèles inférés
Dynamic models are essential tools for exploring regulatory mechanisms in biology. This thesis was guided by the need expressed in oncology and developmental biology to automatically infer Boolean networks reproducing cellular differentiation processes.By considering observations and knowledge that the modelers have at their disposal, this thesis presents an approach that allows to model the richness of this cellular behavior by inferring all the compatible Boolean networks at that scale of the regulatory networks commonly considered in biology.To develop this method, three main contributions are presented.The first contribution is a formal framework of the properties of data collected to study cellular differentiation. This framework allows reasoning about the desired dynamic properties within Boolean networks to be consistent with this cellular behavior.The second contribution concerns the encoding of the model inference problem as a Boolean satisfiability problem whose solutions are the Boolean networks compatible with the biological data. For this, constraints on the dynamics of Boolean networks corresponding to the previously formalized properties have been implemented in logic programming.The last contribution was to apply to real biological problems the model inference method, named BoNesis, which was developed thanks to the constraints. These applications showed the benefit of inferring a set of models for the process analysis and illustrated the modeling methodology, from the preparation of biological data to the analysis of the inferred models
Styles APA, Harvard, Vancouver, ISO, etc.
10

Maesano, Ariele. « Bayesian dynamic scheduling for service composition testing ». Thesis, Paris 6, 2015. http://www.theses.fr/2015PA066100/document.

Texte intégral
Résumé :
Aujourd'hui la connectivité entre les systèmes se standardise. Il supprime l'intervention humaine et permet aux systèmes distribués d'accomplir des tâches longues et complexes. La SOA est une approche fondée sur le modèle qui s'appuie sur des contrats et qui permet aux systèmes existants de collaborer par échange de messages. De multiples organisations peuvent, automatiser des échanges de services sans risquer leur confidentialité. Cette collaboration est à l'origine des difficultés concernant le test, parce que si il a des échanges entre les différents partenaires, le fonctionnement interne de processus résultant dans l'information échangé est limité à certains partenaires/testeurs. Ceci nous place dans un cadre de tests boîte grise où les systèmes sont des boîtes noires et seulement l'échange de message est visible. C'est pourquoi nous proposons une approche probabiliste en utilisant l'inférence bayésienne pour tester les SOA. Le deuxième défi est leur taille. Etant donné que les systèmes sont connectés de manière lâche en les couplant deux par deux selon les spécifications, une SOA peut contenir un nombre très important de participants et donc une grande taille. La taille des SOA se reflète dans la complexité de l'inférence bayésienne. Cette seconde contrainte pousse à chercher de meilleure solution pour l'inférence bayésienne. Afin de faire face à la taille et la densité de la BN, même pour de petits services architectures, les techniques d'inférence par compilation dirigée par les modèles qui permet la génération rapide de circuits arithmétiques directement à partir du modèle de l'architecture des services et de la suite de tests sont en cours d'élaboration
In present times connectivity between systems becomes more common. It removes human mediation and allows complex distributed systems to autonomously complete long and complex tasks. SOA is a model driven contract based approach that allows legacy systems to collaborate by messages exchange. Collaboration, here, is a key word in the sense that multiple organisation can, with this approach, automate services exchanges between them without putting at risks their confidentiality. This cause to encounter the first difficulty, because if there are exchanges between the different partners, the inner-processes resulting in the exchange information is restricted to some partners and therefor to some of the testers. That put us in a grey-box testing case where the systems are black-boxes and only the message exchange is visible. That is why we propose a probabilistic approach using Bayesian Inference to test the architectures. The second Challenge is the size of the SOA. Since the systems are connected by loosely coupling them two by two according to SOA Specifications, SOA can contain a very important number of participants. In Fact most of the existing SOA are very important in there size. The size of the SOA is reflected in the complexity of the Bayesian inference. This second challenge constraints us to search for better solution for the Bayesian Inference. In order to cope with the size and density of the BN for even small services architectures, techniques of model-driven inference by compilation that allows quick generation of arithmetic circuits directly from the services architecture model and the test suite are being developed
Styles APA, Harvard, Vancouver, ISO, etc.
11

Petiet, Florence. « Réseau bayésien dynamique hybride : application à la modélisation de la fiabilité de systèmes à espaces d'états discrets ». Thesis, Paris Est, 2019. http://www.theses.fr/2019PESC2014/document.

Texte intégral
Résumé :
L'analyse de fiabilité fait partie intégrante de la conception et du fonctionnement du système, en particulier pour les systèmes exécutant des applications critiques. Des travaux récents ont montré l'intérêt d'utiliser les réseaux bayésiens dans le domaine de la fiabilité, pour modélisation la dégradation d'un système. Les modèles graphiques de durée sont un cas particulier des réseaux bayésiens, qui permettent de s'affranchir de la propriété markovienne des réseaux bayésiens dynamiques. Ils s'adaptent aux systèmes dont le temps de séjour dans chaque état n'est pas nécessairement distribué exponentiellement, comme c'est le cas dans la plupart des applications industrielles. Des travaux antérieurs ont toutefois montré des limitations à ces modèles en terme de capacité de stockage et de temps de calcul, en raison du caractère discret de la variable temps de séjour. Une solution pourrait consister à considérer une variable de durée continue. Selon les avis d'experts, les variables de temps de séjour suivent une distribution de Weibull dans de nombreux systèmes. L'objectif de la thèse est d'intégrer des variables de temps de séjour suivant une distribution de Weibull dans un modèle de durée graphique en proposant une nouvelle approche. Après une présentation des réseaux bayésiens, et plus particulièrement des modèles graphiques de durée et leur limitation, ce rapport s'attache à présenter le nouveau modèle permettant la modélisation du processus de dégradation. Ce nouveau modèle est appelé modèle graphique de durée hybride Weibull. Un algorithme original permettant l'inférence dans un tel réseau a été mis en place. L'étape suivante a été la validation de l'approche. Ne disposant pas de données, il a été nécessaire de simuler des séquences d'états du système. Différentes bases de données ainsi construites ont permis d'apprendre d'un part un modèle graphique de durée, et d'autre part un modèle graphique de durée hybride-Weibull, afin de les comparer, que ce soit en terme de qualité d’apprentissage, de qualité d’inférence, de temps de calcul, et de capacité de stockage
Reliability analysis is an integral part of system design and operation, especially for systems running critical applications. Recent works have shown the interest of using Bayesian Networks in the field of reliability, for modeling the degradation of a system. The Graphical Duration Models are a specific case of Bayesian Networks, which make it possible to overcome the Markovian property of dynamic Bayesian Networks. They adapt to systems whose sojourn-time in each state is not necessarily exponentially distributed, which is the case for most industrial applications. Previous works, however, have shown limitations in these models in terms of storage capacity and computing time, due to the discrete nature of the sojourn time variable. A solution might be to allow the sojourn time variable to be continuous. According to expert opinion, sojourn time variables follow a Weibull distribution in many systems. The goal of this thesis is to integrate sojour time variables following a Weibull distribution in a Graphical Duration Model by proposing a new approach. After a presentation of the Bayesian networks, and more particularly graphical duration models, and their limitations, this report focus on presenting the new model allowing the modeling of the degradation process. This new model is called Weibull Hybrid Graphical Duration Model. An original algorithm allowing inference in such a network has been deployed. Various so built databases allowed to learn on one hand a Graphical Duration Model, and on an other hand a Graphical Duration Model Hybrid - Weibull, in order to compare them, in term of learning quality, of inference quality, of compute time, and of storage space
Styles APA, Harvard, Vancouver, ISO, etc.
12

Smail, Linda. « Algorithmique pour les Réseaux Bayésiens et leurs extensions ». Phd thesis, Université de Marne la Vallée, 2004. http://tel.archives-ouvertes.fr/tel-00007170.

Texte intégral
Résumé :
Cette thèse est consacrée à la présentation d'un algorithme nouveau et à la formalisation et l'amélioration d'algorithmes existants pour le calcul des lois marginales et conditionnelles dans les réseaux bayésiens.
Le chapitre 1 présente la théorie des réseaux bayésiens. Nous introduisons une nouvelle notion, celle de réseau bayésien de niveau deux, utile pour l'introduction de notre algorithme de calcul sur les réseaux bayésiens ; nous donnons également quelques résultats fondamentaux et nous situons dans notre formalisme un exemple d'école de réseau bayésien dit «Visite en Asie» .
Dans le second chapitre, nous exposons une propriété graphique appelée «d-séparation» grâce à laquelle on peut déterminer, pour tout couple de variables aléatoires ou de groupes de variables, et tout ensemble de conditionnement, s'il y a nécessairement, ou non, indépendance conditionnelle. Nous présentons également dans ce chapitre des résultats concernant le calcul de probabilités ou probabilités conditionnelles dans les réseaux bayésiens en utilisant les propriétés de la d-séparation. Ces résultats, qui concernent des écritures à notre connaissance originales de la factorisation de la loi jointe et de la loi conditionnée d'une famille de variables aléatoires du réseau bayésien (en liaison avec la notion de réseau bayésien de niveau deux) doivent trouver leur utilité pour les réseaux bayésiens de grande taille.
Le troisième chapitre donne la présentation détaillée et la justification d'un des algorithmes connus de calcul dans les réseaux bayésiens : il s'agit de l'algorithme LS (Lauritzen and Spigelhalter), basé sur la méthode de l'arbre de jonction. Pour notre part, après avoir présenté la notion de suite recouvrante propre possédant la propriété d'intersection courante, nous proposons un algorithme en deux versions (dont l'une est originale) qui permet de construire une suite de parties d'un réseau bayésien possédant cette propriété. Cette présentation est accompagnée d'exemples.
Dans le chapitre 4, nous donnons une présentation détaillée de l'algorithme des restrictions successives que nous proposons pour le calcul de lois (dans sa première version), et de lois conditionnelles (dans sa deuxième version). Cela est présenté après l'introduction d'une nouvelle notion : il s'agit de la descendance proche. Nous présentons également une application de l'algorithme des restrictions successives sur l'exemple «Visite en Asie» présenté en chapitre 1, et nous comparons le nombre d'opérations élémentaires effectuées avec celui qui intervient dans l'application de l'algorithme LS sur le même exemple. Le gain de calcul qui, à la faveur de cet exemple, apparaît au profit de l'algorithme des restrictions successives, sera comme toujours, d'autant plus marqué que la taille des réseaux et le nombre de valeurs prises par les variables seront plus élevés. C'est ce qui justifie l'insertion de notre algorithme au seins de « ProBT » , un logiciel d'inférence probabiliste, réalisé et diffusé par l'équipe Laplace localisée dans le laboratoire Gravir à INRIA Rhône Alpes.
En annexes nous rappelons les propriétés des graphes orientés sans circuits, les notions de base sur l'indépendance conditionnelle et l'équivalence de plusieurs définitions des réseaux bayésiens.
Styles APA, Harvard, Vancouver, ISO, etc.
13

Tembo, Mouafo Serge Romaric. « Applications de l'intelligence artificielle à la détection et l'isolation de pannes multiples dans un réseau de télécommunications ». Thesis, Ecole nationale supérieure Mines-Télécom Atlantique Bretagne Pays de la Loire, 2017. http://www.theses.fr/2017IMTA0004/document.

Texte intégral
Résumé :
Les réseaux de télécommunication doivent être fiables et robustes pour garantir la haute disponibilité des services. Les opérateurs cherchent actuellement à automatiser autant que possible les opérations complexes de gestion des réseaux, telles que le diagnostic de pannes.Dans cette thèse nous nous sommes intéressés au diagnostic automatique de pannes dans les réseaux d'accès optiques de l'opérateur Orange. L'outil de diagnostic utilisé jusqu'à présent, nommé DELC, est un système expert à base de règles de décision. Ce système est performant mais difficile à maintenir en raison, en particulier, du très grand volume d'informations à analyser. Il est également impossible de disposer d'une règle pour chaque configuration possible de panne, de sorte que certaines pannes ne sont actuellement pas diagnostiquées.Dans cette thèse nous avons proposé une nouvelle approche. Dans notre approche, le diagnostic des causes racines des anomalies et alarmes observées s'appuie sur une modélisation probabiliste, de type réseau bayésien, des relations de dépendance entre les différentes alarmes, compteurs, pannes intermédiaires et causes racines au niveau des différents équipements de réseau. Ce modèle probabiliste a été conçu de manière modulaire, de façon à pouvoir évoluer en cas de modification de l'architecture physique du réseau.Le diagnostic des causes racines des anomalies est effectué par inférence, dans le réseau bayésien, de l'état des noeuds non observés au vu des observations (compteurs, alarmes intermédiaires, etc...) récoltées sur le réseau de l'opérateur. La structure du réseau bayésien, ainsi que l'ordre de grandeur des paramètres probabilistes de ce modèle, ont été déterminés en intégrant dans le modèle les connaissances des experts spécialistes du diagnostic sur ce segment de réseau. L'analyse de milliers de cas de diagnostic de pannes a ensuite permis de calibrer finement les paramètres probabilistes du modèle grâce à un algorithme EM (Expectation Maximization).Les performances de l'outil développé, nommé PANDA, ont été évaluées sur deux mois de diagnostic de panne dans le réseau GPON-FTTH d'Orange en juillet-août 2015. Dans la plupart des cas, le nouveau système, PANDA, et le système en production, DELC, font un diagnostic identique. Cependant un certain nombre de cas sont non diagnostiqués par DELC mais ils sont correctement diagnostiqués par PANDA. Les cas pour lesquels les deux systèmes émettent des diagnostics différents ont été évalués manuellement, ce qui a permis de démontrer dans chacun de ces cas la pertinence des décisions prises par PANDA
Telecommunication networks must be reliable and robust to ensure high availability of services. Operators are currently searching to automate as much as possible, complex network management operations such as fault diagnosis.In this thesis we are focused on self-diagnosis of failures in the optical access networks of the operator Orange. The diagnostic tool used up to now, called DELC, is an expert system based on decision rules. This system is efficient but difficult to maintain due in particular to the very large volume of information to analyze. It is also impossible to have a rule for each possible fault configuration, so that some faults are currently not diagnosed.We proposed in this thesis a new approach. In our approach, the diagnosis of the root causes of malfunctions and alarms is based on a Bayesian network probabilistic model of dependency relationships between the different alarms, counters, intermediate faults and root causes at the level of the various network component. This probabilistic model has been designed in a modular way, so as to be able to evolve in case of modification of the physical architecture of the network. Self-diagnosis of the root causes of malfunctions and alarms is made by inference in the Bayesian network model of the state of the nodes not observed in view of observations (counters, alarms, etc.) collected on the operator's network. The structure of the Bayesian network, as well as the order of magnitude of the probabilistic parameters of this model, were determined by integrating in the model the expert knowledge of the diagnostic experts on this segment of the network. The analysis of thousands of cases of fault diagnosis allowed to fine-tune the probabilistic parameters of the model thanks to an Expectation Maximization algorithm. The performance of the developed probabilistic tool, named PANDA, was evaluated over two months of fault diagnosis in Orange's GPON-FTTH network in July-August 2015. In most cases, the new system, PANDA, and the system in production, DELC, make an identical diagnosis. However, a number of cases are not diagnosed by DELC but are correctly diagnosed by PANDA. The cases for which self-diagnosis results of the two systems are different were evaluated manually, which made it possible to demonstrate in each of these cases the relevance of the decisions taken by PANDA
Styles APA, Harvard, Vancouver, ISO, etc.
14

Leurent, Fabien. « Modélisation du trafic, des déplacements sur un réseau et de l'accessibilité aux activités grâce au transport ». Habilitation à diriger des recherches, Université Paris Dauphine - Paris IX, 2006. http://tel.archives-ouvertes.fr/tel-00348286.

Texte intégral
Résumé :
Mes travaux de recherche ont pour sujet unificateur : les déplacements et les réseaux de transport ; et ils ont été traités par une approche unique, la modélisation physico-économique à caractère mathématique et algorithmique.
Une telle modélisation comporte quatre aspects : un contenu sémantique, à caractère physique ou économique ; une formulation mathématique ; un solveur technique ; un aspect empirique (métrologie, statistique, économétrie).
Les disciplines mises en œuvre sont variées : théorie des réseaux, optimisation, informatique algorithmique, probabilités et statistiques, et aussi économie, socio-économie et physique du trafic. Mes contributions théoriques concernent la théorie des réseaux, l'économie du transport et la physique du trafic.
Mes travaux se répartissent en quatre thèmes :
A. La mesure et la modélisation du trafic. Au niveau local d'une route, j'ai analysé la relation entre flux et vitesse en mettant en cohérence l'analyse désagrégée, probabiliste au niveau du mobile individuel ; et l'analyse macroscopique en termes de flux et de distribution statistique des temps.
B. La modélisation des réseaux et des cheminements. L'équilibre entre offre de transport et demande de déplacement conjugue une dimension spatiale - topologique, une dimension temporelle, et une dimension comportementale - économique. Les enjeux de modélisation concernent : la représentation de l'offre et la demande ; la formulation et les propriétés d'existence – unicité – stabilité ; les algorithmes. Je me suis intéressé à la diversité des comportements ; et à la modélisation fine de l'offre et à la dimension temporelle.
C. L'analyse socio-économique des déplacements. Je me suis intéressé à l'usage de divers moyens de transport et à la prospection de leur clientèle potentielle ; au choix d'horaire de déplacement ; aux caractéristiques à la fois économiques et dynamiques de la congestion.
D. La distribution spatiale des déplacements et des activités. Je me suis intéressé d'une part à l'observation des flux par relation origine-destination (O-D) et à l'inférence statistique des matrices O-D ; et d'autre part, à la justification microéconomique des déplacements en raison de la localisation et de l'utilité des activités.
Styles APA, Harvard, Vancouver, ISO, etc.
15

Dumora, Christophe. « Estimation de paramètres clés liés à la gestion d'un réseau de distribution d'eau potable : Méthode d'inférence sur les noeuds d'un graphe ». Thesis, Bordeaux, 2020. http://www.theses.fr/2020BORD0325.

Texte intégral
Résumé :
L'essor des données générées par les capteurs et par les outils opérationnels autour de la gestion des réseaux d'alimentation en eau potable (AEP) rendent ces systèmes de plus en plus complexes et de façon générale les événements plus difficiles à appréhender. L'historique de données lié à la qualité de l’eau distribuée croisé avec la connaissance du patrimoine réseau, des données contextuelles et des paramètres temporels amène à étudier un système complexe de par sa volumétrie et l'existence d'interactions entre ces différentes données de natures diverses pouvant varier dans le temps et l’espace. L'utilisation de graphes mathématiques permet de regrouper toute cette diversité et fournit une représentation complète des réseaux AEP ainsi que les évènements pouvant y survenir ou influer sur leur bon fonctionnement. La théorie des graphes associées à ces graphes mathématiques permet une analyse structurelle et spectrale des réseaux ainsi constitués afin de répondre à des problématiques métiers concrètes et d'améliorer des processus internes existants. Ces graphes sont ensuite utilisés pour répondre au problème d'inférence sur les noeuds d'un très grand graphe à partir de l'observation partielle de quelques données sur un faible nombre de noeuds. Une approche par algorithme d'optimisation sur les graphes est utilisée pour construire une variable numérique de débit en tout noeuds du graphe (et donc en tout point du réseau physique) à l'aide d'algorithme de flots et des données issues des débitmètres réseau. Ensuite une approche de prédiction par noyau reposant sur un estimateur pénalisé de type Ridge, qui soulève des problèmes d'analyse spectrale de grande matrice creuse, permet l'inférence d'un signal observé sur un certains nombre de noeuds en tout point d'un réseau AEP
The rise of data generated by sensors and operational tools around water distribution network (WDN) management make these systems more and more complex and in general the events more difficult to predict. The history of data related to the quality of distributed water crossed with the knowledge of network assets, contextual data and temporal parameters lead to study a complex system due to its volume and the existence of interactions between these various type of data which may vary in time and space. This big variety of data is grouped by the use of mathematical graph and allow to represent WDN as a whole and all the events that may arise therein or influence their proper functioning. The graph theory associated with these mathematical graphs allow a structural and spectral analysis of WDN to answer to specific needs and enhance existing process. These graphs are then used to answer the probleme of inference on the nodes of large graph from the observation of data on a small number of nodes. An approach by optminisation algorithm is used to construct a variable of flow on every nodes of a graph (therefore at any point of a physical network) using flow algorithm and data measured in real time by flowmeters. Then, a kernel prediction approach based on a Ridge estimator, which raises spectral analysis problems of a large sparse matrix, allow the inference of a signal measured on specific nodes of a graph at any point of a WDN
Styles APA, Harvard, Vancouver, ISO, etc.
16

Prost, Vincent. « Sparse unsupervised learning for metagenomic data ». Electronic Thesis or Diss., université Paris-Saclay, 2020. http://www.theses.fr/2020UPASL013.

Texte intégral
Résumé :
Les avancées technologiques dans le séquençage ADN haut débit ont permis à la métagénomique de considérablement se développer lors de la dernière décennie. Le séquencage des espèces directement dans leur milieu naturel a ouvert de nouveaux horizons dans de nombreux domaines de recherche. La réduction des coûts associée à l'augmentation du débit fait que de plus en plus d'études sont lancées actuellement.Dans cette thèse nous considérons deux problèmes ardus en métagénomique, à savoir le clustering de lectures brutes et l'inférence de réseaux microbiens. Pour résoudre ces problèmes, nous proposons de mettre en oeuvre des méthodes d'apprentissage non supervisées utilisant le principe de parcimonie, ce qui prend la forme concrète de problèmes d'optimisation avec une pénalisation de norme l1.Dans la première partie de la thèse, on considère le problème intermédiaire du clustering des séquences ADN dans des partitions biologiquement pertinentes (binning). La plupart des méthodes computationelles n'effectuent le binning qu'après une étape d'assemblage qui est génératrice d'erreurs (avec la création de contigs chimériques) et de pertes d'information. C'est pourquoi nous nous penchons sur le problème du binning sans assemblage préalable. Nous exploitons le signal de co-abondance des espèces au travers des échantillons mesuré via le comptage des k-mers (sous-séquences de taille k) longs. L'utilisation du Local Sensitive Hashing (LSH) permet de contenir, au coût d'une approximation, l'explosion combinatoire des k-mers possibles dans un espace de cardinal fixé. La première contribution de la thèse est de proposer l'application d'une factorisation en matrices non-négatives creuses (sparse NMF) sur la matrice de comptage des k-mers afin de conjointement extraire une information de variation d'abondance et d'effectuer le clustering des k-mers. Nous montrons d'abord le bien fondé de l'approche au niveau théorique. Puis, nous explorons dans l'état de l'art les méthodes de sparse NMF les mieux adaptées à notre problème. Les méthodes d'apprentissage de dictionnaire en ligne ont particulièrement retenu notre attention de par leur capacité à passer à l'échelle pour des jeux de données comportant un très grand nombre de points. La validation des méthodes de binning en métagénomique sur des données réelles étant difficile à cause de l'absence de vérité terrain, nous avons créé et utilisé plusieurs jeux de données synthétiques pour l'évaluation des différentes méthodes. Nous montrons que l'application de la sparse NMF améliore les méthodes de l'état de l'art pour le binning sur ces jeux de données. Des expérience sur des données métagénomiques réelles issus de 1135 échantillons de microbiotes intestinaux d'individus sains ont également été menées afin de montrer la pertinence de l'approche.Dans la seconde partie de la thèse, on considère les données métagénomiques après le profilage taxonomique, c'est à dire des donnés multivariées représentant les niveaux d'abondance des taxons au sein des échantillons. Les microbes vivant en communautés structurées par des interactions écologiques, il est important de pouvoir identifier ces interactions. Nous nous penchons donc sur le problème de l'inférence de réseau d'interactions microbiennes à partir des profils taxonomiques. Ce problème est souvent abordé dans le cadre théorique des modèles graphiques gaussiens (GGM), pour lequel il existe des algorithmes d'inférence puissants tel que le graphical lasso. Mais les méthodes statistiques existantes sont très limitées par l'aspect extrêmement creux des profils taxonomiques que l'on rencontre en métagénomique, notamment par la grande proportion de zéros dits biologiques (i.e. liés à l'absence réelle de taxons). Nous proposons un model log normal avec inflation de zéro visant à traiter ces zéros biologiques et nous montrons un gain de performance par rapport aux méthodes de l'état de l'art pour l'inférence de réseau d'interactions microbiennes
The development of massively parallel sequencing technologies enables to sequence DNA at high-throughput and low cost, fueling the rise of metagenomics which is the study of complex microbial communities sequenced in their natural environment.Metagenomic problems are usually computationally difficult and are further complicated by the massive amount of data involved.In this thesis we consider two different metagenomics problems: 1. raw reads binning and 2. microbial network inference from taxonomic abundance profiles. We address them using unsupervised machine learning methods leveraging the parsimony principle, typically involving l1 penalized log-likelihood maximization.The assembly of genomes from raw metagenomic datasets is a challenging task akin to assembling a mixture of large puzzles composed of billions or trillions of pieces (DNA sequences). In the first part of this thesis, we consider the related task of clustering sequences into biologically meaningful partitions (binning). Most of the existing computational tools perform binning after read assembly as a pre-processing, which is error-prone (yielding artifacts like chimeric contigs) and discards vast amounts of information in the form of unassembled reads (up to 50% for highly diverse metagenomes). This motivated us to try to address the raw read binning (without prior assembly) problem. We exploit the co-abundance of species across samples as discriminative signal. Abundance is usually measured via the number of occurrences of long k-mers (subsequences of size k). The use of Local Sensitive Hashing (LSH) allows us to contain, at the cost of some approximation, the combinatorial explosion of long k-mers indexing. The first contribution of this thesis is to propose a sparse Non-Negative Matrix factorization (NMF) of the samples x k-mers count matrix in order to extract abundance variation signals. We first show that using sparse NMF is well-grounded since data is a sparse linear mixture of non-negative components. Sparse NMF exploiting online dictionary learning algorithms retained our attention, including its decent behavior on largely asymmetric data matrices. The validation of metagenomic binning being difficult on real datasets, because of the absence of ground truth, we created and used several benchmarks for the different methods evaluated on. We illustrated that sparse NMF improves state of the art binning methods on those datasets. Experiments conducted on a real metagenomic cohort of 1135 human gut microbiota showed the relevance of the approach.In the second part of the thesis, we consider metagenomic data after taxonomic profiling: multivariate data representing abundances of taxa across samples. It is known that microbes live in communities structured by ecological interaction between the members of the community. We focus on the problem of the inference of microbial interaction networks from taxonomic profiles. This problem is frequently cast into the paradigm of Gaussian graphical models (GGMs) for which efficient structure inference algorithms are available, like the graphical lasso. Unfortunately, GGMs or variants thereof can not properly account for the extremely sparse patterns occurring in real-world metagenomic taxonomic profiles. In particular, structural zeros corresponding to true absences of biological signals fail to be properly handled by most statistical methods. We present in this part a zero-inflated log-normal graphical model specifically aimed at handling such "biological" zeros, and demonstrate significant performance gains over state-of-the-art statistical methods for the inference of microbial association networks, with most notable gains obtained when analyzing taxonomic profiles displaying sparsity levels on par with real-world metagenomic datasets
Styles APA, Harvard, Vancouver, ISO, etc.
17

Donat, Roland. « Modélisation de la fiabilité et de la maintenance par modèles graphiques probabilistes : application à la prévention des ruptures de rail ». Phd thesis, INSA de Rouen, 2009. http://tel.archives-ouvertes.fr/tel-00474389.

Texte intégral
Résumé :
Les réseaux ferroviaires sont sujets à des dégradations de leur voie qui impactent directement le service offert aux voyageurs. Des politiques de maintenance sont donc déployées pour en limiter les effets sur la qualité et la disponibilité du réseau. Ce mémoire propose une modélisation générique de ces politiques reposant sur la fiabilité, et ce à partir du seul formalisme des réseaux bayésiens (RB). La fiabilité du système est caractérisée par un RB dynamique particulier tenant compte des temps de séjour dans chacun de ses états (hypothèse semi-markovienne). Les outils de diagnostics et les actions et les actions de maintenance sont également modélisés, autorisant la description fine de stratégies complexes. La prise en compte de l'utilité de chaque attribut du modèle (disponibilité/sécurité/coût) permet l'évaluation des politiques de maintenance innovantes en particulier prévisionnelles. La méthodologie est appliquée au cas précis du réseau RER de la RATP relativement au problème du rail cassé.
Styles APA, Harvard, Vancouver, ISO, etc.
18

Kanso, Assem. « Evaluation des modèles de calcul des flux polluants des rejets urbains par temps de pluie : Apport de l'approche bayésienne ». Phd thesis, Ecole des Ponts ParisTech, 2004. http://pastel.archives-ouvertes.fr/pastel-00001264.

Texte intégral
Résumé :
Ce travail de thèse se propose d'analyser et d'évaluer les modèles de calcul des flux polluants (MCFP) des rejets urbains par temps de pluie. Pour cela, un banc d'essai a été établi qui repose sur l'utilisation d'une méthodologie basée sur la théorie bayésienne. Ce banc d'essai a été utilisé à des différentes échelles d'espace tout au long du cheminement de l'eau de ruissellement depuis les chaussées jusqu'à l'exutoire du réseau d'assainissement sur le site du bassin versant expérimental du Marais à Paris. Cette méthodologie du banc d'essai utilise une technique de simulation par chaîne de Markov (algorithme Metropolis) pour estimer la distribution de probabilité a posteriori des paramètres du modèle, ce qui permet : - Une évaluation quantitative des incertitudes liées à l'estimation des paramètres ainsi que leurs interactions ; - Une estimation quantitative du niveau d'incertitude dans les résultats d'application de ces modèles ; - Une estimation du pouvoir prédictif du modèle. A l'échelle locale, des modèles d'accumulation, d'entraînement des solides sur les surfaces urbaines, et des modèles d'érosion des solides dans les réseaux d'assainissement ont été testés et analysés. A l'échelle du bassin versant le couplage des modèles élémentaires tel qu'ils sont utilisés dans les logiciels actuels, a pu être évalué. La méthodologie de mise en œuvre a produit des résultats fiables en particulier des distributions de paramètres des modèles qui aident à l'analyse mathématique et à l'interprétation des modèles couramment utilisés. Elle a démontré l'existence de larges incertitudes liées à l'utilisation des MCFP à l'échelle de bassin versant. Ces modèles n'expliquent qu'une faible partie de la variation de la concentration des MES entre 2 événements pluvieux ou à l'intérieur d'un même événement sur le site étudié.
Styles APA, Harvard, Vancouver, ISO, etc.
19

Lhoussaine, Cédric. « Réceptivité, mobilité et π-Calcul ». Aix-Marseille 1, 2002. http://www.theses.fr/2002AIX11046.

Texte intégral
Résumé :
Cette thèse est une contribution au développement de modèles formels décrivant la migration de code. Plus particulièrement, nous y développons un calcul distribué fondé sur un fragment du π-calcul asynchrone dont la syntaxe est enrichie d'une distribution explicite des processus dans des localités et d'un opérateur de migration de processus entre différentes localités. Dans ce modèle, nous prouvons qu'une forme d'absence d'interblocage peut être garantie grâce à un système d'analyse statique simple combiné avec un système de types. Les canaux de communication ont une propriété dite de "réceptivité", et plus généralement nous démontrons la "livrabilité des messages" qui établit que tous les messages émis auront la possibilité d'être reçus, même éventuellement après migration. Une série d'exemples illustrant le "style de programmation réceptif", nous porte à croire que ce calcul distribué reste suffisamment expressif. La réceptivité peut également être exprimée dans le π-calcul asynchrone sans répartition. On démontre dans ce cas que la réceptivité n'est pas obtenue au détriment de son expressivité par un codage "fully-abstract" du π-calcul à récepteurs uniques dans le π-calcul réceptif. Pour cela, nous sommes amenés à développer des techniques de preuves de bisimulations asynchrones "up-to". Enfin, dans la dernière partie de cette thèse nous nous intéressons au problème de l'inférence de types pour le π-calcul réparti. Nous montrons que la présence de types dépendants complique ce problème et nécessite le développement de nouvelles techniques. Nous donnons un algorithme, qui, étant donné un terme du langage retourne les types les plus généraux. Nous montrons que cet algorithme est correct et complet.
Styles APA, Harvard, Vancouver, ISO, etc.
20

Sella, Nadir. « Reconstruction de réseaux à partir de données génomiques et cliniques ». Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS351.

Texte intégral
Résumé :
Cette thèse consiste au développement d’une nouvelle approche méthodologique pour reconstruire les réseaux à partir de données biologiques et cliniques qui surmonte certains problèmes techniques et informatiques des méthodes existantes pour accomplir cette tâche. Notre algorithme (MIIC), permet l'étude d'ensembles de données discrètes, continues et mixtes avec tout type de distributions de probabilité et de densité, y compris la présence possible de variables latentes, qui sont très importantes dans des contextes réels où il n'est pas toujours possible de collecter toutes les variables pertinentes. MIIC est disponible par le biais d'une interface Web à l'adresse suivante: https://miic.curie.fr, et sous la forme d'un paquet R disponible sur CRAN. La deuxième partie de la thèse est consacrée à l'analyse d'applications réelles: de la reconstruction d'un réseau de régulation génétique et une carte de contact des protéines, à l'étude des dossiers cliniques de patients atteints de troubles cognitifs ou de cancer du sein. MIIC peut aider les médecins à visualiser et à analyser les effets directs, indirects et éventuellement causaux des dossiers médicaux des patients, à découvrir de nouvelles interdépendances directes inattendues entre des informations cliniquement pertinentes ou à expliquer une connexion manquante par d'autres liens trouvés dans la reconstruction
This thesis consists in the development of a novel methodological approach to reconstruct networks starting from biological and clinical data. It overcomes some technical and computational problems of existing methods to accomplish this task. Our algorithm (MIIC), allows the study of discrete, continuous and mixed datasets with any type of probability and density distributions, including the possible presence of latent variables, which are very important in real contexts where it is not always possible to collect all relevant variables. MIIC is available through a web interface at the address: https://miic.curie.fr, and as an R package available on CRAN. The second part of the thesis is devoted to the analysis of real life applications: from gene regulatory network reconstruction and protein contact map reconstruction, to the study of clinical records of patients affected by cognitive disorders or breast cancer. MIIC can help physicians in visualizing and analysing direct, indirect and possibly causal effects from patient medical records, discovering novel unexpected direct interdependencies between clinically relevant information or explaining a missing connection through other links found in the reconstruction
Styles APA, Harvard, Vancouver, ISO, etc.
21

Duong, Vu Nguyen. « La résolution des réseaux de contraintes algébriques et qualitatives : une approche d'aide à la conception en ingéniérie ». Phd thesis, Ecole Nationale des Ponts et Chaussées, 1990. http://tel.archives-ouvertes.fr/tel-00520680.

Texte intégral
Résumé :
La thèse est que la représentation par contraintes, en terme de langage et la déduction par la gestion automatique des réseaux de contraintes est une voie adéquate pour les systèmes d'aide à la conception en ingénierie. Deux techniques de l'Intelligence Artificielle à savoir la Propagation de Contraintes et le Raisonnement Qualitatif sont abordées. La Propagation de Contraintes est un mécanisme d'inférences déductives sur les réseaux de contraintes. Ce mécanisme présente plusieurs difficultés, particulièrement dans les calculs pas-à-pas de la résolution des relations entre valeurs des variables. Pour améliorer ce mécanisme, il est proposé dans le présente travail des algorithmes de filtrage sur la consistance locale dans des réseaux de contraintes algébriques n-aires. Ainsi, le concept de réseaux dynamiques est exploité comme un module d'aide à la conception. Le Raisonnement Qualitatif permet aux concepteurs d'analyser les modèles quand la connaissance est incomplète. L'approche de la Simulation Qualitative est proposée. L'adéquation de celle-ci est illustrée par d'une part, la représentation de connaissances incomplètes en termes de contraintes qualitatives, et d'autre part, sa capacité de saisir les comportements qualitatifs possibles des modèles. Un ensemble de logiciels est développé et leur efficacité démontrée sur des cas simples.
Styles APA, Harvard, Vancouver, ISO, etc.
22

Pawlowski, Filip igor. « High-performance dense tensor and sparse matrix kernels for machine learning ». Thesis, Lyon, 2020. http://www.theses.fr/2020LYSEN081.

Texte intégral
Résumé :
Dans cette thèse, nous développons des algorithmes à haute performance pour certains calculs impliquant des tenseurs denses et des matrices éparses. Nous abordons les opérations du noyau qui sont utiles pour les tâches d'apprentissage de la machine, telles que l'inférence avec les réseaux neuronaux profonds. Nous développons des structures de données et des techniques pour réduire l'utilisation de la mémoire, pour améliorer la localisation des données et donc pour améliorer la réutilisation du cache des opérations du noyau. Nous concevons des algorithmes parallèles à mémoire séquentielle et à mémoire partagée.Dans la première partie de la thèse, nous nous concentrons sur les noyaux tenseurs denses. Les noyaux tenseurs comprennent la multiplication tenseur-vecteur (TVM), la multiplication tenseur-matrice (TMM) et la multiplication tenseur-tendeur (TTM). Parmi ceux-ci, la MVT est la plus liée à la largeur de bande et constitue un élément de base pour de nombreux algorithmes. Nous proposons une nouvelle structure de données qui stocke le tenseur sous forme de blocs, qui sont ordonnés en utilisant la courbe de remplissage de l'espace connue sous le nom de courbe de Morton (ou courbe en Z). L'idée clé consiste à diviser le tenseur en blocs suffisamment petits pour tenir dans le cache et à les stocker selon l'ordre de Morton, tout en conservant un ordre simple et multidimensionnel sur les éléments individuels qui les composent. Ainsi, des routines BLAS haute performance peuvent être utilisées comme micro-noyaux pour chaque bloc. Les résultats démontrent non seulement que l'approche proposée est plus performante que les variantes de pointe jusqu'à 18%, mais aussi que l'approche proposée induit 71% de moins d'écart-type d'échantillon pour le MVT dans les différents modes possibles. Enfin, nous étudions des algorithmes de mémoire partagée parallèles pour la MVT qui utilisent la structure de données proposée. Nos résultats sur un maximum de 8 systèmes de prises montrent une performance presque maximale pour l'algorithme proposé pour les tenseurs à 2, 3, 4 et 5 dimensions.Dans la deuxième partie de la thèse, nous explorons les calculs épars dans les réseaux de neurones en nous concentrant sur le problème d'inférence profonde épars à haute performance. L'inférence sparse DNN est la tâche d'utiliser les réseaux sparse DNN pour classifier un lot d'éléments de données formant, dans notre cas, une matrice de caractéristiques sparse. La performance de l'inférence clairsemée dépend de la parallélisation efficace de la matrice clairsemée - la multiplication matricielle clairsemée (SpGEMM) répétée pour chaque couche dans la fonction d'inférence. Nous introduisons ensuite l'inférence modèle-parallèle, qui utilise un partitionnement bidimensionnel des matrices de poids obtenues à l'aide du logiciel de partitionnement des hypergraphes. Enfin, nous introduisons les algorithmes de tuilage modèle-parallèle et de tuilage hybride, qui augmentent la réutilisation du cache entre les couches, et utilisent un module de synchronisation faible pour cacher le déséquilibre de charge et les coûts de synchronisation. Nous évaluons nos techniques sur les données du grand réseau du IEEE HPEC 2019 Graph Challenge sur les systèmes à mémoire partagée et nous rapportons jusqu'à 2x l'accélération par rapport à la ligne de base
In this thesis, we develop high performance algorithms for certain computations involving dense tensors and sparse matrices. We address kernel operations that are useful for machine learning tasks, such as inference with deep neural networks (DNNs). We develop data structures and techniques to reduce memory use, to improve data locality and hence to improve cache reuse of the kernel operations. We design both sequential and shared-memory parallel algorithms. In the first part of the thesis we focus on dense tensors kernels. Tensor kernels include the tensor--vector multiplication (TVM), tensor--matrix multiplication (TMM), and tensor--tensor multiplication (TTM). Among these, TVM is the most bandwidth-bound and constitutes a building block for many algorithms. We focus on this operation and develop a data structure and sequential and parallel algorithms for it. We propose a novel data structure which stores the tensor as blocks, which are ordered using the space-filling curve known as the Morton curve (or Z-curve). The key idea consists of dividing the tensor into blocks small enough to fit cache, and storing them according to the Morton order, while keeping a simple, multi-dimensional order on the individual elements within them. Thus, high performance BLAS routines can be used as microkernels for each block. We evaluate our techniques on a set of experiments. The results not only demonstrate superior performance of the proposed approach over the state-of-the-art variants by up to 18%, but also show that the proposed approach induces 71% less sample standard deviation for the TVM across the d possible modes. Finally, we show that our data structure naturally expands to other tensor kernels by demonstrating that it yields up to 38% higher performance for the higher-order power method. Finally, we investigate shared-memory parallel TVM algorithms which use the proposed data structure. Several alternative parallel algorithms were characterized theoretically and implemented using OpenMP to compare them experimentally. Our results on up to 8 socket systems show near peak performance for the proposed algorithm for 2, 3, 4, and 5-dimensional tensors. In the second part of the thesis, we explore the sparse computations in neural networks focusing on the high-performance sparse deep inference problem. The sparse DNN inference is the task of using sparse DNN networks to classify a batch of data elements forming, in our case, a sparse feature matrix. The performance of sparse inference hinges on efficient parallelization of the sparse matrix--sparse matrix multiplication (SpGEMM) repeated for each layer in the inference function. We first characterize efficient sequential SpGEMM algorithms for our use case. We then introduce the model-parallel inference, which uses a two-dimensional partitioning of the weight matrices obtained using the hypergraph partitioning software. The model-parallel variant uses barriers to synchronize at layers. Finally, we introduce tiling model-parallel and tiling hybrid algorithms, which increase cache reuse between the layers, and use a weak synchronization module to hide load imbalance and synchronization costs. We evaluate our techniques on the large network data from the IEEE HPEC 2019 Graph Challenge on shared-memory systems and report up to 2x times speed-up versus the baseline
Styles APA, Harvard, Vancouver, ISO, etc.
23

Bouzeghoub, Mokrane. « Secsi : un système expert en conception de systèmes d'informations, modélisation conceptuelle de schémas de bases de données ». Paris 6, 1986. http://www.theses.fr/1986PA066046.

Texte intégral
Résumé :
Les principaux objectifs du système sont d'une part la constitution d'une base de connaissances regroupant à la fois des acquis théoriques sur les modèles et une expérience pratique en conception de bases de données, et d'autre part la réalisation d'un système d'outils ouvert, capable aussi bien de données, et d'autre part la réalisation d'un système d'outils ouvert, capable aussi bien d'expliquer et de justifier ses choix et ses résultats que d'intégrer de nouveaux concepts et de nouvelles règles de conception. Outre l'architecture générale et les fonctionnalités du système, cette thèse décrit le modèle de représentation de connaissances base sur les réseaux sémantiques, les règles d'inférence et la méthodologie de conception adoptée.
Styles APA, Harvard, Vancouver, ISO, etc.
24

Gallet, Emmanuelle. « Techniques de model-checking pour l’inférence de paramètres et l’analyse de réseaux biologiques ». Thesis, Université Paris-Saclay (ComUE), 2016. http://www.theses.fr/2016SACLC035/document.

Texte intégral
Résumé :
Dans ce mémoire, nous présentons l’utilisation de techniques de model-checking pour l’inférence de paramètres de réseaux de régulation génétique (GRN) et l’analyse formelle d’une voie de signalisation. Le coeur du mémoire est décrit dans la première partie, dans laquelle nous proposons une approche pour inférer les paramètres biologiques régissant les dynamiques de modèles discrets de GRN. Les GRN sont encodés sous la forme d’un méta-modèle, appelé GRN paramétré, de telle façon qu’une instance de paramètres définit un modèle discret du GRN initial. Sous réserve que les propriétés biologiques d’intérêt s’expriment sous la forme de formules LTL, les techniques de model-checking LTL sont combinées à celles d’exécution symbolique et de résolution de contraintes afin de sélectionner les modèles satisfaisant ces propriétés. L’enjeu est de contourner l’explosion combinatoire en terme de taille et de nombre de modèles discrets. Nous avons implémenté notre méthode en Java, dans un outil appelé SPuTNIk. La seconde partie décrit une collaboration avec des neuropédiatres, qui ont pour objectif de comprendre l’apparition du phénotype protecteur ou toxique des microglies (un type de macrophage du cerveau) chez les prématurés. Cette partie exploite un autre versant du model-checking, celui du modelchecking statistique, afin d’étudier un type de réseau biologique particulier : la voie de signalisation Wnt/β-caténine, qui permet la transmission d’un signal de l’extérieur à l’intérieur des cellules via une cascade de réactions biochimiques. Nous présentons ici l’apport du model-checker stochastique COSMOS, utilisant la logique stochastique à automate hybride (HASL), un formalisme très expressif nous permettant une analyse formelle sophistiquée des dynamiques de la voie Wnt/β-caténine, modélisée sous la forme d’un processus stochastique à événements discrets
In this thesis, we present the use of model checking techniques for inference of parameters of Gene Regulatory Networks (GRNs) and formal analysis of a signalling pathway. In the first and main part, we provide an approach to infer biological parameters governing the dynamics of discrete models of GRNs. GRNs are encoded in the form of a meta-model, called Parametric GRN, such that a parameter instance defines a discrete model of the original GRN. Provided that targeted biological properties are expressed in the form of LTL formulas, LTL model-checking techniques are combined with symbolic execution and constraint solving techniques to select discrete models satisfying these properties. The challenge is to prevent combinatorial explosion in terms of size and number of discrete models. Our method is implemented in Java, in a tool called SPuTNIk. The second part describes a work performed in collaboration with child neurologists, who aim to understand the occurrence of toxic or protective phenotype of microglia (a type of macrophage in the brain) in the case of preemies. We use an other type of model-checking, the statistical model-checking, to study a particular type of biological network: the Wnt/β- catenin pathway that transmits an external signal into the cells via a cascade of biochemical reactions. Here we present the benefit of the stochastic model checker COSMOS, using the Hybrid Automata Stochastic Logic (HASL), that is an very expressive formalism allowing a sophisticated formal analysis of the dynamics of the Wnt/β-catenin pathway, modelled as a discrete event stochastic process
Styles APA, Harvard, Vancouver, ISO, etc.
25

Raybaud, Sylvain. « De l'utilisation de mesures de confiance en traduction automatique : évaluation, post-édition et application à la traduction de la parole ». Thesis, Université de Lorraine, 2012. http://www.theses.fr/2012LORR0260/document.

Texte intégral
Résumé :
Cette thèse de doctorat aborde les problématiques de l'estimation de confiance pour la traduction automatique, et de la traduction automatique statistique de la parole spontanée à grand vocabulaire. J'y propose une formalisation du problème d'estimation de confiance, et aborde expérimentalement le problème sous le paradigme de la classification et régression multivariée. Je propose une évaluation des performances des différentes méthodes évoquées, présente les résultats obtenus lors d'une campagne d'évaluation internationale et propose une application à la post-édition par des experts de documents traduits automatiquement. J'aborde ensuite le problème de la traduction automatique de la parole. Après avoir passé en revue les spécificités du medium oral et les défis particuliers qu'il soulève, je propose des méthodes originales pour y répondre, utilisant notamment les réseaux de confusion phonétiques, les mesures de confiances et des techniques de segmentation de la parole. Je montre finalement que le prototype propose rivalise avec des systèmes état de l'art à la conception plus classique
In this thesis I shall deal with the issues of confidence estimation for machine translation and statistical machine translation of large vocabulary spontaneous speech translation. I shall first formalize the problem of confidence estimation. I present experiments under the paradigm of multivariate classification and regression. I review the performances yielded by different techniques, present the results obtained during the WMT2012 internation evaluation campaign and give the details of an application to post edition of automatically translated documents. I then deal with the issue of speech translation. After going into the details of what makes it a very specific and particularly challenging problem, I present original methods to partially solve it, by using phonetic confusion networks, confidence estimation techniques and speech segmentation. I show that the prototype I developped yields performances comparable to state-of-the-art of more standard design
Styles APA, Harvard, Vancouver, ISO, etc.
26

Sahin, Serdar. « Advanced receivers for distributed cooperation in mobile ad hoc networks ». Thesis, Toulouse, INPT, 2019. http://www.theses.fr/2019INPT0089.

Texte intégral
Résumé :
Les réseaux ad hoc mobiles (MANETs) sont des systèmes de communication sans fil rapidement déployables et qui fonctionnent avec une coordination minimale, ceci afin d'éviter les pertes d'efficacité spectrale induites par la signalisation. Les stratégies de transmissions coopératives présentent un intérêt pour les MANETs, mais la nature distribuée de tels protocoles peut augmenter le niveau d'interférence avec un impact autant plus sévère que l'on cherche à pousser les limites des efficacités énergétique et spectrale. L'impact de l'interférence doit alors être réduit par l'utilisation d'algorithmes de traitement du signal au niveau de la couche PHY, avec une complexité calculatoire raisonnable. Des avancées récentes sur les techniques de conception de récepteurs numériques itératifs proposent d'exploiter l'inférence bayésienne approximée et des techniques de passage de message associés afin d'améliorer le potentiel des turbo-détecteurs plus classiques. Entre autres, la propagation d'espérance (EP) est une technique flexible, qui offre des compromis attractifs de complexité et de performance dans des situations où la propagation de croyance conventionnel est limité par sa complexité calculatoire. Par ailleurs, grâce à des techniques émergentes de l'apprentissage profond, de telles structures itératives peuvent être projetés vers des réseaux de détection profonds, où l'apprentissage des hyper-paramètres algorithmiques améliore davantage les performances. Dans cette thèse nous proposons des égaliseurs à retour de décision à réponse impulsionnelle finie basée sur la propagation d'espérance (EP) qui apportent des améliorations significatives, en particulier pour des applications à haute efficacité spectrale vis à vis des turbo-détecteurs conventionnels, tout en ayant l'avantage d'être asymptotiquement prédictibles. Nous proposons un cadre générique pour la conception de récepteurs dans le domaine fréquentiel, afin d'obtenir des architectures de détection avec une faible complexité calculatoire. Cette approche est analysée théoriquement et numériquement, avec un accent mis sur l'égalisation des canaux sélectifs en fréquence, et avec des extensions pour de la détection dans des canaux qui varient dans le temps ou pour des systèmes multi-antennes. Nous explorons aussi la conception de détecteurs multi-utilisateurs, ainsi que l'impact de l'estimation du canal, afin de comprendre le potentiel et le limite de cette approche. Pour finir, nous proposons une méthode de prédiction performance à taille finie, afin de réaliser une abstraction de lien pour l'égaliseur domaine fréquentiel à base d'EP. L'impact d'un modélisation plus fine de la couche PHY est évalué dans le contexte de la diffusion coopérative pour des MANETs tactiques, grâce à un simulateur flexible de couche MAC
Mobile ad hoc networks (MANETs) are rapidly deployable wireless communications systems, operating with minimal coordination in order to avoid spectral efficiency losses caused by overhead. Cooperative transmission schemes are attractive for MANETs, but the distributed nature of such protocols comes with an increased level of interference, whose impact is further amplified by the need to push the limits of energy and spectral efficiency. Hence, the impact of interference has to be mitigated through with the use PHY layer signal processing algorithms with reasonable computational complexity. Recent advances in iterative digital receiver design techniques exploit approximate Bayesian inference and derivative message passing techniques to improve the capabilities of well-established turbo detectors. In particular, expectation propagation (EP) is a flexible technique which offers attractive complexity-performance trade-offs in situations where conventional belief propagation is limited by computational complexity. Moreover, thanks to emerging techniques in deep learning, such iterative structures are cast into deep detection networks, where learning the algorithmic hyper-parameters further improves receiver performance. In this thesis, EP-based finite-impulse response decision feedback equalizers are designed, and they achieve significant improvements, especially in high spectral efficiency applications, over more conventional turbo-equalization techniques, while having the advantage of being asymptotically predictable. A framework for designing frequency-domain EP-based receivers is proposed, in order to obtain detection architectures with low computational complexity. This framework is theoretically and numerically analysed with a focus on channel equalization, and then it is also extended to handle detection for time-varying channels and multiple-antenna systems. The design of multiple-user detectors and the impact of channel estimation are also explored to understand the capabilities and limits of this framework. Finally, a finite-length performance prediction method is presented for carrying out link abstraction for the EP-based frequency domain equalizer. The impact of accurate physical layer modelling is evaluated in the context of cooperative broadcasting in tactical MANETs, thanks to a flexible MAC-level simulator
Styles APA, Harvard, Vancouver, ISO, etc.
27

Arya, Vijay. « Inférence de congestion et Ingénierie de Trafic dans les Réseaux ». Phd thesis, 2005. http://tel.archives-ouvertes.fr/tel-00403607.

Texte intégral
Styles APA, Harvard, Vancouver, ISO, etc.
Nous offrons des réductions sur tous les plans premium pour les auteurs dont les œuvres sont incluses dans des sélections littéraires thématiques. Contactez-nous pour obtenir un code promo unique!

Vers la bibliographie