To see the other types of publications on this topic, follow the link: Modèles génératifs de séquences.

Dissertations / Theses on the topic 'Modèles génératifs de séquences'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Modèles génératifs de séquences.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Ponty, Yann. "Modélisation de séquences génomiques structurées, génération aléatoire et applications." Phd thesis, Université Paris Sud - Paris XI, 2006. http://tel.archives-ouvertes.fr/tel-00144130.

Full text
Abstract:
La mise en évidence des mécanismes de sélection agissant sur les données génomiques structurées (ARN, Protéines, ADN...) nécessite l'élaboration de modèles de séquences. Une fois un tel modèle élaboré, il est possible, au prix d'une analyse mathématique parfois complexe ou par le biais de la
génération aléatoire, d'évaluer la significativité d'un phénomène observé. Tout d'abord, nous nous intéressons aux propriétés des grammaires pondérées, un formalisme particulièrement adapté à la modélisation de la structure des ARN, dérivant des algorithmes de génération aléatoire efficaces implémentés au sein du prototype GenRGenS. Nous abordons le calcul automatique des pondérations réalisant des valeurs observées pour les paramètres du modèle, ainsi qu'une implémentation basée sur une approche optimisation. Dans un second temps, nous abordons la modélisation de la structure secondaire d'ARN. Après quelques rappels de biologie moléculaire, nous proposons plusieurs modèles basés sur des grammaires pondérées permettant la génération de structures d'ARN réalistes. L'utilisation d'un algorithme d'optimisation permet le calculer des pondérations correspondant à certaines familles d'ARN. Nous proposons enfin un algorithme d'extraction de structure secondaire maximale dans une structure générale, qui permet de profiter des données récentes issues de la cristallographie. Le dernier chapitre de cette thèse s'intéresse à l'analyse d'un algorithme de recherche de similarité heuristique, dont la sensibilité s'avère étroitement liée à la probabilité de présence d'un motif au sein de marches aléatoires particulières, les chemins culminants. Ces marches restent positives, et atteignent une altitude maximale en leur dernier pas. Nous proposons un algorithme récursif de génération aléatoire pour ces chemins. En combinant des techniques issues de la combinatoire énumérative, l'analyse asymptotique et la théorie des langages, nous dérivons des algorithmes de génération aléatoire par rejet linéaires dans de nombreux cas.
APA, Harvard, Vancouver, ISO, and other styles
2

Ressencourt, Hervé. "Diagnostic hors-ligne à base de modèles : approche multi-modèle pour la génération automatique de séquences de tests : application au domaine de l'automobile." Toulouse 3, 2008. http://thesesups.ups-tlse.fr/2151/.

Full text
Abstract:
Le travail de cette thèse s'intéresse au problème du diagnostic débarqué dans le domaine automobile. Il a consisté à proposer et à mettre en œuvre une méthode opérationnelle à base de modèles qui détermine les meilleures séquences de tests que doit réaliser le garagiste afin de localiser un composant défaillant sur un véhicule. Nous proposons une approche de représentation multi-modèle des systèmes mécatronique afin de prendre en compte la complexité fonctionnelle des architectures embarquées actuelles et de relier des symptômes fonctionnels de haut niveau à un ensemble de défauts portant sur des composants matériels et logiciels. Le séquencement des tests est réalisé à partir d'un critère du prochain meilleur test. Cette stratégie interactive laisse l'initiative à l'opérateur humain d'accepter ou de refuser le test proposé. Un prototype logiciel a été développé et testé avec succès sur la fonction essuyage arrière de véhicules réels. Cette thèse a été réalisée dans le cadre d'une convention CIFRE entre le LAAS-CNRS et la société ACTIA ainsi que dans le cadre du Laboratoire Commun Autodiag (LAAS, IRIT, ACTIA) dont l'objectif est de développer de nouvelles méthodes de diagnostic pour le domaine automobile
This thesis deals with the problem of off-board diagnosis in the automotive domain. The work has consisted in proposing and implementing an operational model based approach that determines the best sequences of tests to be performed by the garage mechanic to localise a faulty component on a vehicle. A multi-model approach is proposed for the description of mechatronic systems, which allows us to handle the functional complexity of embedded systems and to match functional symptoms with a set of faults on hardware / software components. The test sequencing problem is approached along a next best test strategy based on a local heuristic. This strategy enables an interactive diagnostic session, allowing more flexibility and leaving with the human operator the initiative to accept or reject the proposed test. A software prototype has been developed and tested on the rear wiper system of real vehicles. This thesis, supported by a CIFRE grant, is the result of collaboration between the company ACTIA and the research center LAAS-CNRS in the framework of the common laboratory Autodiag (LAAS, IRIT, ACTIA) which aims at developing new methods for diagnosis in the automotive domain
APA, Harvard, Vancouver, ISO, and other styles
3

Tubiana, Jérôme. "Restricted Boltzmann machines : from compositional representations to protein sequence analysis." Thesis, Paris Sciences et Lettres (ComUE), 2018. http://www.theses.fr/2018PSLEE039/document.

Full text
Abstract:
Les Machines de Boltzmann restreintes (RBM) sont des modèles graphiques capables d’apprendre simultanément une distribution de probabilité et une représentation des données. Malgré leur architecture relativement simple, les RBM peuvent reproduire très fidèlement des données complexes telles que la base de données de chiffres écrits à la main MNIST. Il a par ailleurs été montré empiriquement qu’elles peuvent produire des représentations compositionnelles des données, i.e. qui décomposent les configurations en leurs différentes parties constitutives. Cependant, toutes les variantes de ce modèle ne sont pas aussi performantes les unes que les autres, et il n’y a pas d’explication théorique justifiant ces observations empiriques. Dans la première partie de ma thèse, nous avons cherché à comprendre comment un modèle si simple peut produire des distributions de probabilité si complexes. Pour cela, nous avons analysé un modèle simplifié de RBM à poids aléatoires à l’aide de la méthode des répliques. Nous avons pu caractériser théoriquement un régime compositionnel pour les RBM, et montré sous quelles conditions (statistique des poids, choix de la fonction de transfert) ce régime peut ou ne peut pas émerger. Les prédictions qualitatives et quantitatives de cette analyse théorique sont en accord avec les observations réalisées sur des RBM entraînées sur des données réelles. Nous avons ensuite appliqué les RBM à l’analyse et à la conception de séquences de protéines. De part leur grande taille, il est en effet très difficile de simuler physiquement les protéines, et donc de prédire leur structure et leur fonction. Il est cependant possible d’obtenir des informations sur la structure d’une protéine en étudiant la façon dont sa séquence varie selon les organismes. Par exemple, deux sites présentant des corrélations de mutations importantes sont souvent physiquement proches sur la structure. A l’aide de modèles graphiques tels que les Machine de Boltzmann, on peut exploiter ces signaux pour prédire la proximité spatiale des acides-aminés d’une séquence. Dans le même esprit, nous avons montré sur plusieurs familles de protéines que les RBM peuvent aller au-delà de la structure, et extraire des motifs étendus d’acides aminés en coévolution qui reflètent les contraintes phylogénétiques, structurelles et fonctionnelles des protéines. De plus, on peut utiliser les RBM pour concevoir de nouvelles séquences avec des propriétés fonctionnelles putatives par recombinaison de ces motifs. Enfin, nous avons développé de nouveaux algorithmes d’entraînement et des nouvelles formes paramétriques qui améliorent significativement la performance générative des RBM. Ces améliorations les rendent compétitives avec l’état de l’art des modèles génératifs tels que les réseaux génératifs adversariaux ou les auto-encodeurs variationnels pour des données de taille intermédiaires
Restricted Boltzmann machines (RBM) are graphical models that learn jointly a probability distribution and a representation of data. Despite their simple architecture, they can learn very well complex data distributions such the handwritten digits data base MNIST. Moreover, they are empirically known to learn compositional representations of data, i.e. representations that effectively decompose configurations into their constitutive parts. However, not all variants of RBM perform equally well, and little theoretical arguments exist for these empirical observations. In the first part of this thesis, we ask how come such a simple model can learn such complex probability distributions and representations. By analyzing an ensemble of RBM with random weights using the replica method, we have characterised a compositional regime for RBM, and shown under which conditions (statistics of weights, choice of transfer function) it can and cannot arise. Both qualitative and quantitative predictions obtained with our theoretical analysis are in agreement with observations from RBM trained on real data. In a second part, we present an application of RBM to protein sequence analysis and design. Owe to their large size, it is very difficult to run physical simulations of proteins, and to predict their structure and function. It is however possible to infer information about a protein structure from the way its sequence varies across organisms. For instance, Boltzmann Machines can leverage correlations of mutations to predict spatial proximity of the sequence amino-acids. Here, we have shown on several synthetic and real protein families that provided a compositional regime is enforced, RBM can go beyond structure and extract extended motifs of coevolving amino-acids that reflect phylogenic, structural and functional constraints within proteins. Moreover, RBM can be used to design new protein sequences with putative functional properties by recombining these motifs at will. Lastly, we have designed new training algorithms and model parametrizations that significantly improve RBM generative performance, to the point where it can compete with state-of-the-art generative models such as Generative Adversarial Networks or Variational Autoencoders on medium-scale data
APA, Harvard, Vancouver, ISO, and other styles
4

Cochard, Thomas. "Contribution à la génération de séquences pour la conduite de systèmes complexes critiques." Thesis, Université de Lorraine, 2017. http://www.theses.fr/2017LORR0355/document.

Full text
Abstract:
Les travaux présentés dans ce manuscrit portent sur la conduite de systèmes complexes critiques. Ils s'inscrivent dans le cadre du projet CONNEXION (Investissements d'Avenir, BGLE2) qui réunit les principaux acteurs de la filière nucléaire française autour de la conception des systèmes de contrôle-commande des centrales et de leur exploitation. Dans le domaine de la conduite, les actions développées par le projet concernent la phase d'ingénierie avec pour objectif d'intégrer le point de vue de l'exploitant au plus tôt dans la validation des architectures de contrôle de commande, et la phase d'exploitation avec pour objectif de fournir une aide à la préparation et à l'exécution des procédures de conduite. Dans ce contexte, la contribution présentée dans ce mémoire porte sur la génération et la vérification de séquences d'actions de conduite répondant à un objectif donné et pouvant être opérées en toute sécurité sur le procédé. L'approche proposée repose la vérification d'une propriété d'atteignabilité sur un réseau d'automates temporisés modélisant le comportement des architectures. L'originalité réside dans la définition d’un cadre formel de modélisation sous la forme de patrons favorisant la réutilisabilité des modèles ainsi que dans la proposition d'algorithmes d'abstraction et de recherche d'atteignabilité itératifs exploitant la hiérarchisation intrinsèque des architectures afin de permettre le passage à l'échelle de l'approche proposée. La contribution a été éprouvée sur la plate-forme d'expérimentation CISPI du CRAN puis sur un cas d'étude à échelle industrielle proposé dans le cadre du projet CONNEXION
The works presented in this manuscript deals with critical complex systems operation. They are part of the CONNEXION project (Investissements d'Avenir, BGLE2), which involves the main actors in the French nuclear industry around the design of control systems for power plants and their operation. In the operation field, the actions developed by the project concern the engineering phase with the aim of integrating the operator's point of view as soon as possible in the validation of control architectures, and the operation phase with the aim of providing assistance in the preparation and execution of operation procedures. In this context, the contribution presented in this manuscript deals with the generation and verification of action sequences that meet a given objective and that can be safely operated on the process. The proposed approach relies on verifying a reachability property on a network of timed automata modelling the behavior of architectures. The originality is in the definition of a formal modelling framework using patterns promoting the reusability of models, as well as in the proposition of abstraction and reachability iterative analysis algorithms exploiting the intrinsic hierarchization of architectures in order to scale-up of the proposed approach. The contribution was evaluated on the CISPI experimental platform of the CRAN, and on an industrial scale case study proposed within the framework of the CONNEXION project
APA, Harvard, Vancouver, ISO, and other styles
5

Shimagaki, Kai. "Advanced statistical modeling and variable selection for protein sequences." Electronic Thesis or Diss., Sorbonne université, 2021. http://www.theses.fr/2021SORUS548.

Full text
Abstract:
Au cours des dernières décennies, des techniques de séquençage de protéines ont été développées et des expériences continues ont été menées. Grâce à tous ces efforts, de nos jours, nous avons obtenu plus de deux-cents millions données relative à des séquences de protéines. Afin de traiter une telle quantité de données biologiques, nous avons maintenant besoin de théories et de technologies pour extraire des informations de ces données que nous pouvons comprendre et pour apporter des idées. L'idée clé pour résoudre ce problème est la physique statistique et l'état de l'art de le Machine Learning (ML). La physique statistique est un domaine de la physique qui peut décrire avec succès de nombreux systèmes complexes en extrayant ou en réduisant les variables pour en faire des variables interprétables basées sur des principes simples.ML, d'autre part, peut représenter des données (par exemple en les reconstruisant ou en les classifiant) sans comprendre comment les données ont été générées, c'est-à-dire le phénomène physique à l'origine de la création de ces données. Dans cette thèse, nous rapportons des études de modélisation générative de séquences protéiques et de prédictions de contacts protéines-résidus à l'aide de la modélisation statistique inspirée de la physique et de méthodes orientées ML. Dans la première partie, nous passons en revue le contexte général de la biologie et de la génomique. Ensuite, nous discutons des modélisations statistiques pour la séquence des protéines. En particulier, nous passons en revue l'analyse de couplage direct (DCA), qui est la technologie de base de notre recherche
Over the last few decades, protein sequencing techniques have been developed and continuous experiments have been done. Thanks to all of these efforts, nowadays, we have obtained more than two hundred million protein sequence data. In order to deal with such a huge amount of biological data, now, we need theories and technologies to extract information that we can understand and interpret.The key idea to resolve this problem is statistical physics and the state of the art of machine learning (ML). Statistical physics is a field of physics that can successfully describe many complex systems by extracting or reducing variables to be interpretable variables based on simple principles. ML, on the other hand, can represent data (such as reconstruction and classification) without assuming how the data was generated, i.e. physical phenomenon behind of data. In this dissertation, we report studies of protein sequence generative modeling and protein-residue contact predictions using statistical physics-inspired modeling and ML-oriented methods. In the first part, we review the general background of biology and genomics. Then we discuss statistical modelings for protein sequence. In particular, we review Direct Coupling Analysis (DCA), which is the core technology of our research. We also discuss the effects of higher-order statistics contained in protein sequences and introduces deep learning-based generative models as a model that can go beyond pairwise interaction
APA, Harvard, Vancouver, ISO, and other styles
6

Lucas, Thomas. "Modèles génératifs profonds : sur-généralisation et abandon de mode." Thesis, Université Grenoble Alpes, 2020. http://www.theses.fr/2020GRALM049.

Full text
Abstract:
Cette dissertation explore le sujet des modèles génératifs appliqués aux images naturelles.Cette tâche consiste a modéliser la distribution des données observées, et peut permettre de générer des données artificielles semblables aux données d'origine, où de compresser des images.Les modèles à variable latentes, qui sont au cœur de cette thèse, cherchent a résumer les principaux facteurs de variation d'une image en une variable qui peut être manipulée.En particulier, nos contributions sont basées sur deux modèles génératifs a variable latentes: le modèle génératif adversarial (GAN) et l' encodeur variationel (VAE).Récemment, les GAN ont significativement amélioré la qualité des images générées par des modèles profonds, générant des images très convaincantes.Malheureusement ces modèles ont du mal à modéliser tous les modes de la distribution d'origine, ie ils ne couvrent pas les données dans toute leur variabilité.A l'inverse, les modèles basés sur le maximum de vraisemblance tels que les VAEs couvrent typiquement toute la variabilité des données, et en offrent une mesure objective.Mais ces modèles produisent des échantillons de qualité visuelle inférieure, qui sont plus facilement distingués de vrais images.Le travail présenté dans cette thèse a pour but d'obtenir le meilleur des deux mondes: des échantillons de bonne qualité tout en modélisant tout le support de la distribution.La première contribution de ce manuscrit est un modèle génératif profond qui encode la structure globale des images dans une variable latente, basé sur le VAE, et utilise un modèle autoregressif pour modéliser les détails de bas niveau.Nous proposons une procédure d'entrainement qui utilise une fonction de perte auxiliaire pour contrôler quelle information est capturée par la variable latent et quelle information est laissée à un décodeur autoregressif.Au contraire des précédentes approches pour construire des modèles hybrides de ce genre, notre modèle de nécessite pas de contraindre la capacité du décodeur autoregressif pour empêcher des modèles dégénérés qui ignorent la variable latente.La deuxième contribution est bâtie sur le modèle du GAN standard, qui utilise un discriminateur pour guider le modèle génératif.Le discriminateur évalue généralement la qualité d'échantillons individuels, ce qui rend la tache d'évaluer la variabilité des données difficile.A la place, nous proposons de fournir au discriminateur des ensembles de données, ou batches, qui mélangent des vraies images et des images générées.Nous l'entrainons à prédire le ratio de vrais et de faux éléments dans l'ensemble.Ces batches servent d'approximation de la vrai distribution des images générées et permettent au discriminateur d'approximer des statistiques sur leur distributionLes lacunes mutuelles des VAEs et des GANs peuvent, en principe, être réglées en entrainant des modèles hybrides qui utilisent les deux types d'objectif.Dans notre troisième contribution, nous montrons que les hypothèses paramétriques habituelles faites par les VAE produisent un conflit entre les deux, menant à des performances décevantes pour les modèles hybrides.Nous proposons une solution basée sur des modèles profonds inversibles, qui entraine un espace de features dans lequel les hypothèses habituelles peuvent être faites sans poser problème.Notre approche fourni des évaluations e vraisemblance dans l'espace des images tout en étant capable de tirer profit de l'entrainement adversaire.Elle obtient des échantillons de qualité équivalente au modèle pleinement adversaires tout en améliorant les scores de maximum de vraisemblance au moment de la publication, ce qui constitue une amélioration significative
This dissertation explores the topic of generative modelling of natural images,which is the task of fitting a data generating distribution.Such models can be used to generate artificial data resembling the true data, or to compress images.Latent variable models, which are at the core of our contributions, seek to capture the main factors of variations of an image into a variable that can be manipulated.In particular we build on two successful latent variable generative models, the generative adversarial network (GAN) and Variational autoencoder (VAE) models.Recently GANs significantly improved the quality of images generated by deep models, obtaining very compelling samples.Unfortunately these models struggle to capture all the modes of the original distribution, ie they do not cover the full variability of the dataset.Conversely, likelihood based models such as VAEs typically cover the full variety of the data well and provide an objective measure of coverage.However these models produce samples of inferior visual quality that are more easily distinguished from real ones.The work presented in this thesis strives for the best of both worlds: to obtain compelling samples while modelling the full support of the distribution.To achieve that, we focus on i) the optimisation problems used and ii) practical model limitations that hinder performance.The first contribution of this manuscript is a deep generative model that encodes global image structure into latent variables, built on the VAE, and autoregressively models low level detail.We propose a training procedure relying on an auxiliary loss function to control what information is captured by the latent variables and what information is left to an autoregressive decoder.Unlike previous approaches to such hybrid models, ours does not need to restrict the capacity of the autoregressive decoder to prevent degenerate models that ignore the latent variables.The second contribution builds on the standard GAN model, which trains a discriminator network to provide feedback to a generative network.The discriminator usually assesses the quality of individual samples, which makes it hard to evaluate the variability of the data.Instead we propose to feed the discriminator with emph{batches} that mix both true and fake samples, and train it to predict the ratio of true samples in the batch.These batches work as approximations of the distribution of generated images and allows the discriminator to approximate distributional statistics.We introduce an architecture that is well suited to solve this problem efficiently,and show experimentally that our approach reduces mode collapse in GANs on two synthetic datasets, and obtains good results on the CIFAR10 and CelebA datasets.The mutual shortcomings of VAEs and GANs can in principle be addressed by training hybrid models that use both types of objective.In our third contribution, we show that usual parametric assumptions made in VAEs induce a conflict between them, leading to lackluster performance of hybrid models.We propose a solution based on deep invertible transformations, that trains a feature space in which usual assumptions can be made without harm.Our approach provides likelihood computations in image space while being able to take advantage of adversarial training.It obtains GAN-like samples that are competitive with fully adversarial models while improving likelihood scores over existing hybrid models at the time of publication, which is a significant advancement
APA, Harvard, Vancouver, ISO, and other styles
7

Hadjeres, Gaëtan. "Modèles génératifs profonds pour la génération interactive de musique symbolique." Thesis, Sorbonne université, 2018. http://www.theses.fr/2018SORUS027/document.

Full text
Abstract:
Ce mémoire traite des modèles génératifs profonds appliqués à la génération automatique de musique symbolique. Nous nous attacherons tout particulièrement à concevoir des modèles génératifs interactifs, c'est-à-dire des modèles instaurant un dialogue entre un compositeur humain et la machine au cours du processus créatif. En effet, les récentes avancées en intelligence artificielle permettent maintenant de concevoir de puissants modèles génératifs capables de générer du contenu musical sans intervention humaine. Il me semble cependant que cette approche est stérile pour la production artistique dans le sens où l'intervention et l'appréciation humaines en sont des piliers essentiels. En revanche, la conception d'assistants puissants, flexibles et expressifs destinés aux créateurs de contenus musicaux me semble pleine de sens. Que ce soit dans un but pédagogique ou afin de stimuler la créativité artistique, le développement et le potentiel de ces nouveaux outils de composition assistée par ordinateur sont prometteurs. Dans ce manuscrit, je propose plusieurs nouvelles architectures remettant l'humain au centre de la création musicale. Les modèles proposés ont en commun la nécessité de permettre à un opérateur de contrôler les contenus générés. Afin de rendre cette interaction aisée, des interfaces utilisateurs ont été développées ; les possibilités de contrôle se manifestent sous des aspects variés et laissent entrevoir de nouveaux paradigmes compositionnels. Afin d'ancrer ces avancées dans une pratique musicale réelle, je conclue cette thèse sur la présentation de quelques réalisations concrètes (partitions, concerts) résultant de l'utilisation de ces nouveaux outils
This thesis discusses the use of deep generative models for symbolic music generation. We will be focused on devising interactive generative models which are able to create new creative processes through a fruitful dialogue between a human composer and a computer. Recent advances in artificial intelligence led to the development of powerful generative models able to generate musical content without the need of human intervention. I believe that this practice cannot be thriving in the future since the human experience and human appreciation are at the crux of the artistic production. However, the need of both flexible and expressive tools which could enhance content creators' creativity is patent; the development and the potential of such novel A.I.-augmented computer music tools are promising. In this manuscript, I propose novel architectures that are able to put artists back in the loop. The proposed models share the common characteristic that they are devised so that a user can control the generated musical contents in a creative way. In order to create a user-friendly interaction with these interactive deep generative models, user interfaces were developed. I believe that new compositional paradigms will emerge from the possibilities offered by these enhanced controls. This thesis ends on the presentation of genuine musical projects like concerts featuring these new creative tools
APA, Harvard, Vancouver, ISO, and other styles
8

Hadjeres, Gaëtan. "Modèles génératifs profonds pour la génération interactive de musique symbolique." Electronic Thesis or Diss., Sorbonne université, 2018. http://www.theses.fr/2018SORUS027.

Full text
Abstract:
Ce mémoire traite des modèles génératifs profonds appliqués à la génération automatique de musique symbolique. Nous nous attacherons tout particulièrement à concevoir des modèles génératifs interactifs, c'est-à-dire des modèles instaurant un dialogue entre un compositeur humain et la machine au cours du processus créatif. En effet, les récentes avancées en intelligence artificielle permettent maintenant de concevoir de puissants modèles génératifs capables de générer du contenu musical sans intervention humaine. Il me semble cependant que cette approche est stérile pour la production artistique dans le sens où l'intervention et l'appréciation humaines en sont des piliers essentiels. En revanche, la conception d'assistants puissants, flexibles et expressifs destinés aux créateurs de contenus musicaux me semble pleine de sens. Que ce soit dans un but pédagogique ou afin de stimuler la créativité artistique, le développement et le potentiel de ces nouveaux outils de composition assistée par ordinateur sont prometteurs. Dans ce manuscrit, je propose plusieurs nouvelles architectures remettant l'humain au centre de la création musicale. Les modèles proposés ont en commun la nécessité de permettre à un opérateur de contrôler les contenus générés. Afin de rendre cette interaction aisée, des interfaces utilisateurs ont été développées ; les possibilités de contrôle se manifestent sous des aspects variés et laissent entrevoir de nouveaux paradigmes compositionnels. Afin d'ancrer ces avancées dans une pratique musicale réelle, je conclue cette thèse sur la présentation de quelques réalisations concrètes (partitions, concerts) résultant de l'utilisation de ces nouveaux outils
This thesis discusses the use of deep generative models for symbolic music generation. We will be focused on devising interactive generative models which are able to create new creative processes through a fruitful dialogue between a human composer and a computer. Recent advances in artificial intelligence led to the development of powerful generative models able to generate musical content without the need of human intervention. I believe that this practice cannot be thriving in the future since the human experience and human appreciation are at the crux of the artistic production. However, the need of both flexible and expressive tools which could enhance content creators' creativity is patent; the development and the potential of such novel A.I.-augmented computer music tools are promising. In this manuscript, I propose novel architectures that are able to put artists back in the loop. The proposed models share the common characteristic that they are devised so that a user can control the generated musical contents in a creative way. In order to create a user-friendly interaction with these interactive deep generative models, user interfaces were developed. I believe that new compositional paradigms will emerge from the possibilities offered by these enhanced controls. This thesis ends on the presentation of genuine musical projects like concerts featuring these new creative tools
APA, Harvard, Vancouver, ISO, and other styles
9

Chevrier, Christophe. "Test de conformité de protocoles de communication modèle de fautes et génération automatique de séquences de tests." Bordeaux 1, 1996. http://www.theses.fr/1996BOR10503.

Full text
Abstract:
Une preoccupation majeure dans le domaine des reseaux et systemes repartis est le test. Nous nous sommes interesses au test de conformite qui a pour but de verifier si une implantation est conforme a une specification de protocole donnee. Nous avons elabore des methodes permettant de repondre aux questions fondamentales du test de conformite: comment generer et selectionner des cas de test ? quelle est la couverture d'une suite de test ? la methode de generation proposee utilise la theorie des langages formels et en particulier la theorie du monoide. Les specifications sont representees par des automates. Un langage permet de decrire des objectifs de test. A partir des objectifs de test, on calcule les sous-specifications cibles correspondantes. Des criteres de generation sont exprimes sous forme de regles que doivent respecter les sequences generees. La couverture est etudiee en fonction de criteres de couverture exprimes grace au meme langage que les objectifs de test. La mesure de couverture consiste dans un premier temps a verifier qu'un critere de couverture est teste par au moins une sequence de test. Dans un deuxieme temps, une metrique de couverture est definie permettant de mieux apprecier la qualite d'une suite de test. La particularite commune a ces deux methodes est leur adaptabilite a un probleme de test particulier (modele de fautes, architecture de test, objectifs de test)
APA, Harvard, Vancouver, ISO, and other styles
10

Franceschi, Jean-Yves. "Apprentissage de représentations et modèles génératifs profonds dans les systèmes dynamiques." Electronic Thesis or Diss., Sorbonne université, 2022. http://www.theses.fr/2022SORUS014.

Full text
Abstract:
L'essor de l'apprentissage profond trouve notamment sa source dans les avancées scientifiques qu'il a permises en termes d'apprentissage de représentations et de modèles génératifs. Dans leur grande majorité, ces progrès ont cependant été obtenus sur des données textuelles et visuelles statiques, les données temporelles demeurant un défi pour ces méthodes. Compte tenu de leur importance pour l'automatisation croissante de multiples tâches, de plus en plus de travaux en apprentissage automatique s'intéressent aux problématiques d'évolution temporelle. Dans cette thèse, nous étudions ainsi plusieurs aspects de la temporalité et des systèmes dynamiques dans les réseaux de neurones profonds pour l'apprentissage non supervisé de représentations et de modèles génératifs. Premièrement, nous présentons une méthode générale d'apprentissage de représentations non supervisée pour les séries temporelles prenant en compte des besoins pratiques d'efficacité et de flexibilité. Dans un second temps, nous nous intéressons à l'apprentissage pour les séquences structurées de nature spatio-temporelle, couvrant les vidéos et phénomènes physiques. En les modélisant par des équations différentielles paramétrisées par des réseaux de neurones, nous montrons la corrélation entre la découverte de représentations pertinentes d'un côté, et de l'autre la fabrique de modèles prédictifs performants sur ces données. Enfin, nous analysons plus généralement dans une troisième partie les populaires réseaux antagonistes génératifs dont nous décrivons la dynamique d'apprentissage par des équations différentielles, nous permettant d'améliorer la compréhension de leur fonctionnement
The recent rise of deep learning has been motivated by numerous scientific breakthroughs, particularly regarding representation learning and generative modeling. However, most of these achievements have been obtained on image or text data, whose evolution through time remains challenging for existing methods. Given their importance for autonomous systems to adapt in a constantly evolving environment, these challenges have been actively investigated in a growing body of work. In this thesis, we follow this line of work and study several aspects of temporality and dynamical systems in deep unsupervised representation learning and generative modeling. Firstly, we present a general-purpose deep unsupervised representation learning method for time series tackling scalability and adaptivity issues arising in practical applications. We then further study in a second part representation learning for sequences by focusing on structured and stochastic spatiotemporal data: videos and physical phenomena. We show in this context that performant temporal generative prediction models help to uncover meaningful and disentangled representations, and conversely. We highlight to this end the crucial role of differential equations in the modeling and embedding of these natural sequences within sequential generative models. Finally, we more broadly analyze in a third part a popular class of generative models, generative adversarial networks, under the scope of dynamical systems. We study the evolution of the involved neural networks with respect to their training time by describing it with a differential equation, allowing us to gain a novel understanding of this generative model
APA, Harvard, Vancouver, ISO, and other styles
11

Schmitt, Louise-Amelie. "Développement de modèles spécifiques aux séquences génomique virales." Thesis, Bordeaux, 2017. http://www.theses.fr/2017BORD0649/document.

Full text
Abstract:
Le séquençage ADN d'échantillons complexes contenant plusieurs espèces est une technique de choix pour étudier le paysage viral d'un milieu donné. Or les génomes viraux sont difficiles à identifier, de par leur extrême variabilité et la relation étroite qu'ils entretiennent avec leurs hôtes. Nous proposons de nouvelles pistes de recherche pour apporter une solution spécifique aux séquences virales afin de répondre au besoin d'identification pour lequel les solutions génériques existantes n'apportent pas de réponse satisfaisante
DNA sequencing of complex samples containing various living species is a choice approach to study the viral landscape of a given environment. Viral genomes are hard to identify due to their extreme variability and the tight relationship they have with their hosts. We hereby provide new leads for the development of a virusesspecific solution to the need for accurate identification that hasn't found a satisfactory solution in the existing universal software so far
APA, Harvard, Vancouver, ISO, and other styles
12

Binsztok, Henri. "Apprentissage de modèles Markoviens pour l'analyse de séquences." Paris 6, 2007. http://www.theses.fr/2007PA066568.

Full text
Abstract:
Initialement, l'apprentissage supervisé a permis d'apprendre des modèles à partir de données étiquetées. Mais, pour de nombreuses tâches, notamment dans le cadre de la modélisation utilisateur, si la quantité de données disponible est potentiellement sans limite, la quantité de données étiquetées est quasi-nulle. Dans le cadre de cette thèse, nous nous intéressons à l'apprentissage non-supervisé de modèles de séquences. L'information de séquence constitue le premier niveau de données structurées, où les données ne sont plus de simples vecteurs de caractéristiques. Nous proposons des approches d'apprentissage non-supervisé de séquences que nous appliquons à l'apprentissage automatique de modèles de Markov cachés (MMC) et modèles de Markov cachés hiérarchiques (MMCH) notamment. Notre but est d'apprendre simultanément la structure et les paramètres de modèles markoviens, pour minimiser la quantité d'information a priori nécessaire
Initially, Machine Learning allowed to learn models from labeled data. But, for numerous tasks, notably for the task of user modeling, if the available quantity of data is potentially without limit, the quantity of labeled data is almost nonexistent. Within the framework of this thesis, we are interested in the unsupervised learning of sequence models. The information of sequence constitutes the first level of structured data, where the data are no more simple vectors of characteristics. We propose approaches that we apply to the automatic learning of Hidden Markov Models ( HMMs) and Hierarchical HMMs (HHMMs). Our purpose is to learn simultaneously the structure and the parameters of these Markovian Models, to minimize the quantity of prior information necessary to learn them
APA, Harvard, Vancouver, ISO, and other styles
13

Jacques, Julien. "Contribution à l'apprentissage statistique à base de modèles génératifs pour données complexes." Habilitation à diriger des recherches, Université des Sciences et Technologie de Lille - Lille I, 2012. http://tel.archives-ouvertes.fr/tel-00761184.

Full text
Abstract:
Ce mémoire synthétise les activités de recherche que j'ai menées de 2005 à 2012, sur la thématique de l'apprentissage statistique des données complexes, abordée par le biais de modèles probabilistes paramétriques génératifs. Plusieurs types de données complexes sont considérées. Les données issues de populations différentes ont été abordées en proposant des modèles de lien paramétriques entre populations, permettant d'adapter les modèles statistiques d'une population vers l'autre, en évitant une lourde collecte de nouvelles données. Les données de rang, définissant un classement d'objets selon un ordre de préférence, les données ordinales, qui sont des données qualitatives ayant des modalités ordonnées, et les données fonctionnelles, où l'observation statistique consiste en une ou plusieurs courbes, ont également été étudies. Pour ces trois types de données, des modèles génératifs probabilistes ont été définis et utilisés en classification automatique de données multivariées. Enfin les données de grande dimension, que l'on rencontre lorsque le nombre de variables du problème dépasse celui des observations, ont été étudiées dans un cadre de régression. Deux approches, fruits de deux thèses de doctorat que je co-encadre, sont proposés: l'une utilisant des algorithmes d'optimisation combinatoire pour explorer de façon efficace l'espace des variables, et l'autre définissant un modèle de régression regroupant ensemble les variables ayant un effet similaire.
APA, Harvard, Vancouver, ISO, and other styles
14

Arribas, Gil Ana. "Estimation dans des modèles à variables cachées : alignement des séquences biologiques et modèles d'évolution." Paris 11, 2007. http://www.theses.fr/2007PA112054.

Full text
Abstract:
Cette thèse est consacrée à l'estimation paramétrique dans certains modèles d'alignement de séquences biologiques. Ce sont des modèles construits à partir des considérations sur le processus d'évolution des séquences. Dans le cas de deux séquences, le processus d'évolution classique résulte dans un modèle d'alignement appelé pair-Hidden Markov Model (pair-HMM). Dans le pair-HMM les observations sont formées par le couple de séquences à aligner et l'alignement caché est une chaîne de Markov. D'un point de vue théorique nous donnons un cadre rigoureux pour ce modèle et étudions la consistance des estimateurs bayésien et par maximum de vraisemblance. D'un point de vue appliqué nous nous intéressons à la détection de motifs conservés dans les séquences à travers de l'alignement. Pour cela nous introduisons un processus d'évolution permettant différents comportements évolutifs à différents endroits de la séquence et pour lequel le modèle d'alignement est toujours un pair-HMM. Nous proposons des algorithmes d'estimation d'alignements et paramètres d'évolution adaptés à la complexité du modèle. Finalement, nous nous intéressons à l'alignement multiple (plus de deux séquences). Le processus d'évolution classique résulte dans ce cas dans un modèle d'alignement à variables cachées plus complexe et dans lequel il faut prendre en compte les relations phylogénétiques entre les séquences. Nous donnons le cadre théorique pour ce modèle et étudions, comme dans le cas de deux séquences, la propriété de consistance des estimateurs
This thesis is devoted to parameter estimation in models for biological sequence alignment. These are models constructed considering an evolution process on the sequences. In the case of two sequences evolving under the classical evolution process, the alignment model is called a pair-Hidden Markov Model (pair-HMM). Observations in a pair-HMM are formed by the couple of sequences to be aligned and the hidden alignment is a Markov chain. From a theoretical point of view, we provide a rigorous formalism for these models and study consistency of maximum likelihood and bayesian estimators. From the point of view of applications, we are interested in detection of conserved motifs in the sequences. To do this we present an evolution process that allows heterogeneity along the sequence. The alignment under this process still fits the pair-HMM. We propose efficient estimation algorithms for alignments and evolution parameters. Finally we are interested in multiple alignment (more than two sequences). The classical evolution process for the sequences provides a complex hidden variable model for the alignment in which the phylogenetic relationships between the sequences must be taken into account. We provide a theoretical framework for this model and study, as for the pairwise alignment, the consistency of estimators
APA, Harvard, Vancouver, ISO, and other styles
15

Baelde, Maxime. "Modèles génératifs pour la classification et la séparation de sources sonores en temps-réel." Thesis, Lille 1, 2019. http://www.theses.fr/2019LIL1I058/document.

Full text
Abstract:
Cette thèse s'inscrit dans le cadre de l'entreprise A-Volute, éditrice de logiciels d'amélioration d'expérience audio. Elle propose un radar qui transpose l'information sonore multi-canale en information visuelle en temps-réel. Ce radar, bien que pertinent, manque d'intelligence car il analyse uniquement le flux audio en terme d'énergie et non en termes de sources sonores distinctes. Le but de cette thèse est de développer des algorithmes de classification et de séparation de sources sonores en temps-réel. D'une part, la classification de sources sonores a pour but d'attribuer un label (par exemple voix) à un son monophonique (un label) ou polyphonique (plusieurs labels). La méthode développée utilise un attribut spécifique, le spectre de puissance normalisé, utile à la fois dans le cas monophonique et polyphonique de part sa propriété d'additivité des sources sonores. Cette méthode utilise un modèle génératif qui permet de dériver une règle de décision basée sur une estimation non paramétrique. Le passage en temps-réel est réalisé grâce à un pré-traitement des prototypes avec une classification hiérarchique ascendante. Les résultats sont encourageants sur différentes bases de données (propriétaire et de comparaison), que ce soit en terme de précision ou de temps de calcul, notamment dans le cas polyphonique. D'autre part, la séparation de sources consiste à estimer les sources en terme de signal dans un mélange. Deux approches de séparation ont été considérées dans la thèse. La première considère les signaux à retrouver comme des données manquantes et à les estimer via un schéma génératif et une modélisation probabiliste. L'autre approche consiste, à partir d'exemples sonores présent dans une base de données, à calculer des transformations optimales de plusieurs exemples dont la combinaison tends vers le mélange observé. Les deux propositions sont complémentaires, avec chacune des avantages et inconvénients (rapidité de calcul pour la première, interprétabilité du résultat pour la deuxième). Les résultats expérimentaux semblent prometteurs et nous permettent d'envisager des perspectives de recherches intéressantes pour chacune des propositions
This thesis is part of the A-Volute company, an audio enhancement softwares editor. It offers a radar that translates multi-channel audio information into visual information in real-time. This radar, although relevant, lacks intelligence because it only analyses the audio stream in terms of energy and not in terms of separate sound sources. The purpose of this thesis is to develop algorithms for classifying and separating sound sources in real time. On the one hand, audio source classification aims to assign a label (e.g. voice) to a monophonic (one label) or polyphonic (several labels) sound. The developed method uses a specific feature, the normalized power spectrum, which is useful in both monophonic and polyphonic cases due to its additive properties of the sound sources. This method uses a generative model that allows to derive a decision rule based on a non-parametric estimation. The real-time constraint is achieved by pre-processing the prototypes with a hierarchical clustering. The results are encouraging on different databases (owned and benchmark), both in terms of accuracy and computation time, especially in the polyphonic case. On the other hand, source separation consists in estimating the sources in terms of signal in a mixture. Two approaches to this purpose were considered in this thesis. The first considers the signals to be found as missing data and estimates them through a generative process and probabilistic modelling. The other approach consists, from sound examples present in a database, in computing optimal transformations of several examples whose combination tends towards the observed mixture. The two proposals are complementary, each having advantages and drawbacks (computation time for the first, interpretability of the result for the second). The experimental results seem promising and allow us to consider interesting research perspectives for each of the proposals
APA, Harvard, Vancouver, ISO, and other styles
16

Kermorvant, Christopher. "Apprentissage de modèles à états finis stochastiques pour les séquences." Saint-Etienne, 2003. http://www.theses.fr/2003STET4002.

Full text
Abstract:
Le travail présenté dans cette thèse concerne l'apprentissage de modèles à états finis stochastiques pour la modélisation de séquences. Ces modèles combinent un aspect structurel et un aspect probabiliste que nous avons tous deux cherché à développer à travers une extension à la fois des modèles et des algorithmes d'apprentissage. Nous avons voulu d'une part développer les aspects statistiques des algorithmes d'inférence des automates à états finis stochastiques et en particulier les adapter aux cas pratiques. Pour ce faire, nous avons développé un nouvel algorithme d'inférence basé sur un test statistique de comparaison d'échantillons. Ce cadre permet l'utilisation de techniques statistiques adaptées à la taille des échantillons d'apprentissage. Nous avons voulu d'autre part développer l'aspect syntaxique des automates à états finis et leur capacité à modéliser la structure sous-jacente des séquences. Dans ce but, nous avons défini les automates typés, une extension des automates à états finis classiques permettant d'introduire dans les automates des connaissances a priori sur les séquences. D'un point de vue théorique, nous avons étudié l'espace de recherche associé au problème de l'inférence de ces automates. Nous avons proposé une adaptation des algorithmes d'inférence existant au cas des automates typés. D'un point de vue pratique, nous avons appliqué un algorithme d'inférence d'automates typés stochastiques à un problème de modélisation de la langue en reconnaissance de la parole. Les modèles obtenus rivalisent avec les modèles à l'état l'art (n-grammes) sur un corpus classique du domaine
This thesis deals with learning stochastic finite state automata for sequence modelling. We aimed at developing both their structural and probabilistic aspects, through the extension of the models and the design of new learning algorithms. On the one hand, we have developed statistical aspects of stochastic finite state automaton learning algorithms in order to deal with practical cases. We have designed a new learning algorithm based on statistical tests for sample comparison. This framework allows to take into account the size of the learning set in the inference process. On the other hand, we have developed syntactic aspects of finite state automaton and their ability to model the underlying structure of sequences. We have defined typed automata, an extension of classical finite state automata, which permits the introduction of a priori knowledge in the models. From a theoretical point of view, we have studied the search space for the typed automata. We have proposed a modified version of classical automata learning algorithms in the framework of typed automata. Finally, we have applied these models and algorithms to a language modelling task. The obtained automata were competitive with state of the art models on a classical corpus
APA, Harvard, Vancouver, ISO, and other styles
17

Barrat-Charlaix, Pierre. "Comprendre et améliorer les modèles statistiques de séquences de protéines." Electronic Thesis or Diss., Sorbonne université, 2018. http://www.theses.fr/2018SORUS378.

Full text
Abstract:
Dans les dernières décennies, les progrès des techniques expérimentales ont permis une augmentation considérable du nombre de séquences d'ADN et de protéines connues. Cela a incité au développement de méthodes statistiques variées visant à tirer parti de cette quantité massive de données. Les méthodes dites co-évolutives en font partie, utilisant des idées de physique statistique pour construire un modèle global de la variabilité des séquences de protéines. Ces méthodes se sont montrées très efficaces pour extraire des informations pertinentes des seules séquences, comme des contacts structurels ou les effets mutationnels. Alors que les modèles co-évolutifs sont pour l'instant utilisés comme outils prédictifs, leur succès plaide pour une meilleure compréhension de leur fonctionnement. Dans cette thèse, nous proposons des élaborations sur les méthodes déjà existantes tout en questionnant leur fonctionnement. Nous étudions premièrement sur la capacité de l'Analyse en Couplages Directs (DCA) à reproduire les motifs statistiques rencontrés dans les séquences des familles de protéines. La possibilité d'inclure d'autres types d'information comme des effets mutationnels dans cette méthode est présentée, suivie de corrections potentielles des biais phylogénétiques présents dans les données utilisées. Finalement, des considérations sur les limites des modèles co-évolutifs actuels sont développées, de même que des suggestions pour les surmonter
In the last decades, progress in experimental techniques have given rise to a vast increase in the number of known DNA and protein sequences. This has prompted the development of various statistical methods in order to make sense of this massive amount of data. Among those are pairwise co-evolutionary methods, using ideas coming from statistical physics to construct a global model for protein sequence variability. These methods have proven to be very effective at extracting relevant information from sequences, such as structural contacts or effects of mutations. While co-evolutionary models are for the moment used as predictive tools, their success calls for a better understanding of they functioning. In this thesis, we propose developments on existing methods while also asking the question of how and why they work. We first focus on the ability of the so-called Direct Coupling Analysis (DCA) to reproduce statistical patterns found in sequences in a protein family. We then discuss the possibility to include other types of information such as mutational effects in this method, and then potential corrections for the phylogenetic biases present in available data. Finally, considerations about limitations of current co-evolutionary models are presented, along with suggestions on how to overcome them
APA, Harvard, Vancouver, ISO, and other styles
18

Albet, Joël. "Simulation rigoureuse de colonnes de distillation discontinue à séquences opératoires multiples." Toulouse, INPT, 1992. http://www.theses.fr/1992INPT008G.

Full text
Abstract:
L'auteur presente une methodologie generale pour la simulation rigoureuse de colonnes de rectification discontinue multiconstituant avec ou sans reactions chimiques et la prise en compte d'un decanteur en tete. Apres avoir replace ses travaux dans le contexte plus general de la simulation dynamique des procedes et des travaux realises en distillation discontinue, les points-cles sur lesquels se repose la methodologie sont presentes: l'elaboration d'un modele dit rigoureux vis-a-vis de ceux rencontres habituellement en distillation discontinue, generalisable ou simplifiable pour traiter un ensemble de configurations couramment rencontrees; l'utilisation et l'adaptation d'une methode d'integration numerique pour le traitement des systemes algebro-differentiels (methode de gear) applicable dans le contexte des systemes discontinus. Les problemes numeriques difficiles dus au traitement des evenements d'etat, a la gestion des discontinuites et aux politiques de demarrage sont mis en exergue et traites. La flexibilite, fiabilite et efficacite de la methodologie mises en place ainsi que la convivialite du progiciel resultant sont illustrees au travers d'exemples academiques et industriels avec comparaison vis-a-vis de donnees reelles obtenues sur sites
APA, Harvard, Vancouver, ISO, and other styles
19

Pelletier, Sylvain. "Modèle multi-couches pour l'analyse de séquences vidéo." Paris 9, 2007. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=2007PA090029.

Full text
Abstract:
Cette thèse est consacrée à l'étude du modèle multi-couches et de ses applications en traitement de la vidéo. Selon ce modèle, une séquence vidéo est obtenue comme la projection d'une scène 3d composée d'objets opaques, situés à différentes profondeurs. Dans le chapitre 1, nous proposons un algorithme temps-réel de segmentation des objets en mouvement basé sur ce modèle. En supposant le fond connu et la caméra fixe, nous comparons l'image venant du flux vidéo et ce fond, et nous détectons les zones où le fond est occulté. De plus, nous utilisons la détection a contrario pour modéliser les objets mobiles comme les groupements significatifs de changements. Dans le chapitre 2, nous cherchons à reconstruire les couches à partir de la séquence vidéo. Pour cela, nous proposons un modèle de déformation de la projection de l'objet sur l'image, valable sous certaines hypothèses sur le mouvement de l'objet. Puis, dans le chapitre 3, nous proposons une méthode variationnelle permettant d'extraire de la séquence, les couches des objets mobiles, même dans le cas d'occultation
We propose to study in this thesis the layer model and its applications to video analysis. According to this model, a video sequence is obtained by the projection of a three dimensional scene composed of several opaque objects located at different depths from the camera. The background is the last layer, and the moving objects are projected upon it, in order opposite of their depth. In the first chapter, we set forth a real-time video segmentation method based upon the layer model. Given a known background and a fixed camera, we compare the current frame and the background, detecting the occluded zones. Likewise we use a contrario detection to detect moving objects as meaningful clusters of changes. In Chapter 2, we look for reconstruction of layers from the video. We propose a deformation model of the objects' projection on the image, valid under some hypothesis on the objects' movement. Chapter 3 proposes a variational method to extract moving object layers from the sequence, even if these are hidden during several images
APA, Harvard, Vancouver, ISO, and other styles
20

Côme, Etienne. "Apprentissage de modèles génératifs pour le diagnostic de systèmes complexes avec labellisation douce et contraintes spatiales." Compiègne, 2009. http://www.theses.fr/2009COMP1796.

Full text
Abstract:
Le thème principal de cette thèse concerne la formalisation et la résolution du problème de l'apprentissage statistique lorsque les informations disponibles sur une ou plusieurs variables d'intérêt discrètes sont imprécises, incertaines. La solution proposée s'appuie sur une approche générative et sur l'utilisation de la théorie des fonctions de croyance afin de représenter l'information disponible sur ces variables. Nous montrons tout d'abord, comment des labels « doux », prenant la forme de fonctions de masse de croyance, peuvent être utilisés pour estimer les paramètres d'un modèle de mélange grâce à un critère étendant les critères rencontrés dans le cadre probabiliste. Le problème d'optimisation associé est quant à lui résolu grâce à une extension de l'algorithme EM. Une démarche similaire, dans le cadre de l'analyse en facteurs indépendants, modèle génératif extrêmement parcimonieux faisant intervenir un ensemble de variables d'intérêts discrètes, est également présentée et étudiée. D'autres part, une solution pour tirer parti d'informations sur le processus de génération des données dans le cadre de ce modèle est proposée. Enfin, des résultats concernant un problème réel de diagnostic permettent de juger de l'intérêt de ces propositions. Ce problème de diagnostic concerne un élément essentiel de la chaîne de contrôle-commande des trains sur le réseau français : le circuit de voie
The main topic of this thesis concerns the formalisation and the resolution of statistical learning problem involving imperfect information on one or several discrete variables of interest. The solution advocates is build on top of the Dempster-Shaffer theory of evidence and a generative approach. We show first, how « soft » labels defined as a Dempster-Shafer basic belief assignments can be employed to define a criterion generalizing the likelihood function which can be used to compute estimates of mixture model parameters. A variant of the EM algorithm dedicated to the optimization of this criterion is furthermore proposed. A similar approach is also studied in the context of independent factor analysis, a parsimonious generative model dealing with several discrete variables. A solution to leverage prior knowledge on the generative process underlying this model is also supplied. Finally, results from a real diagnosis application demonstrates the interest of these proposis. This diagnosis application concerns an essential component of the French railway infrastructure : the track circuit
APA, Harvard, Vancouver, ISO, and other styles
21

Bourguignon, Pierre Yves Vincent. "Parcimonie dans les modèles Markoviens et application à l'analyse des séquences biologiques." Thesis, Evry-Val d'Essonne, 2008. http://www.theses.fr/2008EVRY0042.

Full text
Abstract:
Les chaînes de Markov constituent une famille de modèle statistique incontournable dans de nombreuses applications, dont le spectre s'étend de la compression de texte à l'analyse des séquences biologiques. Un problème récurrent dans leur mise en oeuvre face à des données réelles est la nécessité de compromettre l'ordre du modèle, qui conditionne la complexité des interactions modélisées, avec la quantité d'information fournies par les données, dont la limitation impacte négativement la qualité des estimations menées. Les arbres de contexte permettent une granularité fine dans l'établissement de ce compromis, en permettant de recourir à des longueurs de mémoire variables selon le contexte rencontré dans la séquence. Ils ont donné lieu à des outils populaires tant pour l'indexation des textes que pour leur compression (Context Tree Maximisation – CTM - et Context Tree Weighting - CTW). Nous proposons une extension de cette classe de modèles, en introduisant les arbres de contexte parcimonieux, obtenus par fusion de noeuds issus du même parent dans l'arbre. Ces fusions permettent une augmentation radicale de la granularité de la sélection de modèle, permettant ainsi de meilleurs compromis entre complexité du modèle et qualité de l'estimation, au prix d'une extension importante de la quantité de modèles mise en concurrence. Cependant, grâce à une approche bayésienne très similaire à celle employée dans CTM et CTW, nous avons pu concevoir une méthode de sélection de modèles optimisant de manière exacte le critère bayésien de sélection de modèles tout en bénéficiant d'une programmation dynamique. Il en résulte un algorithme atteignant la borne inférieure de la complexité du problème d'optimisation, et pratiquement tractable pour des alphabets de taille inférieure à 10 symboles. Diverses démonstrations de la performance atteinte par cette procédure sont fournies en dernière partie
Markov chains, as a universal model accounting for finite memory, discrete valued processes, are omnipresent in applied statistics. Their applications range from text compression to the analysis of biological sequences. Their practical use with finite samples, however, systematically require to draw a compromise between the memory length of the model used, which conditions the complexity of the interactions the model may capture, and the amount of information carried by the data, whose limitation negatively impacts the quality of estimation. Context trees, as an extension of the model class of Markov chains, provide the modeller with a finer granularity in this model selection process, by allowing the memory length to vary across contexts. Several popular modelling methods are based on this class of models, in fields such as text indexation of text compression (Context Tree Maximization and Context Tree Weighting). We propose an extension of the models class of context trees, the Parcimonious context trees, which further allow the fusion of sibling nodes in the context tree. They provide the modeller with a yet finer granularity to perform the model selection task, at the cost of an increased computational cost for performing it. Thanks to a bayesian approach of this problem borrowed from compression techniques, we succeeded at desiging an algorithm that exactly optimizes the bayesian criterion, while it benefits from a dynamic programming scheme ensuring the minimisation of the computational complexity of the model selection task. This algorithm is able to perform in reasonable space and time on alphabets up to size 10, and has been applied on diverse datasets to establish the good performances achieved by this approach
APA, Harvard, Vancouver, ISO, and other styles
22

Jaziri, Rakia. "Modèles de mélanges topologiques pour la classification de données structurées en séquences." Paris 13, 2013. http://scbd-sto.univ-paris13.fr/secure/edgalilee_th_2013_jaziri.pdf.

Full text
Abstract:
Ces dernières années ont vu le développement des techniques de fouille de données séquentielles dans de nombreux domaines d’applications dans le but d’analyser des données temporelles, volumineuses et complexes. Dans le cadre de cette thèse, nous nous intéressons aux problèmes de classification et de structuration de données séquentielles, que nous proposons d’étudier à travers trois approches principales. Dans la première, il s’agit de mettre en oeuvre une nouvelle approche de classification topographique probabiliste dédiée aux données séquentielles, nous l’appellerons PrSOMS. Cette approche consiste à adapter la carte topographique déterministe à des séquences tout en s’appuyant sur les modèles de Markov cachés. On aboutit ainsi à une approche qui bénéficie du pouvoir de visualisation des SOM et de celui de structuration (modélisation) de séquences des HMM. Dans la deuxième, nous proposons une extension hiérarchique de l’approche PrSOMS. Cette approche permet de tirer partie de l’aspect complexe des données au sein du processus de classification. Nous avons constaté que le modèle obtenu ”H-PrSOMS” assure une bonne interprétabilité des classes construites. Dans la troisième, nous proposons une autre approche statistique topologique MGTM-TT, qui repose sur le même paradigme que celui des HMM. Il s’agit d’une modélisation générative topographique à densité d’observations mélanges, qui s’apparente à une extension hiérarchique du modèle GTM temporel. Ces propositions ont ensuite été appliquées à des données de test et à des données réelles issues de l’INA (Institut National de l’Audiovisuel). Dans le cas de l’INA, Ces approches consistent à proposer dans un premier temps une classification plus fine des segments audiovisuels diffusés. Puis, elles cherchent à définir une typologie des enchainements des segments (diffusion multiple d’un même programme, un programme entre deux inter-programme) afin de prévoir de manière statistique les caractéristiques des segments diffusés. La méthodologie globale offre ainsi un outil pour la classification et la structuration des données séquentielles
Recent years have seen the development of data mining techniques in various application areas, with the purpose of analyzing sequential, large and complex data. In this work, the problem of clustering, visualization and structuring data is tackled by a three-stage proposal. The first proposal present a generative approach to learn a new probabilistic Self-Organizing Map (PrSOMS) for non independent and non identically distributed data sets. Our model defines a low dimensional manifold allowing friendly visualizations. To yield the topology preserving maps, our model exhibits the SOM like learning behavior with the advantages of probabilistic models. This new paradigm uses HMM (Hidden Markov Models) formalism and introduces relationships between the states. This allows us to take advantage of all the known classical views associated to topographic map. The second proposal concerns a hierarchical extension of the approach PrSOMS. This approach deals the complex aspect of the data in the classification process. We find that the resulting model ”H-PrSOMS” provides a good interpretability of classes built. The third proposal concerns an alternative approach statistical topological MGTM-TT, which is based on the same paradigm than HMM. It is a generative topographic modeling observation density mixtures, which is similar to a hierarchical extension of time GTM model. These proposals have then been applied to test data and real data from the INA (National Audiovisual Institute). This work is to provide a first step, a finer classification of audiovisual broadcast segments. In a second step, we sought to define a typology of the chaining of segments (multiple scattering of the same program, one of two inter-program) to provide statistically the characteristics of broadcast segments. The overall framework provides a tool for the classification and structuring of audiovisual programs
APA, Harvard, Vancouver, ISO, and other styles
23

Groussin, Mathieu. "Résurrection du passé à l’aide de modèles hétérogènes d’évolution des séquences protéiques." Thesis, Lyon 1, 2013. http://www.theses.fr/2013LYO10201/document.

Full text
Abstract:
La reconstruction et la résurrection moléculaire de protéines ancestrales est au coeur de cette thèse. Alors que les données moléculaires fossiles sont quasi inexistantes, il est possible d'estimer quelles étaient les séquences ancestrales les plus probables le long d'un arbre phylogénétique décrivant les relations de parentés entre séquences actuelles. Avoir accès à ces séquences ancestrales permet alors de tester de nombreuses hypothèses biologiques, de la fonction des protéines ancestrales à l'adaptation des organismes à leur environnement. Cependant, ces inférences probabilistes de séquences ancestrales sont dépendantes de modèles de substitution fournissant les probabilités de changements entre acides aminés. Ces dernières années ont vu le développement de nouveaux modèles de substitutions d'acides aminés, permettant de mieux prendre en compte les phénomènes biologiques agissant sur l'évolution des séquences protéiques. Classiquement, les modèles supposent que le processus évolutif est à la fois le même pour tous les sites d'un alignement protéique et qu'il est resté constant au cours du temps lors de l'évolution des lignées. On parle alors de modèle homogène en temps et en sites. Les modèles récents, dits hétérogènes, ont alors permis de lever ces contraintes en permettant aux sites et/ou aux lignées d'évoluer selon différents processus. Durant cette thèse, de nouveaux modèles hétérogènes en temps et sites ont été développés en Maximum de Vraisemblance. Il a notamment été montré qu'ils permettent d'améliorer considérablement l'ajustement aux données et donc de mieux prendre en compte les phénomènes régissant l'évolution des séquences protéiques afin d'estimer de meilleurs séquences ancestrales. A l'aide de ces modèles et de reconstruction ou résurrection de protéines ancestrales en laboratoire, il a été montré que l'adaptation à la température est un déterminant majeur de la variation des taux évolutifs entre lignées d'Archées. De même, en appliquant ces modèles hétérogènes le long de l'arbre universel du vivant, il a été possible de mieux comprendre la nature du signal évolutif informant de manière non-parcimonieuse un ancêtre universel vivant à plus basse température que ses deux descendants, à savoir les ancêtres bactériens et archéens. Enfin, il a été montré que l'utilisation de tels modèles pouvait permettre d'améliorer la fonctionnalité des protéines ancestrales ressuscitées en laboratoire, ouvrant la voie à une meilleure compréhension des mécanismes évolutifs agissant sur les séquences biologiques
The molecular reconstruction and resurrection of ancestral proteins is the major issue tackled in this thesis manuscript. While fossil molecular data are almost nonexistent, phylogenetic methods allow to estimate what were the most likely ancestral protein sequences along a phylogenetic tree describing the relationships between extant sequences. With these ancestral sequences, several biological hypotheses can be tested, from the evolution of protein function to the inference of ancient environments in which the ancestors were adatapted. These probabilistic estimations of ancestral sequences depend on substitution models giving the different probabilities of substitution between all pairs of amino acids. Classicaly, substitution models assume in a simplistic way that the evolutionary process remains homogeneous (constant) among sites of the multiple sequence alignment or between lineages. During the last decade, several methodological improvements were realised, with the description of substitution models allowing to account for the heterogeneity of the process among sites and in time. During my thesis, I developed new heterogeneous substitution models in Maximum Likelihood that were proved to better fit the data than any other homogeneous or heterogeneous models. I also demonstrated their better performance regarding the accuracy of ancestral sequence reconstruction. With the use of these models to reconstruct or resurrect ancestral proteins, my coworkers and I showed the adapation to temperature is a major determinant of evolutionary rates in Archaea. Furthermore, we also deciphed the nature of the phylogenetic signal informing substitution models to infer a non-parsimonious scenario for the adaptation to temperature during early Life on Earth, with a non-hyperthermophilic last universal common ancestor living at lower temperatures than its two descendants. Finally, we showed that the use of heterogeneous models allow to improve the functionality of resurrected proteins, opening the way to a better understanding of evolutionary mechanisms acting on biological sequences
APA, Harvard, Vancouver, ISO, and other styles
24

Bouchard, Guillaume. "Les modèles génératifs en classification supervisée et applications à la catégorisation d'images et à la fiabilité industrielle." Phd thesis, Université Joseph Fourier (Grenoble), 2005. http://tel.archives-ouvertes.fr/tel-00541059.

Full text
Abstract:
L'apprentissage statistique utilise le formalisme des probabilités et des statistiques pour créer des algorithmes qui "s'adaptent" automatiquement en fonction des données qui leurs sont fournies. Les outils les plus performants aujourd'hui (Support Vector Machine, boosting, régression logistique pénalisée et réseaux de neurones) font partie d'une classe générale d'algorithmes de type "discriminatif". Cependant, dans le cas de données structurées (e.g. les séries temporelles et les images numériques) ou en présence d'une forte information a priori, ces méthodes ne permettent pas de modéliser facilement le problème et nécessitent une véritable expertise pour pouvoir être appliquées. A l'opposé, l'approche générative permet de modéliser toutes les variables d'un problème sous la forme d'une distribution de probabilité incluant les informations sur la structure des données grâce à tous les outils de modélisation non-supervisés. Dans cette thèse, nous montrons que cette approche, longtemps considérée comme sous-optimale, permet de résoudre des problèmes complexes de manière cohérente. L'approche générative est définie dans un cadre de classification supervisée et de régression et propose plusieurs outils novateurs pour l'apprentissage statistique supervisé. Un critère de sélection de modèle adapté à ce type d'approche est développé. Les deux principales manières d'estimer les paramètres - générative et discriminative - sont introduites et analysées en classification et en régression, conduisant à la définition d'un nouveau type d'estimateur intermédiaire appelé Generative-Discriminative Tradeoff (GDT). Des exemples d'approches génératives utilisant le formalisme des modèles graphiques sont étudiées pour la catégorisation d'objets dans des images numériques et pour calculer une probabilité de défaillance en fiabilité industrielle. Enfin, un exemple de méthode discriminative utilisant un estimateur à noyau est proposé pour estimer la frontière d'un ensemble de points.
APA, Harvard, Vancouver, ISO, and other styles
25

Azeraf, Elie. "Classification avec des modèles probabilistes génératifs et des réseaux de neurones. Applications au traitement des langues naturelles." Electronic Thesis or Diss., Institut polytechnique de Paris, 2022. https://theses.hal.science/tel-03880848.

Full text
Abstract:
Un nombre important de modèles probabilistes connaissent une grande perte d'intérêt pour la classification avec apprentissage supervisé depuis un certain nombre d'années, tels que le Naive Bayes ou la chaîne de Markov cachée. Ces modèles, qualifiés de génératifs, sont critiqués car leur classificateur induit doit prendre en compte la loi des observations, qui peut s'avérer très complexe à apprendre quand le nombre de features de ces derniers est élevé. C'est notamment le cas en Traitement des Langues Naturelles, où les récents algorithmes convertissent des mots en vecteurs numériques de grande taille pour atteindre de meilleures performances.Au cours de cette thèse, nous montrons que tout modèle génératif peut définir son classificateur sans prendre en compte la loi des observations. Cette proposition remet en question la catégorisation connue des modèles probabilistes et leurs classificateurs induits - en classes générative et discriminante - et ouvre la voie à un grand nombre d'applications possibles. Ainsi, la chaîne de Markov cachée peut être appliquée sans contraintes à la décomposition syntaxique de textes, ou encore le Naive Bayes à l'analyse de sentiments.Nous allons plus loin, puisque cette proposition permet de calculer le classificateur d'un modèle probabiliste génératif avec des réseaux de neurones. Par conséquent, nous « neuralisons » les modèles cités plus haut ainsi qu'un grand nombre de leurs extensions. Les modèles ainsi obtenus permettant d'atteindre des scores pertinents pour diverses tâches de Traitement des Langues Naturelles tout en étant interprétable, nécessitant peu de données d'entraînement, et étant simple à mettre en production
Many probabilistic models have been neglected for classification tasks with supervised learning for several years, as the Naive Bayes or the Hidden Markov Chain. These models, called generative, are criticized because the induced classifier must learn the observations' law. This problem is too complex when the number of observations' features is too large. It is especially the case with Natural Language Processing tasks, as the recent embedding algorithms convert words in large numerical vectors to achieve better scores.This thesis shows that every generative model can define its induced classifier without using the observations' law. This proposition questions the usual categorization of the probabilistic models and classifiers and allows many new applications. Therefore, Hidden Markov Chain can be efficiently applied to Chunking and Naive Bayes to sentiment analysis.We go further, as this proposition allows to define the classifier induced from a generative model with neural network functions. We "neuralize" the models mentioned above and many of their extensions. Models so obtained allow to achieve relevant scores for many Natural Language Processing tasks while being interpretable, able to require little training data, and easy to serve
APA, Harvard, Vancouver, ISO, and other styles
26

Dib, Linda. "Détection des mutations simultanées dans les séquences protéiques non-divergentes." Paris 6, 2012. http://www.theses.fr/2012PA066016.

Full text
Abstract:
L'utilisation de séquences protéiques alignées semble essentielle à la détection de résidus fonctionnellement et structurellement importants. Depuis près de 40 ans de nombreuses études évaluent la conservation des positions protéiques et identifient les positions fonctionnellement importantes (site d'interaction entre molécules). Cependant, les positions conservées ne sont les seuls résidus clefs. Depuis près de dix ans, des approches statistiques analysent la co-évolution entre les résidus. Nous avons élaboré une méthode combinatoire nommée BIS (pour Block In Sequence) pour détecter des fragments co-évoluants. Cette méthode est basée sur l' alignement des séquences et la topologie de l'arbre associé aux séquences. La méthode n'a pas besoin de données structurelles, ni de la connaissance de résidus fonctionnels. Elle permet d'analyser de très petites familles de protéines et des familles de protéine très conservées. Ces domaines d'application distinguent notre méthodologie des autres approches existantes. La méthodologie a été appliquée sur de petites protéines ayant au plus 400 séquences homologues telles que le domaine B de la protéine A (Fersht et al. , 2006), MukB (Innis, 2007), le peptide beta de l'amyloïde et les sous-familles SF1 et SF2 de l'AATPase. Le domaine B de la protéine A est une protéine caractérisée par trois hélices beta. Les classes de positions co-évoluantes détectés pour cette protéine ont permit de détecter les résidus impliqués dans le repliement de la protéine et identifiés par Alan Fersht.
APA, Harvard, Vancouver, ISO, and other styles
27

Thomas, Dave. "Simulation des séquences de sciage du bois par des modèles logiques et numériques." Thesis, National Library of Canada = Bibliothèque nationale du Canada, 1998. http://www.collectionscanada.ca/obj/s4/f2/dsk2/tape17/PQDD_0011/MQ33764.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
28

Bergogne, Laurent. "Quelques algorithmes parallèles sur des "séquences de" pour différents modèles de calcul parallèle." Amiens, 1999. http://www.theses.fr/1999AMIE0130.

Full text
APA, Harvard, Vancouver, ISO, and other styles
29

Baghdadi, Siwar. "Extraction multimodale de métadonnées de séquences vidéo dans un cadre bayésien." Rennes 1, 2010. https://tel.archives-ouvertes.fr/tel-00512706.

Full text
Abstract:
Le domaine de la description de contenus multimédias est un domaine relativement récent qui a pris une grande importance dans le monde industriel et celui de la recherche, vu l'augmentation considérable de la production de contenus. Un besoin grandissant de systèmes capables de fournir une description sémantique est plus que jamais à l'ordre du jour. Dans ce domaine, les réseaux bayésiens ont été largement utilisés pour modéliser les données vidéos, afin d'en extraire des métadonnées sémantiques. Toutefois, les systèmes basés sur les réseaux bayésiens nécessitent qu'on fixe préalablement leur structure. Cette opération se fait, généralement, soit en utilisant l'hypothèse d'indépendance des flux de données, ce qui résulte en un système peu optimal. Motivés par la nécessité de fournir des systèmes génériques capables de s'adapter à la grande diversité des applications envisageables, nous utilisons l'apprentissage de structure pour construire automatiquement le réseau bayésien. En apprenant la structure automatiquement à partir d'une base de données, nous n'avons plus besoin de connaissances externes ou de faire des suppositions, souvent peu réalistes, pour la mise en place de la structure du réseau bayésien utilisé. Nous concluons à la nécessité d'adapter l'apprentissage de structure dans les réseaux bayésiens statiques et dynamiques à la classification. En associant apprentissage de structure et sélection d'attributs, nous obtenons un cadre permettant de construire automatiquement des systèmes de descritpions de contenus sans être dépendants de connaissances externes
The description of multimedia contents field is a relatively recent one which takes a large importance in both industrial and research world, considering the massive increase of content production. A growing need for systems able to provide a semantic description is more than ever within the order of the day. In this domain, Bayesian networks are largely used to model the video data in order to extract semantic metadata. However, the bayesian networks based systems require a beforehand fixed structure. This operation is done, generally, wether using « a priori » knowledge, which results in a not very generalizable system, or by using the assumption of independence of the data flows, which results in a not very optimal system. Moved by the need for providing generic systems capable of adapting themselves to the great diversity of applicaitons, we use training of structure to automatically build the Bayesian network. By automatically learning the structure from a database, we no longer need external knowledge or not very realistic assumptions to build the structure of the used Bayesian network. Various structure training techniques were used. We conclude with the need to adapt training of structure in the static and dynamic Bayesian network in classification. By associating training of structure and selection of attributes, we obtain a framework allowing to automatically building content description systems without being dependent on external knowledge
APA, Harvard, Vancouver, ISO, and other styles
30

Zidouni, Azeddine. "Modèles graphiques discriminants pour l'étiquetage de séquences : application à la reconnaissance d'entités nommées radiophiniques." Thesis, Aix-Marseille 2, 2010. http://www.theses.fr/2010AIX22125/document.

Full text
Abstract:
Le traitement automatique des données complexes et variées est un processus fondamental dans les applications d'extraction d'information. L'explosion combinatoire dans la composition des textes journalistiques et l'évolution du vocabulaire rend la tâche d'extraction d'indicateurs sémantiques, tel que les entités nommées, plus complexe par les approches symboliques. Les modèles stochastiques structurels tel que les champs conditionnels aléatoires (CRF) permettent d'optimiser des systèmes d'extraction d'information avec une importante capacité de généralisation. La première contribution de cette thèse est consacrée à la définition du contexte optimal pour l'extraction des régularités entre les mots et les annotations dans la tâche de reconnaissance d'entités nommées. Nous allons intégrer diverses informations dans le but d'enrichir les observations et améliorer la qualité de prédiction du système. Dans la deuxième partie nous allons proposer une nouvelle approche d'adaptation d'annotations entre deux protocoles différents. Le principe de cette dernière est basé sur l'enrichissement d'observations par des données générées par d'autres systèmes. Ces travaux seront expérimentés et validés sur les données de la campagne ESTER. D'autre part, nous allons proposer une approche de couplage entre le niveau signal représenté par un indice de la qualité de voisement et le niveau sémantique. L'objectif de cette étude est de trouver le lien entre le degré d'articulation du locuteur et l'importance de son discours
Recent researches in Information Extraction are designed to extract fixed types of information from data. Sequence annotation systems are developed to associate structured annotations to input data presented in sequential form. The named entity recognition (NER) task consists of identifying and classifying every word in a document into some predefined categories such as person name, locations, organizations, and dates. The complexity of the NER is largely related to the definition of the task and to the complexity of the relationships between words and the semantic associated. Our first contribution is devoted to solving the NER problem using discriminative graphical models. The proposed approach investigates the use of various contexts of the words to improve recognition. NER systems are fixed in accordance with a specific annotation protocol. Thus, new applications are developed for new protocols. The challenge is how we can adapt an annotation system which is performed for a specific application to other target application? We will propose in this work an adaptation approach of sequence labelling task based on annotation enrichment using conditional random fields (CRF). Experimental results show that the proposed approach outperform rules-based approach in NER task. Finally, we propose a multimodal approach of NER by integrating low level features as contextual information in radio broadcast news data. The objective of this study is to measure the correlation between the speaker voicing quality and the importance of his speech
APA, Harvard, Vancouver, ISO, and other styles
31

Antoine-Lorquin, Aymeric. "De l'intérêt des modèles grammaticaux pour la reconnaissance de motifs dans les séquences génomiques." Thesis, Rennes 1, 2016. http://www.theses.fr/2016REN1S086/document.

Full text
Abstract:
Cette thèse en bioinformatique étudie l'intérêt de rechercher des motifs dans des séquences génomiques à l'aide de grammaires. Depuis les années 80, à l'initiative notamment de David Searls, des travaux ont montré qu'en théorie, des grammaires de haut niveau offrent suffisamment d'expressivité pour permettre la description de motifs biologiques complexes, notamment par le biais d'une nouvelle classe de grammaire dédiée à la biologie : les grammaires à variables de chaîne (SVG, String Variable Grammar). Ce formalisme a donné lieu à Logol, qui est un langage grammatical et un outil d'analyse développé dans l'équipe Dyliss où a lieu cette thèse. Logol est un langage conçu pour être suffisamment flexible pour se plier à une large gamme de motifs qu'il est possible de rencontrer en biologie. Le fait que les grammaires restent inutilisée pour la reconnaissance de motifs pose question. Le formalisme grammatical est-il vraiment pertinent pour modéliser des motifs biologiques ? Cette thèse tente de répondre à cette question à travers une démarche exploratoire. Ainsi, nous étudions la pertinence d'utiliser les modèles grammaticaux, via Logol, sur six applications différentes de reconnaissance de motifs sur des génomes. Au travers de la résolution concrète de problématiques biologiques, nous avons mis en évidence certaines caractéristiques des modèles grammaticaux. Une de leurs limites est que leur utilisation présente un coût en termes de performance. Un de leurs atouts est que leur expressivité couvre un large spectre des motifs biologiques, contrairement aux méthodes alternatives, et d'ailleurs certains motifs modélisés par les grammaires n'ont pas d'autres alternatives existantes. Il s'avère en particulier que pour certains motifs complexes, tels que ceux alliant séquence et structure, l'approche grammaticale est la plus adaptée. Pour finir, l'une des conclusions de cette thèse est qu'il n'y a pas réellement de compétition entre les différentes approches, mais plutôt qu'il y a tout à gagner d'une coopération fructueuse
This thesis studies the interest to look for patterns in genomic sequences using grammars. Since the 80s, work has shown that, in theory, high level grammars offer enough expressivity to allow the description of complex biological patterns. In particular David Searls has proposed a new grammar dedicated to biology: string variable grammar (SVG). This formalism has resulted in Logol, a grammatical language and an analysis tool developed by Dyliss team where this thesis is taking place. Logol is a language designed to be flexible enough to express a wide range of biological patterns. The fact that the grammars remain unknown to model biological patterns raises questions. Is the grammatical formalism really relevant to the recognition of biological patterns? This thesis attempts to answer this question through an exploratory approach. We study the relevance of using the grammatical patterns, by using Logol on six different applications of genomic pattern matching. Through the practical resolution of biological problems, we have highlighted some features of grammatical patterns. First, the use of grammatical models presents a cost in terms of performance. Second the expressiveness of grammatical models covers a broad spectrum of biological patterns, unlike the others alternatives, and some patterns modeled by grammars have no other alternative solutions. It also turns out that for some complex patterns, such as those combining sequence and structure, the grammatical approach is the most suitable. Finally, a thesis conclusion is that there was no real competition between different approaches, but rather everything to gain from successful cooperation
APA, Harvard, Vancouver, ISO, and other styles
32

Crivelli, Tomás. "Modèles de Markov à états mixtes pour l'analyse du mouvement dans des séquences d'images." Rennes 1, 2010. http://www.theses.fr/2010REN1S009.

Full text
Abstract:
Cette thèse traite des champs aléatoires à états mixtes et de leur application à l’analyse du mouvement dans des séquences d’images. Cette approche permet de considérer à la fois des valeurs discrètes et continues dans une même modélisation statistique, et d’exploiter les interactions entre les deux types d’état. Dans ce contexte, nous identifions deux scénarios possibles. Dans le premier, nous nous intéressons à la modélisation des observations à états mixtes. Elles sont obtenues en général à partir de mesures de mouvement sur des images et présentent soit une valeur discrète nulle (absence de mouvement), soit une valeur continue correspondant à une mesure de mouvement. De telles cartes de mouvement, extraites à partir de séquences d’images de texture dynamique, sont adaptées pour être modélisées par des champs markoviens à états mixtes. Nous développons ensuite des modèles paramétriques de textures de mouvement reposant sur la théorie des champs aléatoires et des chaînes de Markov à états mixtes. Nous les appliquons à la caractérisation de textures de mouvement, à la reconnaissance, à la segmentation et au suivi. Dans le second scénario, nous cherchons à inférer des variables aléatoires à états mixtes pour des problèmes de décision-estimation jointes. Dans ce cas, l’état discret est une valeur symbolique caractérisant un label. De tels problèmes doivent être résolus de manière jointe et le cadre des états mixtes peut être exploité afin de modéliser la relation naturelle entre décision et estimation. Dans ce contexte, nous abordons le problème de la détection de mouvement (problème de décision) et de reconstruction du fond (problème d’estimation) de manière jointe
This thesis deals with mixed-state random fields and their application to image motion analysis. The approach allows us to consider both discrete and continuous values within a single statistical model, exploiting the interaction between the two types of states. In this context, we identify two possible scenarios. First, we are concerned with the modeling of mixed-state observations. Typically they are obtained from image motion measurements depicting a discrete value at zero (null-motion) and continuous motion values. Such motion maps extracted from dynamic texture video sequences are suitable to be modeled as mixed-state Markov fields. We thus design parametric models of motion textures based on the theory of mixed-state Markov random fields and mixed-state Markov chains. We apply them for motion texture characterization, recognition, segmentation and tracking. The second scenario involves inferring mixed-state random variables for simultaneous decision-estimation problems. In this case, the discrete state is a symbolic value indicating an abstract label. Such problems need to be solved jointly and the mixed-state framework can be exploited in order to model the natural coupling that exists between them. In this context, we address the problem of motion detection (decision problem) and background reconstruction (estimation problem). An accurate estimation of the background is only possible if we locate the moving objects; meanwhile, a correct motion detection is achieved if we have a good available background representation. Solving the motion detection and the background reconstruction jointly reduces to obtain a single optimal estimate of a mixed-state process
APA, Harvard, Vancouver, ISO, and other styles
33

Belaroussi, Rachid. "Localisation du visage dans des images et séquences vidéo couleur." Paris 6, 2006. http://www.theses.fr/2006PA066338.

Full text
Abstract:
La localisation du visage consiste à déterminer la position du visage d'une personne présente dans une image. Notre approche est globale, elle opère une inspection de toutes les vignettes de l'image pour déterminer celle qui le contient le visage le plus vraisemblablement. Pour les images fixes, nous exploitons trois représentations différentes de l'image, chacune étant traitée par un modèle spécifique : un modèle d’apparence appris sur les traits du visage, un modèle géométrique d’ellipse et un modèle de la teinte chair. La fusion des trois modèles a une architecture parallèle, et est opérée par une somme pondérée déterminée par une approche connexionniste. D'autres approches de la combinaison de modèles sont aussi présentées et comparées. Pour traiter les vidéos en temps réel, deux approches de la poursuite de visages basées sur une modélisation de la teinte chair sont comparées : une segmentation en composante connexe et une approche statistique, le Camshift de Bradsky.
APA, Harvard, Vancouver, ISO, and other styles
34

Matias, Catherine. "Statistique asymptotique dans des modèles à variables latentes." Habilitation à diriger des recherches, Université d'Evry-Val d'Essonne, 2008. http://tel.archives-ouvertes.fr/tel-00349639.

Full text
Abstract:
Je présente dans ce manuscrit mes travaux de recherche effectués depuis la thèse. Mes thèmes de recherche sont principalement motivés par des applications en génomique ou post-génomique. Mon domaine de recherche est assez vaste, mais le dénominateur commun de mes travaux est la présence de variables latentes (non observées) dans les modèles étudiés. Mes préoccupations sont majoritairement théoriques : éudes asymptotiques, convergence des estimateurs, vitesses, identifiabilité... Les modèles considérés peuvent être aussi bien paramétriques que semi ou non paramétriques, et les outils statistiques utilisés sont donc relativement variés.

Ma présentation s'organise en trois grandes thématiques : les travaux portant sur des séquences, notamment sur la modélisation de leur distribution et des processus d'évolution sous-jacents ; les travaux de statistique semi ou non paramétrique portant sur des signaux observés avec du bruit ; et enfin les travaux (en partie en cours) portant sur les graphes aléatoires.
APA, Harvard, Vancouver, ISO, and other styles
35

Noé, Laurent. "Recherche de similarités dans les séquences d'ADN : modèles et algorithmes pour la conception de graines efficaces." Phd thesis, Université Henri Poincaré - Nancy I, 2005. http://tel.archives-ouvertes.fr/tel-00011482.

Full text
Abstract:
Les méthodes de recherche de similarités les plus fréquemment utilisées dans le cadre de la génomique sont heuristiques.
Elles se basent sur un principe de filtrage du texte qui permet de localiser les régions potentiellement similaires.
Dans cette thèse, nous proposons de nouvelles définitions de filtres pour la recherche de similarités sur les séquences génomiques et des algorithmes associés pour mesurer leurs caractéristiques.
Plus précisément, nous avons étudié le modèle des graines espacées, et proposé un algorithme d'évaluation de l'efficacité des graines sur des similarités d'une classe particulière (similarités dites homogènes). Nous avons également développé un algorithme général pour la mesure de l'efficacité des graines, ainsi qu'un nouveau modèle de graine appelé graine sous-ensemble, extension du modèle des graines espacées. Enfin nous donnons, dans le cadre du filtrage sans perte, une extension à l'aide de graines multiples, que nous analysons et appliquons au problème de la conception d'oligonucléotides.
Nous avons réalisé et donnons accès à des outils pour la conception des filtres, ainsi que pour la recherche de similarités.
APA, Harvard, Vancouver, ISO, and other styles
36

Domelevo, Entfellner Jean-Baka. "Combinaison de modèles phylogénétiques et longitudinaux pour l'analyse des séquences biologiques : reconstruction de HMM profils ancestraux." Phd thesis, Université Montpellier II - Sciences et Techniques du Languedoc, 2011. http://tel.archives-ouvertes.fr/tel-00842847.

Full text
Abstract:
La modélisation statistique de séquences homologues par HMM profils laisse de côté l'information phylogénétique reliant les séquences. Nous proposons ici des modèles combinant efficacement analyse longitudinale (séquences protéiques vues comme des enchaînements d'acides aminés) et verticale (séquences vues comme étant le produit d'une évolution le long des branches d'un arbre phylogénétique). De tels modèles appartiennent à la famille des phylo-HMM, introduite dans le courant des années 1990 (Mitchison& Durbin). Notre objectif étant la détection d'homologues distants dans les bases de données, nous décrivons une méthodologie de dérivation complète des paramètres des phylo-HMM profils basée sur la phylogénie: les modèles que nous proposons sont des HMM de reconstruction ancestrale,issus d'un processus d'inférence phylogénétique des positions conservées, des probabilités d'émission de caractères sur les états Match et Insertion, ainsi que des probabilités de transition entre états du HMM. Nous suggérons notamment une nouvelle modélisation pour l'évolution des transitions entre états du HMM, ainsi qu'un modèle de type Ornstein-Uhlenbeck pour l'évolution des longueurs des insertions. Contraintes évolutives et contraintes longitudinales sont ainsi simultanément prises en compte. Le processus d'apprentissage développé a été implémenté et testé sur une base de données de familles de séquences homologues,mettant en évidence des gains à la fois en termes de vraisemblance accrue des homologues distants et en termes de performance lorsqu'il s'agit de détecter ceux-ci dans les grandes bases de données protéiques
APA, Harvard, Vancouver, ISO, and other styles
37

Théry, Clément. "Model-based covariable decorrelation in linear regression (CorReg) : application to missing data and to steel industry." Thesis, Lille 1, 2015. http://www.theses.fr/2015LIL10060/document.

Full text
Abstract:
Les travaux effectués durant cette thèse ont pour but de pallier le problème des corrélations au sein des bases de données, particulièrement fréquentes dans le cadre industriel. Une modélisation explicite des corrélations par un système de sous-régressions entre covariables permet de pointer les sources des corrélations et d'isoler certaines variables redondantes. Il en découle une pré-sélection de variables sans perte significative d'information et avec un fort potentiel explicatif (la structure de sous-régression est explicite et simple). Un algorithme MCMC (Monte-Carlo Markov Chain) de recherche de structure de sous-régressions est proposé, basé sur un modèle génératif complet sur les données. Ce prétraitement ne dépend pas de la variable réponse et peut donc être utilisé de manière générale pour toute problématique de corrélations. Par la suite, un estimateur plug-in pour la régression linéaire est proposé pour ré-injecter l'information résiduelle de manière séquentielle sans souffrir des corrélations entre covariables. Enfin, le modèle génératif complet peut être utilisé pour gérer des valeurs manquantes dans les données. Cela permet l'imputation multiple des données manquantes, préalable à l'utilisation de méthodes classiques incompatibles avec la présence de valeurs manquantes. Le package R intitulé CorReg implémente les méthodes développées durant cette thèse
This thesis was motivated by correlation issues in real datasets, in particular industrial datasets. The main idea stands in explicit modeling of the correlations between covariates by a structure of sub-regressions, that simply is a system of linear regressions between the covariates. It points out redundant covariates that can be deleted in a pre-selection step to improve matrix conditioning without significant loss of information and with strong explicative potential because this pre-selection is explained by the structure of sub-regressions, itself easy to interpret. An algorithm to find the sub-regressions structure inherent to the dataset is provided, based on a full generative model and using Monte-Carlo Markov Chain (MCMC) method. This pre-treatment does not depend on a response variable and thus can be used in a more general way with any correlated datasets. In a second part, a plug-in estimator is defined to get back the redundant covariates sequentially. Then all the covariates are used but the sequential approach acts as a protection against correlations. Finally, the generative model defined here allows, as a perspective, to manage missing values both during the MCMC and then for imputation. Then we are able to use classical methods that are not compatible with missing datasets. Once again, linear regression is used to illustrate the benefits of this method but it remains a pre-treatment that can be used in other contexts, like clustering and so on. The R package CorReg implements the methods created during this thesis
APA, Harvard, Vancouver, ISO, and other styles
38

Palmeira, Leonor. "Analyse et modélisation des dépendances entre sites voisins dans l'évolution des séquences d'ADN." Phd thesis, Université Claude Bernard - Lyon I, 2007. http://tel.archives-ouvertes.fr/tel-00178453.

Full text
Abstract:
Cette thèse a porté, d'une part, sur l'analyse des sur- et sous-représentations en dinucléotides au sein de différents génomes complets, en recherchant les liens éventuels avec des mécanismes connus de dommages causés à l'ADN qui soient liés à des sites avoisinants — particulièrement les voisins directs en 5' et 3'. L'étude de l'effet des UVs sur les génomes de micro-organismes, et sur l'effet de la méthylation sur les génomes de métazoaires en a été un des grands axes. D'autre part, les résultats récents de Bérard et al. sur des modèles d'évolution incorporant des dépendances entre bases adjacentes (pyrimidine suivie de purine) ont permis de développer une approche probabiliste d'estimation des substitutions liées au mécanisme de méthylation-désamination spontanée des dinucléotides CG.
APA, Harvard, Vancouver, ISO, and other styles
39

Bikienga, Moustapha. "Mise en oeuvre applicative de séquences d'ordonnancement hors-ligne." Thesis, Chasseneuil-du-Poitou, Ecole nationale supérieure de mécanique et d'aérotechnique, 2014. http://www.theses.fr/2014ESMA0011/document.

Full text
Abstract:
Nous nous intéressons à la mise en oeuvre effective d'applications temps réel dans une approche d'ordonnancementhors-ligne de systèmes de tâches périodiques. L'ordonnancement hors-ligne consiste à rechercher avantl'exécution de l'application une séquence pire cas, c'est-à-dire une suite de blocs indiquant une date de débutet de fin d'exécution d'une instance de tâche. Mettre en oeuvre une séquence suppose de spécifier ce qui doit sepasser quand les durées d'exécution réelles sont inférieures aux durées pire cas prévues par la séquence. Notrepremière contribution consiste en la proposition de deux politiques de mise en oeuvre : une politique inflexiblequi respecte strictement les dates de début des blocs ; et une politique flexible qui permet de les avancer. Nousprouvons que ces politiques préservent la validité des séquences. Nous proposons ensuite un modèle de coûtspour l'évaluation et la comparaison de techniques respectant les politiques proposées. La seconde contributionconcerne la proposition de techniques de mise en oeuvre. Dans un premier temps, nous proposons sept techniquesde mise en oeuvre dans un contexte de tâches indépendantes et séquences sans préemption. Nous étendonsensuite l'utilisation de ces techniques aux séquences avec préemption, et aux tâches partageant des ressourcescritiques ou soumises à des contraintes de précédence. La troisième contribution concerne la mise en oeuvresous Posix. Nous présentons des outils de génération de code issus de l'ingénierie dirigée par les modèles. Nousproposons également un outil d'observation de séquences effectives. Enfin, une étude de cas présente l'utilisationpratique de notre approche
We address the implementation of periodic task sets for off-line scheduling. Off-line scheduling approach consistsin computing a worst-case schedule before runtime. Implementing a schedule requires to specify what must happenwhen the actual execution times of tasks are lower than the planned execution times. The first contributionconsist of the formalization of implementation policies. These policies consider the date by which a task maystart execution, which may or not occur before the planned start time. The inflexible policy does not allowa task to run before its planned start time, the flexible policy does. Since many implementations can complywith these two policies, we also propose a cost model which enables to perform some comparisons betweenthese implementations. The second contribution is the proposition and the presentation of a set of algorithmswhich implement the pre-computed schedules. We first deal with independent task sets in a non preemptivecontext. These algorithms are then adapted to be used in the context of preemptive scheduling, with sharedcritical ressources and precedence constraints. Using the model driven engeneering, we next provide a Posixcode generation tool. We also present a schedule observation tool. Finally, our work has been tested through apratical case study
APA, Harvard, Vancouver, ISO, and other styles
40

Nicolas, Pierre. "Mise au point et utilisation de modèles de chaînes de Markov cachées pour l'étude des séquences d'ADN." Evry-Val d'Essonne, 2003. http://www.theses.fr/2003EVRY0017.

Full text
Abstract:
Trois domaines d'application des modèles de chaînes de Markov cachées (HMM) pour l'interprétation des génomes bactériens ont été abordés dans cette thèse sous l'angle de l'utilisation d'approches d'estimation non supervisée. Tout d'abord, l'utilisation d'une méthode de segmentation des séquences d'ADN en régions de composition homogène a permis l'identification de transferts génétiques horizontaux chez Bacillus subtilis ainsi que d'autres niveaux d'hétérogénéités liés aux propriétés biologiques des gènes. Ensuite, un logiciel de prédiction de gènes a été développé. Une attention particulière a été portée à la recherche de très petits gènes. Une trentaine de gènes de taille inférieure à 50 acides aminés a ainsi été ajoutée à la vingtaine de petits gènes connus biologiquement chez B. Subtilis. Enfin, un algorithme de Monte-Carlo par chaîne de Markov (MCMC) est proposé pour la sélection bayésienne de modèles adaptés aux motifs des sites de fixation de l'ARN polymérase
Considering the use of self-training approaches, we developed in this thesis three domains in which we applied HMM for the bacterial genome interpretation. First, a segmentation method of DNA sequences into regions of homogeneous composition enables us to identify horizontal gene transfers on the Bacillus subtilis chromosome and also others heterogeneities levels linked to biological properties of genes. Next we developed a gene prediction software and we especially focused on small genes research. Around 30 genes smaller than 50 amino acids have been added to about 20 small genes previously biologically identified on B. Subtilis. Then we proposed a MCMC algorithm for Bayesian model selection in the context of RNA polymerase binding sites modeling
APA, Harvard, Vancouver, ISO, and other styles
41

Ahouandjinou, Arnaud. "Reconnaissance de scénario par les Modèles de Markov Cachés Crédibilistes : Application à l'interprétation automatique de séquences vidéos médicales." Thesis, Littoral, 2014. http://www.theses.fr/2014DUNK0380/document.

Full text
Abstract:
Les travaux de recherche développés dans cette thèse concernent la mise en oeuvre d'un système de vidéo surveillance intelligente en milieu hospitalier. Dans le contexte d'une application en unité de soins intensifs médicale, nous introduisons la notion originale de Boite Noire Médicale et nous proposons un nouveau système de monitoring visuel de Détection Automatique de Situations à risque et d'Alerte (DASA) basé sur un système de vidéosurveillance multi-caméra intelligent. L'objectif étant d'interpréter les flux d'informations visuelles et de détecter en temps réel les situations à risque afin de prévenir l'équipe médicale et ensuite archiver les évènements dans une base de donnée vidéo qui représente la Boite Noire Médicale. Le système d'interprétation est basé sur des algorithmes de reconnaissance de scénarios qui exploitent les Modèles de Markovs Cachés (MMCs). Une extension du modèle MMC standard est proposé afin de gérer la structure hiérarchique interne des scénarios et de contrôler la durée de chaque état du modèle markovien. La contribution majeure de ce travail repose sur l'intégration d'un raisonnement de type évènementiel, pour gérer la décision de reconnaissance en tenant compte des imperfections des informations disponibles. Les techniques de reconnaissance de scénarios proposées ont été testées et évaluées sur une base de séquences vidéo médicales et comparés aux modèles de Markov cachés probabilistiques classiques
This thesis focuses on the study and the implementation of an intelligent visual monitoring system in hospitals. In the context of an application for patient monitoring in mediacal intensive care unit, we introduce an original concept of the Medical Black Box and we propose a new system for visual monitoring of Automatic Detection of risk Situations and Alert (DASA) based on a CCTV system with network smart camera. The aim is to interpret the visual information flow and to detect at real-time risk situations to prevent the mediacl team and then archive the events in a video that is based Medical Black Box data. The interpretation system is based on scenario recognition algorithms that exploit the Hidden Markov Models (HMM). An extension of the classic model of HMM is proposed to handle the internal reporting structure of the scenarios and to control the duration of each state of the Markov model. The main contribution of this work relies on the integration of an evidential reasoning, in order to manage the recognition decision taking into account the imperfections of available information. The proposed scenarios recognition method have been tested and assessed on database of medical video sequences and compared to standard probabilistic Hidden Markov Models
APA, Harvard, Vancouver, ISO, and other styles
42

Di, Franco Arnaud. "Impact des violations des modèles d'annotation et d'évolution de séquences en phylogénomique : application à l'étude des eucaryotes photosynthétiques." Thesis, Toulouse 3, 2019. http://www.theses.fr/2019TOU30088.

Full text
Abstract:
L'oxygène a façonné la vie sur Terre. L'enrichissement de sa forme gazeuse dans l'eau puis dans l'atmosphère a permis le développement de la vie multicellulaire et terrestre menant à la biodiversité actuelle. Celui-ci a pu avoir lieu grâce la mise en place du processus de la photosynthèse oxydative chez les organismes vivants. Ce dernier est d'abord apparu chez les bactérie avant d'être subtilisé par les formes de vie nucléées. Cette action s'est réalisé en asservissant la bactérie et en la maintenant à l'intérieur de l'organisme nucléé par un phénomène nommé endosymbiose. Différentes endosymbioses ont eu lieu dans l'histoire des organismes photosynthétiques, attribuant la capacité de photosynthèse à un large panel d'êtres vivants. L'objectif de cette thèse est d'étudier la transmission de la photosynthèse chez les organismes eucaryotes. Ces derniers présentent une grande diversité de chloroplaste, l'organite réalisant la photosynthèse et témoin de l'intégration d'un organisme étranger à l'intérieur de leur cellule. L'inférence de la phylogénie, i.e. l'estimation des relations de parentés entre les organismes, révèle des discordances entre l'histoire racontée par le génome des chloroplastes et des noyaux. L'obtention de ces phylogénies et l'étude de leurs discordances sont au coeur de la compréhension de l'historique de l'acquisition de la photosynthèse. Cependant, l'inférence de la phylogénie est un procédé complexe influencé par la nature et la qualité des données ainsi que par les techniques employées. Les considérations de ce manuscrit de thèse se focalise sur l'impact de ces éléments sur la résolution de l'arbre des eucaryotes, avec pour objectif une meilleure compréhension de l'histoire des hôtes photosynthétiques et de leur endosymbionte. Premièrement, nous avons développé un logiciel améliorant la qualité des inférences phylogénétiques par le retrait de segments de séquences déterminés comme non relatif à l'évolution des organismes. Nous démontrons l'efficacité de la méthode et son impact comparé aux autres méthodes de filtrage de séquence couramment employées. Secondairement, nous créons un jeu de données phylogénomique en vue d'inférer la phylogénie des eucaryotes. Celui-ci est réalisé de manière semi-automatique et vise à augmenter au maximum le signal phylogénétique tout en évitant l'intégration de séquences ne permettant pas de retracer les liens de parentés entre organisme. Nous obtenons un arbre des eucaryotes comprenant la plus grande diversité en organismes à ce jour et discutons l'impact de l'échantillonnage sur les soutiens apportés à la topologie de l'arbre. Dernièrement, nous avons étudié l'impact du choix du modèle d'évolution des séquences sur la congruence des phylogénies obtenues entre les génomes des différents compartiments présents chez les stramenopiles photosynthétiques. Nos résultats sont en faveur de la présence d'un faible signal phylogénétique pour résoudre les noeuds à la base de ce groupe, ce dernier pouvant être facilement dépassé par le signal non phylogénétique produits par les violations de modèles. Au final, cette thèse met en évidence l'importance du développement des méthodes bioinformatique liées à la phylogénie afin de répondre avec assurance aux questions évolutives relatifs à des événements anciens
Oxygen has shaped life on Earth. Enriching its gaseous form in water then in the atmosphere has allowed the development of multicellular and terrestrial life leading to current biodiversity. This could have taken place thanks to the implementation of the process of the oxidative photosynthesis in living organisms. The latter first appeared in bacteria before being subtilized by nucleated life forms. This action was realized by enslaving the bacterium and keeping it inside the nucleated organism by a phenomenon called endosymbiosis. Different endosymbioses have occurred in history, attributing the ability of photosynthesis to a wide panel of living beings. The aim of this thesis is to study the transmission of photosynthesis in eukaryotic organisms. These present a great diversity of chloroplast, the organelle performing photosynthesis and witnessing the integration of a foreign organism. The inference of phylogeny, i.e. the estimation of the relationship existing between organisms, reveals discrepancies between the story told by the genome of chloroplasts and nuclei. Obtaining these phylogenies and studying their discordances are at the heart of the understanding of the history of the acquisition of photosynthesis. However, the inference of phylogeny is a complex process influenced by the type and the quality of data as well as by the used technology. The considerations of this thesis manuscript focus on the impact of these elements on the resolution of the tree eukaryotes, with the objectif of getting a better understanding of the history of the hosts photosynthetic and their endosymbiont. First, we developed softwares that improve the quality of physical inferences by the removal of segments of sequences determined to be non-relative to the organisms evolution. We demonstrate the effectiveness of the method and its comparative impact to other commonly used sequence filtering methods. Secondly, we create a phylogenomic data set to infer the phylogeny of eukaryotes. This is done semi-automatically and aims to increase the maximum of phylogenetic signal while avoiding the integration of sequences with no trace of homology between organisms. We get a tree of eukaryotes including the greatest diversity of organisms to date and discuss the impact of taxon sampling on the support given to tree topology. Recently, we have studied the impact of the choice of the sequence evolution model on the congruence of the phylogenies obtained between the genomes of the different compartments present in photosynthetic stramenopiles. Our results are in favor of the presence of a weak phylogenetic signal to solve the nodes at the base of this group, the latter can easily be overcome by the non-phylogenetic signal produced by model violations. In the end, this thesis highlights the importance of the development of bioinformatics phylogeny-related method to confidently answer questions in evolution related to old events
APA, Harvard, Vancouver, ISO, and other styles
43

Vergne, Nicolas. "Chaînes de Markov régulées et approximation de Poisson pour l'analyse de séquences biologiques." Phd thesis, Université d'Evry-Val d'Essonne, 2008. http://tel.archives-ouvertes.fr/tel-00322434.

Full text
Abstract:
L'analyse statistique des séquences biologiques telles les séquences nucléotidiques (l'ADN et l'ARN) ou d'acides aminés (les protéines) nécessite la conception de différents modèles s'adaptant chacun à un ou plusieurs cas d'étude. Etant donnée la dépendance de la succession des nucléotides dans les séquences d'ADN, les modèles généralement utilisés sont des modèles de Markov. Le problème de ces modèles est de supposer l'homogénéité des séquences. Or, les séquences biologiques ne sont pas homogènes. Un exemple bien connu est la répartition en gc : le long d'une même séquence, alternent des régions riches en gc et des régions pauvres en gc. Pour rendre compte de l'hétérogénéité des séquences, d'autres modèles sont utilisés : les modèles de Markov cachés. La séquence est divisée en plusieurs régions homogènes. Les applications sont nombreuses, telle la recherche des régions codantes. Certaines particularités biologiques ne pouvant apparaître suivant ces modèles, nous proposons de nouveaux modèles, les chaînes de Markov régulées (DMM pour drifting Markov model). Au lieu d'ajuster une matrice de transition sur une séquence entière (modèle de Markov homogène classique) ou différentes matrices de transition sur différentes régions de la séquence (modèles de Markov cachés), nous permettons à la matrice de transition de varier (to drift) du début à la fin de la séquence. A chaque position t dans la séquence, nous avons une matrice de transition Πt/n(où n est la longueur de la séquence) éventuellement différente. Nos modèles sont donc des modèles de Markov hétérogènes contraints. Dans cette thèse, nous donnerons essentiellement deux manières de contraindre les modèles : la modélisation polynomiale et la modélisation par splines. Par exemple, pour une modélisation polynomiale de degré 1 (une dérive linéaire), nous nous donnons une matrice de départ Π0 et une matrice d'arrivée Π1 puis nous passons de l'une à l'autre en fonction de la position t dans la séquence :
Πt/n = (1-t/n) Π0 + t/n Π1.
Cette modélisation correspond à une évolution douce entre deux états. Par exemple cela peut traduire la transition entre deux régimes d'un chaîne de Markov cachée, qui pourrait parfois sembler trop brutale. Ces modèles peuvent donc être vus comme une alternative mais aussi comme un outil complémentaire aux modèles de Markov cachés. Tout au long de ce travail, nous avons considéré des dérives polynomiales de tout degré ainsi que des dérives par splines polynomiales : le but de ces modèles étant de les rendre plus flexibles que ceux des polynômes. Nous avons estimé nos modèles de multiples manières puis évalué la qualité de ces estimateurs avant de les utiliser en vue d'applications telle la recherche de mots exceptionnels. Nous avons mis en oeuvre le software DRIMM (bientôt disponible à http://stat.genopole.cnrs.fr/sg/software/drimm/, dédié à l'estimation de nos modèles. Ce programme regroupe toutes les possibilités offertes par nos modèles, tels le calcul des matrices en chaque position, le calcul des lois stationnaires, des distributions de probabilité en chaque position... L'utilisation de ce programme pour la recherche des mots exceptionnels est proposée dans des programmes auxiliaires (disponibles sur demande).
Plusieurs perspectives à ce travail sont envisageables. Nous avons jusqu'alors décidé de faire varier la matrice seulement en fonction de la position, mais nous pourrions prendre en compte des covariables tels le degré d'hydrophobicité, le pourcentage en gc, un indicateur de la structure des protéines (hélice α, feuillets β...). Nous pourrions aussi envisager de mêler HMM et variation continue, où sur chaque région, au lieu d'ajuster un modèle de Markov, nous ajusterions un modèle de chaînes de Markov régulées.
APA, Harvard, Vancouver, ISO, and other styles
44

Grechka, Asya. "Image editing with deep neural networks." Electronic Thesis or Diss., Sorbonne université, 2023. https://accesdistant.sorbonne-universite.fr/login?url=https://theses-intra.sorbonne-universite.fr/2023SORUS683.pdf.

Full text
Abstract:
L'édition d'images a une histoire riche remontant à plus de deux siècles. Cependant, l'édition "classique" des images requiert une grande maîtrise artistique et nécessitent un temps considérable, souvent plusieurs heures, pour modifier chaque image. Ces dernières années, d'importants progrès dans la modélisation générative ont permis la synthèse d'images réalistes et de haute qualité. Toutefois, l'édition d'une image réelle est un vrai défi nécessitant de synthétiser de nouvelles caractéristiques tout en préservant fidèlement une partie de l'image d'origine. Dans cette thèse, nous explorons différentes approches pour l'édition d'images en exploitant trois familles de modèles génératifs : les GANs, les auto-encodeurs variationnels et les modèles de diffusion. Tout d'abord, nous étudions l'utilisation d'un GAN pré-entraîné pour éditer une image réelle. Bien que des méthodes d'édition d'images générées par des GANs soient bien connues, elles ne se généralisent pas facilement aux images réelles. Nous analysons les raisons de cette limitation et proposons une solution pour mieux projeter une image réelle dans un GAN afin de la rendre éditable. Ensuite, nous utilisons des autoencodeurs variationnels avec quantification vectorielle pour obtenir directement une représentation compacte de l'image (ce qui faisait défaut avec les GANs) et optimiser le vecteur latent de manière à se rapprocher d'un texte souhaité. Nous cherchons à contraindre ce problème, qui pourrait être vulnérable à des exemples adversariaux. Nous proposons une méthode pour choisir les hyperparamètres en fonction de la fidélité et de l'édition des images modifiées. Nous présentons un protocole d'évaluation robuste et démontrons l'intérêt de notre approche. Enfin, nous abordons l'édition d'images sous l'angle particulier de l'inpainting. Notre objectif est de synthétiser une partie de l'image tout en préservant le reste intact. Pour cela, nous exploitons des modèles de diffusion pré-entraînés et nous appuyons sur la méthode classique d'inpainting en remplaçant, à chaque étape du processus de débruitage, la partie que nous ne souhaitons pas modifier par l'image réelle bruitée. Cependant, cette méthode peut entraîner une désynchronisation entre la partie générée et la partie réelle. Nous proposons une approche basée sur le calcul du gradient d'une fonction qui évalue l'harmonisation entre les deux parties. Nous guidons ainsi le processus de débruitage en utilisant ce gradient
Image editing has a rich history which dates back two centuries. That said, "classic" image editing requires strong artistic skills as well as considerable time, often in the scale of hours, to modify an image. In recent years, considerable progress has been made in generative modeling which has allowed realistic and high-quality image synthesis. However, real image editing is still a challenge which requires a balance between novel generation all while faithfully preserving parts of the original image. In this thesis, we will explore different approaches to edit images, leveraging three families of generative networks: GANs, VAEs and diffusion models. First, we study how to use a GAN to edit a real image. While methods exist to modify generated images, they do not generalize easily to real images. We analyze the reasons for this and propose a solution to better project a real image into the GAN's latent space so as to make it editable. Then, we use variational autoencoders with vector quantification to directly obtain a compact image representation (which we could not obtain with GANs) and optimize the latent vector so as to match a desired text input. We aim to constrain this problem, which on the face could be vulnerable to adversarial attacks. We propose a method to chose the hyperparameters while optimizing simultaneously the image quality and the fidelity to the original image. We present a robust evaluation protocol and show the interest of our method. Finally, we abord the problem of image editing from the view of inpainting. Our goal is to synthesize a part of an image while preserving the rest unmodified. For this, we leverage pre-trained diffusion models and build off on their classic inpainting method while replacing, at each denoising step, the part which we do not wish to modify with the noisy real image. However, this method leads to a disharmonization between the real and generated parts. We propose an approach based on calculating a gradient of a loss which evaluates the harmonization of the two parts. We guide the denoising process with this gradient
APA, Harvard, Vancouver, ISO, and other styles
45

Thivin, Solenne. "Détection automatique de cibles dans des fonds complexes. Pour des images ou séquences d'images." Thesis, Université Paris-Saclay (ComUE), 2015. http://www.theses.fr/2015SACLS235/document.

Full text
Abstract:
L'objectif principal de ces travaux de thèse a été la mise en place d'un algorithme de détection de cibles sous-résolues pour des images infra-rouges de ciel.Pour cela, nous avons d'abord cherché à modéliser les images réelles dont nous disposions. Après une étude de ces images, nous avons proposé plusieurs modèles gaussiens prenant en compte la covariance spatiale. Dans ces modèles, nous avons supposé que les images pouvaient être segmentées en zones stationnaires. Dans chaque zone, nous avons supposé une structure forte sur la matrice de covariance (comme les modèles auto-régressifs en deux dimensions par exemple).Il a ensuite fallu choisir entre ces modèles. Pour cela, nous avons appliqué une méthode de sélection de modèles par critère de vraisemblance pénalisée introduite par Birgé et Massart. Nous avons obtenu comme résultats théoriques une inégalité oracle qui a permis de démontrer les propriétés statistiques du modèle choisi. Une fois le modèle sélectionné, nous avons pu bâtir un test de détection. Nous nous sommes inspirés de la théorie de Neyman-Pearson et du test du rapport de vraisemblance généralisé. Notre contrainte principale a été le respect du taux de fausses alarmes par image. Pour le garantir, nous avons appris le comportement du test sur les images réelles pour en déduire le seuil à appliquer.~~Nous avons ensuite remarqué que le comportement de ce test variait fortement selon la texture de l'image : image de ciel bleu uniforme, image de nuage très texturé, etc. Après avoir caractérisé les différentes textures rencontrées avec les coefficients de scattering de Stéphane Mallat, nous avons décidé de classer ces textures. Le seuil appliqué lors de la détection a alors été adapté à la texture locale du fond. Nous avons finalement mesuré les performances de cet algorithme sur des images réelles et nous les avons comparées à d'autres méthodes de détection.Mots-clés: Détection, Covariance spatiale, Sélection de modèles, Apprentissage, Classification non supervisée
During this PHD, we developped an detection algorithm. Our principal objective was to detect small targets in a complex background like clouds for example.For this, we used the spatial covariate structure of the real images.First, we developped a collection of models for this covariate structure. Then, we selected a special model in the previous collection. Once the model selected, we applied the likelihood ratio test to detect the potential targets.We finally studied the performances of our algorithm by testing it on simulated and real images
APA, Harvard, Vancouver, ISO, and other styles
46

Alméras, Lionel. "Caractérisation de nouvelles cibles de la réponse immune dans la sclérose en plaques : des séquences rétrovirales endogènes aux auto-antigènes cérébraux." Lille 2, 2003. http://www.theses.fr/2003LIL2MT02.

Full text
APA, Harvard, Vancouver, ISO, and other styles
47

Pardo, Jérémie. "Méthodes d'inférence de cibles thérapeutiques et de séquences de traitement." Electronic Thesis or Diss., université Paris-Saclay, 2022. http://www.theses.fr/2022UPASG011.

Full text
Abstract:
Un enjeu majeur de la médecine des réseaux est l’identification des perturbations moléculaires induites par les maladies complexes et les thérapies afin de réaliser une reprogrammation cellulaire. L’action de la reprogrammation est le résultat de l’application d’un contrôle. Dans cette thèse, nous étendons le contrôle unique des réseaux biologiques en étudiant le contrôle séquentiel des réseaux booléens. Nous présentons un nouveau cadre théorique pour l’étude formelle des séquences de contrôle. Nous considérons le contrôle par gel de noeuds. Ainsi, une variable du réseau booléen peut être fixée à la valeur 0, 1 ou décontrôlée. Nous définissons un modèle de dynamique contrôlée pour le mode de mise à jour synchrone où la modification de contrôle ne se produit que sur un état stable. Nous appelons CoFaSe le problème d’inférence consistant à trouver une séquence de contrôle modifiant la dynamique pour évoluer vers une propriété ou un état souhaité. Les réseaux auxquels sera appliqué CoFaSe auront toujours un ensemble de variables incontrôlables. Nous montrons que ce problème est PSPACE-dur. L’étude des caractéristiques dynamiques du problème CoFaSe nous a permis de constater que les propriétés dynamiques qui impliquent la nécessité d’une séquence de contrôle émergent des fonctions de mise à jour des variables incontrôlables. Nous trouvons que la longueur d’une séquence de contrôle minimale ne peut pas être supérieure à deux fois le nombre de profils des variables incontrôlables. À partir de ce résultat, nous avons construit deux algorithmes inférant des séquences de contrôle minimales sous la dynamique synchrone. Enfin, l’étude des interdépendances entre le contrôle séquentiel et la topologie du graphe d’interaction du réseau booléen nous a permis de découvrir des relations existantes entre structure et contrôle. Celles-ci mettent en évidence une borne maximale plus resserrée pour certaines topologies que celles obtenues par l’étude de la dynamique. L’étude sur la topologie met en lumière l’importance de la présence de cycles non-négatifs dans le graphe d’interaction pour l’émergence de séquences minimales de contrôle de taille supérieure ou égale à deux
Network controllability is a major challenge in network medicine. It consists in finding a way to rewire molecular networks to reprogram the cell fate. The reprogramming action is typically represented as the action of a control. In this thesis, we extended the single control action method by investigating the sequential control of Boolean networks. We present a theoretical framework for the formal study of control sequences.We consider freeze controls, under which the variables can only be frozen to 0, 1 or unfrozen. We define a model of controlled dynamics where the modification of the control only occurs at a stable state in the synchronous update mode. We refer to the inference problem of finding a control sequence modifying the dynamics to evolve towards a desired state or property as CoFaSe. Under this problem, a set of variables are uncontrollable. We prove that this problem is PSPACE-hard. We know from the complexity of CoFaSe that finding a minimal sequence of control by exhaustively exploring all possible control sequences is not practically tractable. By studying the dynamical properties of the CoFaSe problem, we found that the dynamical properties that imply the necessity of a sequence of control emerge from the update functions of uncontrollable variables. We found that the length of a minimal control sequence cannot be larger than twice the number of profiles of uncontrollable variables. From this result, we built two algorithms inferring minimal control sequences under synchronous dynamics. Finally, the study of the interdependencies between sequential control and the topology of the interaction graph of the Boolean network allowed us to investigate the causal relationships that exist between structure and control. Furthermore, accounting for the topological properties of the network gives additional tools for tightening the upper bounds on sequence length. This work sheds light on the key importance of non-negative cycles in the interaction graph for the emergence of minimal sequences of control of size greater than or equal to two
APA, Harvard, Vancouver, ISO, and other styles
48

Poli, Emmanuelle. "Stratigraphie séquentielle haute-résolution, modèles de dépôt et géométrie 2D-3D des séquences triasiques de la marge téthysienne ardéchoise." Dijon, 1997. http://www.theses.fr/1997DIJOS081.

Full text
APA, Harvard, Vancouver, ISO, and other styles
49

Courbis, Anne-Lise. "Contribution à l'étude et au développement d'un générateur de séquences de test comportemental." Montpellier 2, 1991. http://www.theses.fr/1991MON20274.

Full text
Abstract:
La conception de circuits digitaux a haute echelle d'integration pose le probleme de la generation de sequences de test a partir de descriptions comportementales. Nous presentons, dans ce memoire, une technique de generation automatique de sequences de test par detection de pannes. Cette technique repose d'une part, sur la definition d'un modele comportemental, support d'application du generateur, et d'autre part sur l'enumeration d'hypotheses de pannes comportementales. Une panne unique etant injectee sur un element du modele comportemental, sa detection implique plusieurs etapes: sensibiliser l'element en panne de facon a produire localement un effet de panne, puis propager cet effet jusqu'a une sortie primaire. Ces etapes posent des problemes de definition et e resolution de contraintes, ces contraintes etant positionnees sur des elements du modele pour manifester ou propager localement un effet de panne. Pour chacun des problemes, nous proposons donc un principe de resolution. Nous nous interessons ensuite a la mise en uvre de la technique de generation selon un point de vue pratique. Dans cet objectif, nous utilisons les concepts de construction et de parcours d'arbres de reduction qui ont ete formalises dans le domaine de l'intelligence artificielle. Cette etude ayant conduit au developpement d'un prototype, nous en presenterons son architecture generale
APA, Harvard, Vancouver, ISO, and other styles
50

Mercier, Sabine. "Statistiques des scores pour l'analyse et la comparaison de séquences biologiques." Rouen, 1999. http://www.theses.fr/1999ROUES089.

Full text
Abstract:
La comparaison de deux séquences biologiques joue un rôle primordial dans l'analyse des données issues de la biologie moléculaire. Pour effectuer ces comparaisons, nous attribuons des pondérations, appelées scores, aux différents couples de composants de ces séquences (nucléotides ou acides aminés) et recherchons la ou les régions qui correspondent au score maximal, appelé score local. Le problème statistique est de tester si le score calculé est significatif ou non, afin de mettre en évidence un lien biologique éventuel entre les séquences. Le but principal de cette thèse consiste à étudier la distribution du score local. Pour cela, nous modélisons les séquences par une suite de variables aléatoires indépendantes et identiquement distribuées à valeurs dans Z. Nous nous plaçons tout d'abord sous l'hypothèse de scores négatifs en moyenne. En utilisant la théorie des marchés aléatoires, nous établissons la distribution du maximum des sommes partielles qui se présente comme l'unique distribution invariante d'une chaine de Markov. Cette distribution s'écrit comme la combinaison linéaire de suites récurrentes définies à partir de racines d'un polynôme qui dépend directement de la distribution des scores. Nous tirons de ce résultat une nouvelle approximation asymptotique de la distribution du score local qui améliore numériquement celle donnée par Karlin et al. D'autre part, la distribution du score local est ensuite obtenue en utilisant la théorie des chaines de Markov. Ce résultat, valable pour des scores en moyenne négatifs, positifs ou bien nuls, se présente sous la forme de puissances d'une certaine matrice. On en déduit une approximation pour la distribution du score local de deux séquences avec décalage. Les deux approches étudiées dans cette thèse, sont à la fois différentes et indépendantes l'une de l'autre, ainsi que de celle de Karlin et al. Utilisée dans Blast. Les résultats peuvent être facilement généralises aux cas des suites à dépendance markovienne.
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography