Dissertations / Theses on the topic 'Analyse des séquences biologiques'

To see the other types of publications on this topic, follow the link: Analyse des séquences biologiques.

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Analyse des séquences biologiques.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

El, Zant El Kadhi Nahla. "Recherche de motifs relationnels dans des séquences : application aux séquences biologiques." Paris 13, 2005. http://www.theses.fr/2005PA132037.

Full text
Abstract:
Ce travail présente différentes méthodes pour la recherche des motifs dans les séquences. Il existe deux types de méthodes à savoir, la recherche des mots exacts et la recherche des mots approchés. Nous avons développé une nouvelle méthode de recherche qui tire profit de la méthode de KARP, MILLER et ROSENBERG. Notre méthode consiste à chercher les mots relationnels répétés dans une séquence. Nous avons appliqué notre méthode sur plusieurs types de séquences biologiques.
APA, Harvard, Vancouver, ISO, and other styles
2

Khodji, Hiba. "Apprentissage profond et transfert de connaissances pour la détection d'erreurs dans les séquences biologiques." Electronic Thesis or Diss., Strasbourg, 2023. http://www.theses.fr/2023STRAD058.

Full text
Abstract:
L'utilisation généralisée des technologies à haut débit dans le domaine biomédical génère d'énormes quantités de données, notamment la nouvelle génération de technologies de séquençage du génome. L'alignement multiple de séquences sert d'outil fondamental pour analyser ces données, avec des applications dans l'annotation des génomes, prédiction des structures et fonctions des protéines, ou la compréhension des relations évolutives, etc. Toutefois, divers facteurs, tels que des algorithmes d'alignement peu fiables, une prédiction de gènes incorrecte, ou des séquençages génomiques incomplets, ont tendance à compromettre la précision des alignements multiples de séquences. Dans cette thèse, nous nous intéressons à l'évaluation de la qualité des données en utilisant des techniques d'apprentissage profond. Nous proposons des modèles basés sur les réseaux de neurones convolutifs pour l'identification d'erreurs dans les représentations visuelles des alignements. Notre objectif principal est de proposer un outil d'assistance aux experts du domaine dans leurs études, où la fiabilité des alignements est cruciale. Ainsi, nous nous sommes intéressés à fournir des explications fiables pour les prédictions de nos modèles en exploitant l'intelligence artificielle explicable (XAI). Plus particulièrement, nous avons exploité les explications visuelles comme fondement pour un mécanisme de transfert d'apprentissage visant principalement à améliorer la capacité d'un modèle à discerner les caractéristiques les plus pertinentes dans les données d'entrée. Enfin, nous avons proposé de nouvelles métriques conçues pour permettre l'évaluation de cette capacité. Les premiers résultats suggèrent que notre approche parvient à trouver un bon équilibre entre la complexité d'un modèle, sa performance, et son explicabilité, et qu'elle peut être exploitée dans des domaines où la disponibilité des données est limitée et la compréhension des résultats est cruciale
The widespread use of high throughput technologies in the biomedical field is producing massive amounts of data, notably the new generation of genome sequencing technologies. Multiple Sequence Alignment (MSA) serves as a fundamental tool for the analysis of this data, with applications including genome annotation, protein structure and function prediction, or understanding evolutionary relationships, etc. However, the accuracy of MSA is often compromised due to factors such as unreliable alignment algorithms, inaccurate gene prediction, or incomplete genome sequencing. This thesis addresses the issue of data quality assessment by leveraging deep learning techniques. We propose novel models based on convolutional neural networks for the identification of errors in visual representations of MSAs. Our primary objective is to assist domain experts in their research studies, where the accuracy of MSAs is crucial. Therefore, we focused on providing reliable explanations for our model predictions by harnessing the potential of explainable artificial intelligence (XAI). Particularly, we leveraged visual explanations as a foundation for a transfer learning framework that aims essentially to improve a model's ability to focus on underlying features in an input. Finally, we proposed novel evaluation metrics designed to assess this ability. Initial findings suggest that our approach achieves a good balance between model complexity, performance, and explainability, and could be leveraged in domains where data availability is limited and the need for comprehensive result explanation is paramount
APA, Harvard, Vancouver, ISO, and other styles
3

Diop, Awa. "Analyse des séquences des génomes bactériens en tant que source d'information taxonomique." Thesis, Aix-Marseille, 2018. http://www.theses.fr/2018AIXM0276/document.

Full text
Abstract:
L’Identification rapide et la classification microbienne précise sont cruciales en microbiologie médicale pour la surveillance de la santé humaine et animale, établir un diagnostic clinique approprié et choisir des mesures thérapeutiques et de contrôle optimales. Cependant, les seuils universels utilisés pour la définition des espèces ne sont pas applicables à de nombreux genres bactériens. C'est notamment le cas des espèces du genre Rickettsia, qui expriment peu de caractéristiques phénotypiques distinctives. Compte tenu de la disponibilité des séquences de près de 100 génomes de Rickettsia, nous avons voulu évaluer une gamme de paramètres taxonomiques basés sur l’analyse des séquences génomiques afin de mettre au point des recommandations pour la classification des isolats au niveau de l’espèce et du genre. En comparant le degré de similarité des séquences de 78 génomes de Rickettsia et 61 génomes de 3 genres étroitement apparentés en utilisant 4 paramètres génomiques, nous avons montré que les outils taxonomiques basés sur les séquences génomiques sont simples à utiliser et rapides, et permettent une classification taxonomique fiable et reproductible des isolats de rickettsies avec des seuils spécifiques. Les résultats obtenus nous ont permis d'élaborer des recommandations pour la classification des isolats de rickettsies au niveau du genre et de l'espèce. À l'aide de la taxono-génomique, nous avons également pu décrire 17 nouvelles espèces bactériennes associées à l'homme. L'utilisation des outils génomiques est donc parfaitement adaptée à la classification taxonomique et peut changer radicalement notre vision de la taxonomie et de l'évolution bactérienne à l'avenir
Rapid identification and precise microbial classification are crucial in medical microbiology for human and animal health monitoring, appropriate clinical diagnosis and selection of optimal therapeutic and control measures. Indeed, the universal used for the definition of species are not applicable to many bacterial genera. This is particularly true of species of the genus Rickettsia which are strictly intracellular alpha-proteobacteria that express few phenotypic characteristics. Given the availability of genomic sequences of nearly 100 rickettsial genomes, we wanted to evaluate a range of taxonomic parameters based on genomic sequence analysis, to develop guidelines for the classification of Rickettsia isolates at the genus and species levels. By comparing the degree of similarity of the sequences of 78 genomes from Rickettsia species and 61 genomes from 3 closely related genera using several genomic parameters, we have shown that genome-based taxonomic tools are simple to use and fast, and allow for a reliable and reproducible taxonomic classification of isolates within species of the genus Rickettsia, with specific thresholds. The obtained results enabled us to develop guidelines for classifying rickettsial isolates at the genus and species levels. Using taxono-genomics, we have also been able to describe 17 new human-associated bacterial species on the basis of a combination of genomic analysis and phenotypic properties. The use of genomic tools is therefore perfectly adapted to taxonomic classification and can dramatically change our vision of taxonomy and bacterial evolution in the future
APA, Harvard, Vancouver, ISO, and other styles
4

Balaguer, Patrick. "Détection non isotopique de sondes nucléiques : application à la réaction d'hybridation et d'amplification (PCR) : [Polymerase Catalysed Reaction]." Montpellier 2, 1989. http://www.theses.fr/1989MON20050.

Full text
Abstract:
Les reactions de bioluminescence peuvent etre utilisees pour detecter des sequences specifiques d'adn apres hybridation avec une sonde nucleique. Differents marqueurs comme la cytosine sulfone, la fluoresceine et la biotine peuvent etre incorpores dans l'adn ou dans des oligonucleotides et etre detectes par des anti-corps ou de l'avidine lies a des enzymes. La detection par bioluminescence sur filtre de nitrocellulose offre une sensibilite comparable aux meilleures methodes non radioactives mais apporte surtout une mesure rapide, quantitative et facilement realisable par des films polaroid ou une camera video. La detection n'altere pas le filtre et permet la reutilisation de celui-ci. La luminescence peut etre utilisee pour detecter des reactions d'hybridations effectuees en solution mais la sensibilite est inferieure a celle obtenue sur filtre. L'amplification enzymatique permet de produire en grande quantite du materiel a detecter. L'incorporation de biotine-utp ou l'utilisation d'oligonucleotides amorces biotinylees dans la reaction d'amplification produit des molecules d'adn marquees qui peuvent etre detectees directement sans aucune etape de separation. Ce dosage est semi-quantitatif et rapide (1 heure)
APA, Harvard, Vancouver, ISO, and other styles
5

Benhamida, Sabria. "Mots interdits dans les séquences biologiques." Marne-la-Vallée, 2000. http://www.theses.fr/2000MARN0086.

Full text
Abstract:
Cette these, situee dans le cadre de la bio-informatique, presente des methodes permettant la recherche de mots dans des sequences biologiques. Cette recherche se formalise par deux concepts. Le premier est la comparaison des sequences donnant lieu a la resolution des problemes d'alignement exact et approche entre une sequence a de symboles et un motif p. Une extension de ce probleme est le traitement des alignements entre une sequence a et une expression rationnelle r donnee par son automate. Le deuxieme concept est la recherche de mots interdits dans les sequences permettant de detecter les regions de faible entropie dans les sequences d'adn. On definit ici l'entropie comme le nombre de facteurs distincts presents dans une region. Ce calcul est effectue sur des sequences d'adn vues comme des textes sur l'alphabet des nucleotides a, c, g, t et realise a l'aide de la creation d'index de tous les facteurs interdits presents dans le texte. Les structures de donnees les mieux adaptees pour generer ces index sont les arbres et les automates de suffixes. Ils ont une taille lineaire par rapport a la taille du texte et le temps d'acces a un facteur w du texte est o (longueur (w)). L'utilisation des automates compacts des suffixes permet un gain en espace memoire grace a la compression. Cela offre la possibilite de construire des index de sequences deux fois plus grand qu'avec des automates de suffixes. En biologie, grace a ces structures de donnees, nous avons cree des paysages et nous avons effectue des analyses probabilistes sur les chromosomes de la levure saccharomyces cerevisiae. Nous avons aussi developpe et exploite une methode basee sur la mesure d'entropie de portions de sequences. Cette methode permet de detecter des zones contenant un nombre important ou faible de mots interdits. Utilisee pour la comparaison des sequences, cette methode permet de trouver des similarites indetectables avec les methodes classiques d'alignement
APA, Harvard, Vancouver, ISO, and other styles
6

Gîrdea, Marta. "De nouvelles méthodes pour l'alignement des séquences biologiques." Phd thesis, Université des Sciences et Technologie de Lille - Lille I, 2010. http://tel.archives-ouvertes.fr/tel-00833311.

Full text
Abstract:
L'alignement de séquences biologiques est une technique fondamentale en bioinformatique, et consiste à identifier des séries de caractères similaires (conservés) qui apparaissent dans le même ordre dans les deux séquences, et à inférer un ensemble de modifications (substitutions, insertions et suppressions) impliquées dans la transformation d'une séquence en l'autre. Cette technique permet de déduire, sur la base de la similarité de séquence, si deux ou plusieurs séquences biologiques sont potentiellement homologues, donc si elles partagent un ancêtre commun, permettant ainsi de mieux comprendre l'évolution des séquences. Cette thèse aborde les problèmes de comparaison de séquences dans deux cadres différents: la détection d'homologies et le séquençage à haut débit. L'objectif de ce travail est de développer des méthodes d'alignement qui peuvent apporter des solutions aux deux problèmes suivants: i) la détection d'homologies cachées entre des protéines par comparaison de séquences protéiques, lorsque la source de leur divergence sont les mutations qui changent le cadre de lecture, et ii) le mapping de reads SOLiD (séquences de di-nucléotides chevauchantes codés par des couleurs) sur un génome de référence. Dans les deux cas, la même idée générale est appliquée: comparer implicitement les séquences d'ADN pour la détection de changements qui se produisent à ce niveau, en manipulant, en pratique, d'autres représentations (séquences de protéines, séquences de codes di-nucléotides) qui fournissent des informations supplémentaires et qui aident à améliorer la recherche de similarités. Le but est de concevoir et d'appliquer des méthodes exactes et heuristiques d'alignement, ainsi que des systemes de scores, adaptés à ces scénarios.
APA, Harvard, Vancouver, ISO, and other styles
7

Dugnolle, Patrick. "Outils mathématiques appliqués à l'analyse stoechiométrique d'une séquence vidéo-microscopique de cicatrisation in vitro en contraste de phase." Université Joseph Fourier (Grenoble), 2000. http://www.theses.fr/2000GRE10031.

Full text
Abstract:
Cette these porte sur le developpement d'outils permettant la confrontation entre certaines representations mathematiques de la migration et de la proliferation cellulaire et les donnees experimentales extraites d'un processus de cicatrisation in-vitro. Le premier chapitre introduit la notion d'independance cellulaire par un processus de markov et decrit un modele theorique du deplacement aleatoire et du dedoublement periodique. Par une analyse mathematique de la propagation d'un front migratoire rectiligne, l'objectif est de definir un estimateur des donnees representatives des cellules prenant part a l'activite colonisatrice en appliquant la notion de stchiometrie a l'equation de conservation d'un flux cellulaire, le deuxieme chapitre presente un enregistrement videomicroscopique, et definit les outils de traitements d'images necessaires aux calculs de la densite et du flux cellulaire. La mise en evidence d'un bruit thermique d'acquisition video implique l'utilisation d'une methode de debruitage : la transformation en ondelettes engendrees par dilatation d'une b-spline constitue un outil efficace. La detection des cellules par les valeurs localement maximales du signal est une methode simple et robuste. L'echantillonnage temporel permet de se placer sous l'hypothese de detection des mouvements minimaux. La combinaison de ces approches evite les problemes difficiles de segmentation du signal lumineux. Le troisieme chapitre est consacre a la mise en uvre de la methode et a la presentation des resultats obtenus, jusqu'a l'estimation du temps de doublement de la population cellulaire etudiee. Le quatrieme chapitre decrit les conditions de validation et presente une estimation des incertitudes. Ce travail theorique se situe a l'interface entre representations mathematiques et etudes experimentales des mecanismes biologiques. Il a pour objectif de fonder un ensemble d'outils efficaces permettant une quantification systematique du processus de cicatrisation in-vitro.
APA, Harvard, Vancouver, ISO, and other styles
8

Ronfard, Remi. "Analyse automatique de film - Des séquences d'images aux séquences d'actions." Habilitation à diriger des recherches, Université de Grenoble, 2009. http://tel.archives-ouvertes.fr/tel-00450230.

Full text
Abstract:
Je présente mes activités de recherche en indexation video et en reconnaissance d'actions, et je propose un programme de recherche permettant d'aborder ensemble ces deux questions au cours des prochaines années. Je décris d'abord une série de travaux réalisés dans le cadre du groupe MPEG et des projets DIVAN à l'INA (1998-2000), puis VIBES à l'INRIA (2001-2004), et qui visent à aborder l'indexation video à travers la reconnaissance des styles et conventions de la prise de vues et du montage. Cette première partie est illustrée par deux applications - le découpage d'un journal télévisé en sujets, et l'indexation d'un film de cinéma par son script. Je présente ensuite des travaux réalisés à l'INRIA en 2005-2008 au sein de l'équipe MOVI. Je montre comment nous avons utilisé l'infrastructure GRIMAGE pour (1) apprendre des modèles statistiques 3D d'un petit répertoire d'actions humaines permettant de les reconnaitre lorsqu'elles sont exécutées par d'autres acteurs, sous d'autres points de vue ; (2) découper une séquence d'images 3D en actions primitives reconnaissables; et (3) reconnaître ces mêmes actions selon le point de vue d'une seule caméra. Enfin, je propose quelques pistes pour étendre les résultats précédents afin d'aborder simultanément les deux problèmes de la reconnaissance des actions et des styles de mise en scène dans les films. Je présente les avantages et les difficultés d'une approche unifiée de ces deux problèmes, ainsi que des applications possibles dans les domaines de la fiction interactive, du jeu vidéo et du machinima.
APA, Harvard, Vancouver, ISO, and other styles
9

Cenac, Peggy. "Etude statistique de séquences biologiques et convergence de martingales." Phd thesis, Université Paul Sabatier - Toulouse III, 2006. http://tel.archives-ouvertes.fr/tel-00134328.

Full text
Abstract:
Le système dynamique Chaos Game Representation associe une suite de lettres dans un alphabet fini, une mesure empirique sur un ensemble. Fournit-elle plus d'information
que les méthodes de comptage de mots classiques ? A
partir d'une caractérisation basée sur la CGR, on propose une nouvelle famille de
tests donnant l'ordre d'une chaîne de Markov homogène.
On définit ensuite une construction d'arbres digitaux de recherche,
inspirés par la CGR, en insérant successivement les préfixes retournés d'une chaîne de Markov. On montre que les longueurs des branches critiques se comportent, au premier ordre, comme si les
séquences insérées étaient indépendantes entre elles.
La dernière partie est consacrée à l'étude de la convergence presque sûre des moments normalisés de tout ordre de martingales vectorielles dans le théorème de la limite centrale
presque sûr. Les résultats sont appliqués aux erreurs d'estimation et de prédiction dans les régressions linéaires et les processus de branchement.
APA, Harvard, Vancouver, ISO, and other styles
10

Tran, Tuan Tu. "Comparaisons de séquences biologiques sur architecture massivement multi-cœurs." Phd thesis, Université des Sciences et Technologie de Lille - Lille I, 2012. http://tel.archives-ouvertes.fr/tel-00832663.

Full text
Abstract:
Rechercher les similarités entre séquences est une opération fondamentale en bioinformatique, que cela soit pour étudier des questions biologiques ou bien pour traiter les données issues de séquenceurs haut-débit. Il y a un vrai besoin d'algorithmes capables de traiter des millions de séquences rapidement. Pour trouver des similarités approchées, on peut tout d'abord considérer de petits mots exacts présents dans les deux séquences, les graines, puis essayer d'étendre les similarités aux voisinages de ces graines. Cette thèse se focalise sur la deuxième étape des heuristiques à base de graines : comment récupérer et comparer efficacement ces voisinages des graines, pour ne garder que les bons candidats ? La thèse explore différentes solutions adaptées aux processeurs massivement multicoeurs: aujourd'hui, les GPUs sont en train de démocratiser le calcul parallèle et préparent les processeurs de demain. La thèse propose des approches directes (extension de l'algorithme bit-parallèle de Wu-Manber, publiée à PBC 2011, et recherche dichotomique) ou bien avec un index supplémentaire (utilisation de fonctions de hash parfaites). Chaque solution a été pensée pour tirer le meilleur profit des architectures avec un fort parallélisme à grain fin, en utilisant des calculs intensifs mais homogènes. Toutes les méthodes proposées ont été implémentés en OpenCL, et comparées sur leur temps d'exécution. La thèse se termine par un prototype de read mapper parallèle, MAROSE, utilisant ces concepts. Dans certaines situations, MAROSE est plus rapide que les solutions existantes avec une sensibilité similaire.
APA, Harvard, Vancouver, ISO, and other styles
11

Fayyaz, Movaghar Afshin. "Signification statistique du score local d'alignement de séquences biologiques." Toulouse 2, 2007. http://www.theses.fr/2007TOU20083.

Full text
Abstract:
Cette thèse est consacrée à l’évaluation de la signification statistique pour la comparaison de séquences biologiques. Nous nous intéressons ici à l'optimisation d’alignements locaux. Un alignement local exprime les similitudes en révélant les parties des séquences qui sont semblables. Si, les méthodes usuelles (telles que BLAST) sont appropriées aux longues séquences, dans cette thèse, nous proposons deux nouvelles p-valeurs basées sur des méthodes exactes hors du cadre asymptotique : 1. La p-valeur basée sur l’approche des h-uplets : elle combine une distribution approchée du score local sans gaps de deux séquences et une fonction de score spécifique qui permet d’introduire les gaps calculée pour un entier h donné. L'influence de h et la qualité de la p-valeur sont numériquement étudiées et comparées à la p-valeur obtenue par BLAST. Les résultats numériques soulignent que notre p-valeur approchée surpasse celle de BLAST pour des séquences courtes simulées ou réelles. 2. La nouvelle p-valeur obtenue en améliorant le « Greedy Extension model » : elle est basée sur une approximation poissonienne dont le paramètre à estimer. Dans ce travail, nous l’estimons en utilisant des méthodes exactes qui améliorent la précision de la p-valeur. Nous illustrons notre propos par des simulations
This thesis concerns the problem of assessing the statistical significance of the outcomes from the similarities of biological sequences. In this thesis, we are interested in optimizing local alignment. A local alignment expresses the similarities by giving the parts of sequences which are similar. If the methods (like BLAST) are appropriate for long sequences, in this thesis, we propose two new p-values stood on the exact means as follows that do not rely on asymptotics: 1. P-value relied on h-tuple approach: our method stands on combining an adapted scoring scheme that includes the gaps and an approximate distribution of the ungapped local score of two independent sequences. The new scoring scheme is defined on h-tuples of the sequences using the gapped global score. The influence of h and the accuracy of the p-value are numerically studied and compared with obtained p-value of BLAST. The numerical experiments emphasize that our approximate p-values outperform the BLAST ones for both simulated and real short sequences. 2. New p-value by improving Greedy Extension Model: this p-value stands on an approximation of Poisson whose parameter is to estimate. In this thesis, we estimate this parameter from the exact methods that results more accurate p-value. We illustrate our purpose by simulations
APA, Harvard, Vancouver, ISO, and other styles
12

Cénac, Peggy. "Étude statistique de séquences biologiques et convergence de martingales." Toulouse 3, 2006. http://www.theses.fr/2006TOU30065.

Full text
Abstract:
Le système dynamique Chaos Game Representation associe à une suite de lettres dans un alphabet fini, une mesure empirique sur un ensemble. Fournit-elle plus d'information que les méthodes de comptage de mots classiques ? A partir d'une caractérisation basée sur la CGR, on propose une nouvelle famille de tests donnant l'ordre d'une chaîne de Markov homogène. On définit ensuite une construction d'arbres digitaux de recherche, inspirés par la CGR, en insérant successivement les préfixes retournés d'une chaîne de Markov. On montre que les longueurs des branches critiques se comportent, au premier ordre, comme si les séquences insérées étaient indépendantes entre elles. La dernière partie est consacrée à l'étude de la convergence presque sûre des moments normalisés de tout ordre de martingales vectorielles dans le théorème de la limite centrale presque sûr. Les résultats sont appliqués aux erreurs d'estimation et de prédiction dans les régressions linéaires et les processus de branchement
The Chaos Game Representation is a dynamical system which maps a sequence of letters taken from a finite alphabet onto an empirical measure on a set. We show how the CGR can be used to characterize the order of an homogeneous Markov chain and to define a new family of tests. Then we propose a construction of Digital Search Trees, inspired from the CGR, by successively inserting all the returned prefixes of a Markov chain. We give the asymptotic behavior of the critical lengths of paths, which turns out to be, at first order, the same one as in the case of DST built from independent Markov chains. A last part deals with properties of almost sure convergence of vectorial martingales. Under suitable regularity conditions on the growing process, we establish the convergence of normalized moments of all orders in the almost sure central limit theorem. The results are applied to the cumulated errors of estimation and prediction in linear regression models and branching processes
APA, Harvard, Vancouver, ISO, and other styles
13

Tran, Tuan Tu. "Comparaisons de séquences biologiques sur architecture massivement multi-coeurs." Thesis, Lille 1, 2012. http://www.theses.fr/2012LIL10138/document.

Full text
Abstract:
Rechercher les similarités entre séquences est une opération fondamentale en bioinformatique, que cela soit pour étudier des questions biologiques ou bien pour traiter les données issues de séquenceurs haut-débit. Il y a un vrai besoin d'algorithmes capables de traiter des millions de séquences rapidement. Pour trouver des similarités approchées, on peut tout d'abord considérer de petits mots exacts présents dans les deux séquences, les graines, puis essayer d'étendre les similarités aux voisinages de ces graines. Cette thèse se focalise sur la deuxième étape des heuristiques à base de graines : comment récupérer et comparer efficacement ces voisinages des graines, pour ne garder que les bons candidats ? La thèse explore différentes solutions adaptées aux processeurs massivement multicœurs: aujourd'hui, les GPUs sont en train de démocratiser le calcul parallèle et préparent les processeurs de demain. La thèse propose des approches directes (extension de l'algorithme bit-parallèle de Wu-Manber, publiée à PBC 2011, et recherche ichotomique) ou bien avec un index supplémentaire (utilisation de fonctions de hash parfaites). Chaque solution a été pensée pour tirer le meilleur profit des architectures avec un fort parallélisme à grain fin, en utilisant des calculs intensifs mais homogènes. Toutes les méthodes proposées ont été implémentés en OpenCL, et comparées sur leur temps d'exécution. La thèse se termine par un prototype de read mapper parallèle, MAROSE, utilisant ces concepts. Dans certaines situations, MAROSE est plus rapide que les solutions existantes avec une sensibilité similaire
Searching similarities between sequences is a fundamental operation in bioinformatics, providing insight in biological functions as well as tools for high-throughput data. There is a need to have algorithms able to process efficiently billions of sequences. To look for approximate similarities,a common heuristic is to consider short words that appear exactly in both sequences, the seeds, then to try to extend this similarity to the neighborhoods of the seeds. The thesis focuses on this second stage of seed-based heuristics : how can we retrieve and compare efficiently the neighborhoods of the seeds ? The thesis proposes several solutions tailored for manycore processors such as today’s GPUs. Such processors are making massively parallel computing more and more popular. The thesis proposes direct approaches (extension of bit-parallel Wu-Manber algorithm, published in PBC 2011, and binary search) and approaches with another index (with perfect hash functions). Each one of these solutions was conceived to obtain as much fine-grained parallelism as possible, requiring intensive but homogeneous computational operations. All proposed methods were implemented in OpenCL and benchmarked. Finally, the thesis presents MAROSE, a prototype parallel read mapper using these concepts. In some situations, MAROSE is more efficient than the existing read mappers with a comparable sensitivity
APA, Harvard, Vancouver, ISO, and other styles
14

Mouchard, Laurent. "Superpositions dans les séquences." Rouen, 1998. http://www.theses.fr/1999ROUES038.

Full text
Abstract:
Nous présentons une étude des superpositions dans les séquences biologiques dans les trois cas suivants : - superpositions entre plusieurs séquences qui correspondent notamment au cas de l'assemblage de fragments et l'alignement multiples de séquences, ces deux problèmes étant connus comme étant NP-difficiles. - superpositions entre deux séquences qui correspondent aux problèmes des comparaisons de séquences pour lesquelles nous proposons des implantations parallèles aussi bien sur machine SIMD que sur machines MIMD. Nous proposons également une méthode permettant d'améliorer la significativité des scores de comparaison. Cette méthode a été implantée sur une machine parallèle de type MIMD. - superpositions à l'intérieur d'une séquence qui correspondent à la recherche de régularités avec chevauchement : un nouvel algorithme améliorant d'un facteur o (log n) les précédents algorithmes est proposé pour la recherche des facteurs quasipériodiques maximaux et les formes normales gauches et droites permettant une modélisation de ces régularités sont introduites.
APA, Harvard, Vancouver, ISO, and other styles
15

Étienne, Marie-Pierre. "Le score local : un outil pour l'analyse de séquences biologiques." Nancy 1, 2002. http://www.theses.fr/2002NAN10289.

Full text
Abstract:
Les molécules biologiques que sont l'ADN, les différents ARN et les protéines sont à la base des mécanismes du vivant. On peut les considérer comme de longues séquences écrites à l'aide d'un alphabet A fini. Une des méthodes pour analyser l'information contenue dans ces séquences consiste à attribuer un poids appelé score à chaque composant élémentaire. Le score global de la séquence est alors la somme des scores élémentaires et le score local est le maximum des scores de toutes les sous séquences. Le problème statistique qui se pose est d'évaluer le niveau de significativité du score local obtenu. Pour répondre à cette question, on se place sous l'hypothèse nulle Ho qui correspond dans cette étude à considérer les scores élémentaires comme des variables i. I. D. Selon le signe de l'espérance des scores élémentaires, le comportement du score local est totalement différent. On détermine alors la loi asymptotique du score local dans le cas centré. Cette étude complète l'approche proposée par Karlin & al. Et Mercier (espérance négative). Il existe donc une zone de transition de phase lorsque l'espérance est proche de 0 et nous étudions le comportement numérique des différentes approximations dans ce cas
For any organism, DNA, RNA and proteins information can be considered as long sequences of letters taken from a finite alphabet A. One way to analyze this information is to assign a weight at each letter (an elementary score). Then, we make the sum over each possible segment and search the segment which realizes the maximal score called the local score. Then the problem is to give a level of significance for this local score. We are led to study the distribution of the local score under the null hypothesis : elementary scores are i. I. D. Random variables. According to the sign of the mean, the behaviour of the local score is widely different. We determine the asymptotic distribution of the local score when random variables are centered. This work completes the asymptotic study of Karlin & al. And Mercier (the negative expectation). In the area of phase transition we study nurnerically the behaviour of the different approximations. Finally we give the rate of convergence of the cumulative distribution function for the local score over a sequence of length n, as n goes to infinity
APA, Harvard, Vancouver, ISO, and other styles
16

Gorbovitskaia, Marie. "Identification et effets biologiques de séquences virales endogènes chez le poulet." Lyon 1, 1998. http://www.theses.fr/1998LYO10039.

Full text
Abstract:
Deux categories de sequences virales endogenes chez le poulet ont ete etudiees selon qu'elles sont apparentees aux retrovirus ou bien homologues a un herpesvirus. Notre travail s'est oriente d'abord vers l'etude des sequences retrovirales endogenes apparentees aux virus des leucoses aviaires (famille alve). L'identification des insertions alve a ete entreprise par rflp sur 23 individus, portant 1 ou plusieurs alve, issus de deux lignees experimentales de poules de race rhode island red (rir), a l'aide de 5 enzymes et 4 sondes (genome viral entier et regions gag, pol ou ltr). Les sites d'insertion et la structure interne du provirus ont ete caracterises par une approche pcr. Parmi les 12 insertions identifiees, 9 sont apparues specifiques de cette population, 4 etaient completes et 5 montraient des deletions. Une mise a jour de la classification des alve chez le poulet est proposee. Une etude experimentale des effets biologiques a ete entreprise pour deux insertions alve. Une association qui avait ete suggeree entre l'insertion retrovirale alve r2 et la temperature corporelle des coqs rir, n'a pas pu etre confirmee sur de nouvelles donnees experimentales obtenues sur 52 coqs. L'expression du gene env de l'allele delete osd de l'insertion alve21 a ete mise en evidence par rt-pcr chez des animaux ne portant pas d'autres alve que l'allele osd. La derniere partie de ce travail a consiste a rechercher des sequences hautement homologues (shh) a l'herpesvirus de la maladie de marek (mdv) dans le genome de poulet. La recherche de shh-mdv a ete effectuee chez des poulets non infectes (spf) avec des sondes (rflp) ou des amorces (pcr) issues de mdv. Plusieurs bandes homologues a une partie du gene gb codant pour la proteine d'enveloppe ont ete observees, avec un profil particulier dans une lignee sensible a la maladie de marek. Ces bandes correspondent probablement a plusieurs sites d'insertion de shh. Leur effet biologique demeure inconnu mais pourrait interferer avec la reponse a l'infection par le mdv.
APA, Harvard, Vancouver, ISO, and other styles
17

Groult, Richard. "Détection de répétitions en tandem avec évolution : application aux séquences biologiques." Rouen, 2004. http://www.theses.fr/2004ROUES014.

Full text
Abstract:
Une répétition en tandem avec évolution consiste en une suite de copies plus ou moins contigue͏̈s où chaque copie est fortement similaire à celle qui la précède et à celle qui lui succède. Il n'existe pas de notion de modèle comme pour les répétitions en tandem "classiques" et la première et la dernière copie peuvent être complètement différentes. Ce "nouveau" type de répétition a été mis en évidence durant l'assemblage du génome humain. Dans ce manuscrit, je commence par définir, de façon formelle, les répétitions en tandem avec évolution à partir des observations effectuées dans les séquences biologiques. Après avoir effectué des tests sur des logiciels de recherche de répétitions, je conclus qu'il n'existe pas de logiciel capable de les détecter efficacement. J'ai alors conçu des algorithmes capables de détecter ce type de répétitions : un premier algorithme, quadratique en la longueur de la séquence, puis un algorithme linéaire. Ces algorithmes ont été implantés afin de mettre à disposition des biologistes des outils qui détectent efficacement ces répétitions dans de très grandes séquences génomiques, telles les chromosomes humains. Plusieurs méthodes de parallélisation sont également présentées. Les résultats des tests réalisés sur des chromosomes montrent la présence de ces répétitions dans plusieurs génomes
An evolutive tandem repeat consists in a series of almost contiguous copies, such that each copy is strongly similar to its predecessor and its successor. There is no model and the first and the last copy can be completely different. It differs from a ``classical'' tandem repeat that considers a model and a radius around this model. This ``new'' type of repeat has been pointed out during the assembly of the human genome. In this manuscript, I first define, in a formal way, the evolutive tandem repeats from observations achieved in biological sequences. After having carried out tests using well known existing softwares, I conclude that no one was able to detect it correctly and that they are not part of the sequences that have been submitted to databanks. I therefore designed algorithms that are able to locate this specific type of repeats: a first algorithm, quadratric in the length of the sequence, then a linear one. These algorithms have been implemented in order to provide biologists with tools that detect efficiently these repeats in real large sequences, such as human chromosomes. Several parallelisation methods are presented too. The results of the carried out tests on chromosomes show the existence of such repeats in genomes
APA, Harvard, Vancouver, ISO, and other styles
18

Mercier, Sabine. "Statistiques des scores pour l'analyse et la comparaison de séquences biologiques." Rouen, 1999. http://www.theses.fr/1999ROUES089.

Full text
Abstract:
La comparaison de deux séquences biologiques joue un rôle primordial dans l'analyse des données issues de la biologie moléculaire. Pour effectuer ces comparaisons, nous attribuons des pondérations, appelées scores, aux différents couples de composants de ces séquences (nucléotides ou acides aminés) et recherchons la ou les régions qui correspondent au score maximal, appelé score local. Le problème statistique est de tester si le score calculé est significatif ou non, afin de mettre en évidence un lien biologique éventuel entre les séquences. Le but principal de cette thèse consiste à étudier la distribution du score local. Pour cela, nous modélisons les séquences par une suite de variables aléatoires indépendantes et identiquement distribuées à valeurs dans Z. Nous nous plaçons tout d'abord sous l'hypothèse de scores négatifs en moyenne. En utilisant la théorie des marchés aléatoires, nous établissons la distribution du maximum des sommes partielles qui se présente comme l'unique distribution invariante d'une chaine de Markov. Cette distribution s'écrit comme la combinaison linéaire de suites récurrentes définies à partir de racines d'un polynôme qui dépend directement de la distribution des scores. Nous tirons de ce résultat une nouvelle approximation asymptotique de la distribution du score local qui améliore numériquement celle donnée par Karlin et al. D'autre part, la distribution du score local est ensuite obtenue en utilisant la théorie des chaines de Markov. Ce résultat, valable pour des scores en moyenne négatifs, positifs ou bien nuls, se présente sous la forme de puissances d'une certaine matrice. On en déduit une approximation pour la distribution du score local de deux séquences avec décalage. Les deux approches étudiées dans cette thèse, sont à la fois différentes et indépendantes l'une de l'autre, ainsi que de celle de Karlin et al. Utilisée dans Blast. Les résultats peuvent être facilement généralises aux cas des suites à dépendance markovienne.
APA, Harvard, Vancouver, ISO, and other styles
19

Nicodème, Pierre. "Alignement avec des familles de séquences protéiques." Paris 7, 1997. http://www.theses.fr/1997PA077333.

Full text
Abstract:
Nous etudions les problemes mathematiques et algorithmiques lies a l'alignement de sequences. Un modele construit sur un schema de scores additif est utilise par les biologistes pour comparer entre elles des sequences d'ADN ou des sequences de proteines. Dans ce modele un score est associe a l'appariement de deux lettres de l'alphabet considere. Karlin et Altschul ont formalise cette approche au moyen d'un modele de marche aleatoire. La loi asymptotique du score de l'alignement optimal est une loi des valeurs extremes. Le modele utilise la factorisation de Wiener-Hopf et l'identite de Spitzer. Nous donnons une demonstration simple dans le cas ou les increments sont discrets, ce qui est le cas des applications biologiques. Nous etudions ensuite le cas ou l'on cherche a aligner un alignement multiple, compose d'un ensemble de sequences prealablement alignees, et une sequence. Nous considerons alors le cas des proteines et construisons des graphes d'alignement qui modelisent le niveau de conservation des acides amines pour les positions de l'alignement multiple. L'alignement optimal recherche correspond a present a un chemin de score maximal dans ces graphes, pour un choix donne des positions relatives de l'alignement multiple et de la sequence. Nous proposons un algorithme qui est une extension de l'algorithme d'alignement sequence a sequence BLAST. Nous verifions experimentalement que la loi des valeurs extremes reste verifiee dans ce cadre etendu. Nous comparons l'efficacite de ce nouvel algorithme avec celles d'algorithmes classiques pour la recherche de similarites. Nous appliquons les resultats obtenus a la base de familles de sequences proteiques PRODOM. Nous utilisons l'approche de Waterman et Vingron pour montrer que la methode des approximations poissonniennes s'applique tres efficacement aux calibrations probabilistes des familles de PRODOM pour cet algorithme
APA, Harvard, Vancouver, ISO, and other styles
20

Bourguignon, Pierre Yves Vincent. "Parcimonie dans les modèles Markoviens et application à l'analyse des séquences biologiques." Thesis, Evry-Val d'Essonne, 2008. http://www.theses.fr/2008EVRY0042.

Full text
Abstract:
Les chaînes de Markov constituent une famille de modèle statistique incontournable dans de nombreuses applications, dont le spectre s'étend de la compression de texte à l'analyse des séquences biologiques. Un problème récurrent dans leur mise en oeuvre face à des données réelles est la nécessité de compromettre l'ordre du modèle, qui conditionne la complexité des interactions modélisées, avec la quantité d'information fournies par les données, dont la limitation impacte négativement la qualité des estimations menées. Les arbres de contexte permettent une granularité fine dans l'établissement de ce compromis, en permettant de recourir à des longueurs de mémoire variables selon le contexte rencontré dans la séquence. Ils ont donné lieu à des outils populaires tant pour l'indexation des textes que pour leur compression (Context Tree Maximisation – CTM - et Context Tree Weighting - CTW). Nous proposons une extension de cette classe de modèles, en introduisant les arbres de contexte parcimonieux, obtenus par fusion de noeuds issus du même parent dans l'arbre. Ces fusions permettent une augmentation radicale de la granularité de la sélection de modèle, permettant ainsi de meilleurs compromis entre complexité du modèle et qualité de l'estimation, au prix d'une extension importante de la quantité de modèles mise en concurrence. Cependant, grâce à une approche bayésienne très similaire à celle employée dans CTM et CTW, nous avons pu concevoir une méthode de sélection de modèles optimisant de manière exacte le critère bayésien de sélection de modèles tout en bénéficiant d'une programmation dynamique. Il en résulte un algorithme atteignant la borne inférieure de la complexité du problème d'optimisation, et pratiquement tractable pour des alphabets de taille inférieure à 10 symboles. Diverses démonstrations de la performance atteinte par cette procédure sont fournies en dernière partie
Markov chains, as a universal model accounting for finite memory, discrete valued processes, are omnipresent in applied statistics. Their applications range from text compression to the analysis of biological sequences. Their practical use with finite samples, however, systematically require to draw a compromise between the memory length of the model used, which conditions the complexity of the interactions the model may capture, and the amount of information carried by the data, whose limitation negatively impacts the quality of estimation. Context trees, as an extension of the model class of Markov chains, provide the modeller with a finer granularity in this model selection process, by allowing the memory length to vary across contexts. Several popular modelling methods are based on this class of models, in fields such as text indexation of text compression (Context Tree Maximization and Context Tree Weighting). We propose an extension of the models class of context trees, the Parcimonious context trees, which further allow the fusion of sibling nodes in the context tree. They provide the modeller with a yet finer granularity to perform the model selection task, at the cost of an increased computational cost for performing it. Thanks to a bayesian approach of this problem borrowed from compression techniques, we succeeded at desiging an algorithm that exactly optimizes the bayesian criterion, while it benefits from a dynamic programming scheme ensuring the minimisation of the computational complexity of the model selection task. This algorithm is able to perform in reasonable space and time on alphabets up to size 10, and has been applied on diverse datasets to establish the good performances achieved by this approach
APA, Harvard, Vancouver, ISO, and other styles
21

Gautier, Christian. "Analyse statistique et évolution des séquences d'acides nucléiques." Lyon 1, 1987. http://www.theses.fr/1987LYO19034.

Full text
Abstract:
Une description statistique des regions des genomes codant pour les proteines (les "parties codantes") est presentee. La methodologie utilise a la fois une modelisation de l'information et des outils de description. Les schemas entite-association constituent un outil de representation des relations logiques entre des jets biologiques. La description des sequences a utilise essentiellement des methodes multivariees et des statistiques non parametriques. Ces analyses montrent l'existence de biais importants dans l'usage du code ainsi que dans certaines relations de voisinage entre bases. Ces biais peuvent s'interpreter, au moins en partie, comme resultant de contraintes liees aux differents processus moleculaires auxquels participent ces sequences. Chez e. Coli, le processus de traduction a ete clairement mis en cause. Une repercussion de ces contraintes sont la nature de la proteine codee a pu etre mise en evidence dans plusieurs cas. L'observation de biais tres differents dans des sequences homologues (en particulier mitochondrial) a permis de discuter de la stationnarite du processus evolutif
APA, Harvard, Vancouver, ISO, and other styles
22

Aurengo, André. "Analyse factorielle des séquences d'images en médecine nucléaire." Paris 11, 1989. http://www.theses.fr/1989PA112413.

Full text
Abstract:
Cette thèse présente en neuf chapitres et deux annexes l'analyse détaillée, la formalisation et l'amélioration des principales étapes de l'analyse factorielle des séquences d'images (Asfi). Le chapitre I définit le but de cette analyse: estimer les cinétiques et les images fondamentales d'une séquence. Les hypothèses de travail et le formalisme sont présents. Le chapitre II décrit les trois étapes de l'Asfi: regroupement des pixels des images, réduction de l'espace de travail, recherche des éléments fondamentaux. Le chapitre III décrit les précédentes applications, en chimie et en imagerie. Le chapitre iv analyse les principales insuffisances des algorithmes classiquement utilises en Asfi. Le chapitre v présente plusieurs méthodes originales de regroupement des pixels: indice d'agrégation stochastique, algorithmes local et global d'agrégation stochastique et par méthode des nuées dynamiques. Le chapitre vi étudie les méthodes de réduction de l'espace de travail et propose une méthode optimale originale. Le chapitre vii présente quatre algorithmes originaux pour la recherche des cinétiques fondamentales: pole fixe, coordonnées négatives, facettes, indicatrice et polyèdre minimal. Le chapitre viii montre des résultats obtenus sur fantômes numériques et physiques. Le chapitre ix montre les limites théoriques de ce groupe de méthodes. Les annexes traitent de la construction des fantômes et de l'implantation sur micro-ordinateur
APA, Harvard, Vancouver, ISO, and other styles
23

Martin, Benjamin. "Analyse de structures répétitives dans les séquences musicales." Thesis, Bordeaux 1, 2012. http://www.theses.fr/2012BOR14711/document.

Full text
Abstract:
Cette thèse rend compte de travaux portant sur l’inférence de structures répétitives à partir du signal audio à l’aide d’algorithmes du texte. Son objectif principal est de proposer et d’évaluer des algorithmes d’inférence à partir d’une étude formelle des notions de similarité et de répétition musicale.Nous présentons d’abord une méthode permettant d’obtenir une représentation séquentielle à partir du signal audio. Nous introduisons des outils d’alignement permettant d’estimer la similarité entre de telles séquences musicales, et évaluons l’application de ces outils pour l’identification automatique de reprises. Nous adaptons alors une technique d’indexation de séquences biologiques permettant une estimation efficace de la similarité musicale au sein de bases de données conséquentes.Nous introduisons ensuite plusieurs répétitions musicales caractéristiques et employons les outils d’alignement pour identifier ces répétitions. Une première structure, la répétition d’un segment choisi, est analysée et évaluée dans le cadre dela reconstruction de données manquantes. Une deuxième structure, la répétition majeure, est définie, analysée et évaluée par rapport à un ensemble d’annotations d’experts, puis en tant qu’alternative d’indexation pour l’identification de reprises.Nous présentons enfin la problématique d’inférence de structures répétitives telle qu’elle est traitée dans la littérature, et proposons notre propre formalisation du problème. Nous exposons alors notre modélisation et proposons un algorithme permettant d’identifier une hiérarchie de répétitions. Nous montrons la pertinence de notre méthode à travers plusieurs exemples et en l’évaluant par rapport à l’état de l’art
The work presented in this thesis deals with repetitive structure inference from audio signal using string matching techniques. It aims at proposing and evaluating inference algorithms from a formal study of notions of similarity and repetition in music.We first present a method for representing audio signals by symbolic strings. We introduce alignment tools enabling similarity estimation between such musical strings, and evaluate the application of these tools for automatic cover song identification. We further adapt a bioinformatics indexing technique to allow efficient assessments of music similarity in large-scale datasets. We then introduce several specific repetitive structures and use alignment tools to analyse these repetitions. A first structure, namely the repetition of a chosen segment, is retrieved and evaluated in the context of automatic assignment of missingaudio data. A second structure, namely the major repetition, is defined, retrieved and evaluated regarding expert annotations, and as an alternative indexing method for cover song identification.We finally present the problem of repetitive structure inference as addressed in literature, and propose our own problem statement. We further describe our model and propose an algorithm enabling the identification of a hierarchical music structure. We emphasize the relevance of our method through several examples and by comparing it to the state of the art
APA, Harvard, Vancouver, ISO, and other styles
24

Blanquart, Samuel. "Reconstruction phylogénétique par analyse bayésienne des séquences moléculaires." Montpellier 2, 2007. http://www.theses.fr/2007MON20201.

Full text
Abstract:
Deux nouveaux modèles pour la reconstruction phylogénétique probabiliste ont été développés, non stationnaires et non paramétriques. Selon ces modèles, un processus stochastique continu introduit des variations des probabilités stationnaires des processus Markoviens de substitution, induisant de manière inédite une dimensionnalité libre. Le second modèle combine cette composante non stationnaire avec un modèle de mélange défini sur les positions de l'alignement de séquences homologues. Cette combinaison modélise conjointement les variations du processus d'évolution, au cours du temps, et le long des séquences, lesquelles résultent respectivement des contraintes biochimiques appliquées aux sites, ainsi que des dérives compositionnelles. Ces deux modèles ont été implémentés dans un cadre Chaînes de Markov Monte Carlo (MCMC) et mis à disposition de la communauté des phylogénéticiens. Les modèles se sont avérés robustes contre plusieurs artefacts phylogénétiques et leurs comportements respectifs suggèrent de plus une interprétation nouvelle des artéfacts d'attraction des longues branches (LBA). La thèse présente enfin une série de perspectives théoriques portant sur les améliorations encore nécessaires, tant en terme de complexité algorithmique de l'échantillonnage MCMC, que de qualité des inférences
Two non stationary and non parametric models for probabilistic phylogenetics have been developped. According to these models, a continuous stochastic process introduces variations of the stationary probabilities of the Markovian substitution process, inducing a free dimensionality. The second model combines the previous non stationary formalism with a mixture of substitution processes distributed among sites. This combination jointly accounts for evolutionary process variations both across sequences and along time, induced respectively by biochemical constraints applied to sites, and by compositional drifts. The two models have been implemented in a Markov Chain Monte Carlo (MCMC) framework and are available for the community. They appear robust against several reconstruction artefacts and their respective behaviors moreover suggest a new interpretation of long branch attraction (LBA) artefacts. This thesis concludes with some theoretical perspectives related to necessary improvements of the models, concerning the algorithmic complexity of the MCMC sampling, and the accuracy of the inference
APA, Harvard, Vancouver, ISO, and other styles
25

Vergne, Nicolas. "Chaînes de Markov régulées et approximation de Poisson pour l'analyse de séquences biologiques." Phd thesis, Université d'Evry-Val d'Essonne, 2008. http://tel.archives-ouvertes.fr/tel-00322434.

Full text
Abstract:
L'analyse statistique des séquences biologiques telles les séquences nucléotidiques (l'ADN et l'ARN) ou d'acides aminés (les protéines) nécessite la conception de différents modèles s'adaptant chacun à un ou plusieurs cas d'étude. Etant donnée la dépendance de la succession des nucléotides dans les séquences d'ADN, les modèles généralement utilisés sont des modèles de Markov. Le problème de ces modèles est de supposer l'homogénéité des séquences. Or, les séquences biologiques ne sont pas homogènes. Un exemple bien connu est la répartition en gc : le long d'une même séquence, alternent des régions riches en gc et des régions pauvres en gc. Pour rendre compte de l'hétérogénéité des séquences, d'autres modèles sont utilisés : les modèles de Markov cachés. La séquence est divisée en plusieurs régions homogènes. Les applications sont nombreuses, telle la recherche des régions codantes. Certaines particularités biologiques ne pouvant apparaître suivant ces modèles, nous proposons de nouveaux modèles, les chaînes de Markov régulées (DMM pour drifting Markov model). Au lieu d'ajuster une matrice de transition sur une séquence entière (modèle de Markov homogène classique) ou différentes matrices de transition sur différentes régions de la séquence (modèles de Markov cachés), nous permettons à la matrice de transition de varier (to drift) du début à la fin de la séquence. A chaque position t dans la séquence, nous avons une matrice de transition Πt/n(où n est la longueur de la séquence) éventuellement différente. Nos modèles sont donc des modèles de Markov hétérogènes contraints. Dans cette thèse, nous donnerons essentiellement deux manières de contraindre les modèles : la modélisation polynomiale et la modélisation par splines. Par exemple, pour une modélisation polynomiale de degré 1 (une dérive linéaire), nous nous donnons une matrice de départ Π0 et une matrice d'arrivée Π1 puis nous passons de l'une à l'autre en fonction de la position t dans la séquence :
Πt/n = (1-t/n) Π0 + t/n Π1.
Cette modélisation correspond à une évolution douce entre deux états. Par exemple cela peut traduire la transition entre deux régimes d'un chaîne de Markov cachée, qui pourrait parfois sembler trop brutale. Ces modèles peuvent donc être vus comme une alternative mais aussi comme un outil complémentaire aux modèles de Markov cachés. Tout au long de ce travail, nous avons considéré des dérives polynomiales de tout degré ainsi que des dérives par splines polynomiales : le but de ces modèles étant de les rendre plus flexibles que ceux des polynômes. Nous avons estimé nos modèles de multiples manières puis évalué la qualité de ces estimateurs avant de les utiliser en vue d'applications telle la recherche de mots exceptionnels. Nous avons mis en oeuvre le software DRIMM (bientôt disponible à http://stat.genopole.cnrs.fr/sg/software/drimm/, dédié à l'estimation de nos modèles. Ce programme regroupe toutes les possibilités offertes par nos modèles, tels le calcul des matrices en chaque position, le calcul des lois stationnaires, des distributions de probabilité en chaque position... L'utilisation de ce programme pour la recherche des mots exceptionnels est proposée dans des programmes auxiliaires (disponibles sur demande).
Plusieurs perspectives à ce travail sont envisageables. Nous avons jusqu'alors décidé de faire varier la matrice seulement en fonction de la position, mais nous pourrions prendre en compte des covariables tels le degré d'hydrophobicité, le pourcentage en gc, un indicateur de la structure des protéines (hélice α, feuillets β...). Nous pourrions aussi envisager de mêler HMM et variation continue, où sur chaque région, au lieu d'ajuster un modèle de Markov, nous ajusterions un modèle de chaînes de Markov régulées.
APA, Harvard, Vancouver, ISO, and other styles
26

Richard, Hugues. "Prédiction de la localisation cellulaire des protéines à l'aide de leurs séquences biologiques." Phd thesis, Université d'Evry-Val d'Essonne, 2005. http://tel.archives-ouvertes.fr/tel-00011707.

Full text
Abstract:
Les compartiments cellulaires, de par les frontières membranaires qui les définissent, permettent l'accomplissement de taches métaboliques diverses au sein de la cellule. Cette spécialisation en domaines intracellulaires induit donc une différentiation dans la fonction des protéines qui les composent. Le grand nombre de gènes orphelins produits ces dernières années par les projets de séquençage motive la mise au point de méthodes efficaces pour la prédiction ab-initio de la localisation cellulaire des protéines.

Ainsi la majorité de ce travail de thèse s'intéresse au problème de la prédiction du compartiment cellulaire d'une protéine à partir de sa séquence primaire.

Nous nous sommes attachés à proposer des alternatives descriptives aux méthodes existantes de prédiction de la localisation cellulaire en utilisant : (1) de nouveaux descripteurs issus de la séquence nucléique, (2) une approche par chaînes de Markov cachées (CMC) et arbres de décision. L'approche par CMC est justifiée biologiquement a posteriori car elle permet la modélisation de signaux d'adressage conjointement à la prise en compte de la composition globale. En outre, l'étape de classification hiérarchique par arbre améliore nettement les résultats de classification. Les résultats obtenues lors des comparaisons avec les méthodes existantes et utilisant des descripteurs fondés sur la composition globale possèdent des performances similaires.
APA, Harvard, Vancouver, ISO, and other styles
27

Pudlo, Pierre. "Estimations précises de grandes déviations et applications à la statistique des séquences biologiques." Phd thesis, Université Claude Bernard - Lyon I, 2004. http://tel.archives-ouvertes.fr/tel-00008517.

Full text
Abstract:
Pour obtenir des listes de mots de fréquences exceptionnelles par rapport à un modèle aléatoire, par exemple dans un contexte de biologie moléculaire, il faut quantifier la qualité de la prédiction des fréquences d'une famille de mots. Nous étudions les probabilités de grandes déviations du processus vectoriel de comptage d'une famille de mots dans des modèles de Markov et des modèles de Markov cachés. Pour démontrer ces résultats, nous établissont un développement du type Edgeworth sur les fonctionnelles additives d'une chaîne de Markov finie. Nous utilisons les théorèmes obtenus pour produire des listes de mots exceptionnels dans les génomes d'Escherichia Coli et de Bacillus Subtilis par conditionnements successifs d'un modèle statistique initial.
APA, Harvard, Vancouver, ISO, and other styles
28

Aguirre, Francisco. "Trajectographie sous-marine par analyse de séquences d'images vidéo." Brest, 1990. http://www.theses.fr/1990BRES2009.

Full text
Abstract:
Cette these decrit une methode pour calculer la trajectoire d'un sous-marin a partir d'images du fond marin fournies par une camera video. Notre approche pour identifier le mouvement dans la sequence est d'etablir des correspondances entre un ensemble de points, appeles traceurs, deux images successives grace a une transformee de hough generalisee. La detection des traceurs est faite avec un detecteur de contour par sobel. L'extraction des traceurs est accomplie en utilisant un seuil variable de binarisation, cette procedure retient 10% des points appartenant aux elements du contour. Cinq traceurs sont selectionnes. La transformee de hough generalisee thg est ensuite appliquee pour etablir la correspondance entre points de deux traceurs successifs. Le deplacement en translation est obtenu pour chaque traceur en detectant le pic de chaque matrice d'accumulation. De plus un facteur de confiance pour l'estimation est calcule qui depend de l'amplitude du pic et du nombre de points de contours utilise dans la thg et qui permet de ponderer l'estimation afin de la rendre plus robuste. Le filtre de kalman utilise permet de connaitre la trajectoire quand aucun traceur ne peut etre trouve dans l'image et de predire les parametres du mouvement ce qui peut etre utilise a la thg. Des simulations ont ete faites sur des sequences d'images reelles fournies par ifremer. La premiere est une sequence d'epave (250 images). La seconde est une sequence de sable et de roches (100 images). Dans les deux sequences la trajectoire a pu etre obtenue avec suffisamment de precision
APA, Harvard, Vancouver, ISO, and other styles
29

Arribas, Gil Ana. "Estimation dans des modèles à variables cachées : alignement des séquences biologiques et modèles d'évolution." Paris 11, 2007. http://www.theses.fr/2007PA112054.

Full text
Abstract:
Cette thèse est consacrée à l'estimation paramétrique dans certains modèles d'alignement de séquences biologiques. Ce sont des modèles construits à partir des considérations sur le processus d'évolution des séquences. Dans le cas de deux séquences, le processus d'évolution classique résulte dans un modèle d'alignement appelé pair-Hidden Markov Model (pair-HMM). Dans le pair-HMM les observations sont formées par le couple de séquences à aligner et l'alignement caché est une chaîne de Markov. D'un point de vue théorique nous donnons un cadre rigoureux pour ce modèle et étudions la consistance des estimateurs bayésien et par maximum de vraisemblance. D'un point de vue appliqué nous nous intéressons à la détection de motifs conservés dans les séquences à travers de l'alignement. Pour cela nous introduisons un processus d'évolution permettant différents comportements évolutifs à différents endroits de la séquence et pour lequel le modèle d'alignement est toujours un pair-HMM. Nous proposons des algorithmes d'estimation d'alignements et paramètres d'évolution adaptés à la complexité du modèle. Finalement, nous nous intéressons à l'alignement multiple (plus de deux séquences). Le processus d'évolution classique résulte dans ce cas dans un modèle d'alignement à variables cachées plus complexe et dans lequel il faut prendre en compte les relations phylogénétiques entre les séquences. Nous donnons le cadre théorique pour ce modèle et étudions, comme dans le cas de deux séquences, la propriété de consistance des estimateurs
This thesis is devoted to parameter estimation in models for biological sequence alignment. These are models constructed considering an evolution process on the sequences. In the case of two sequences evolving under the classical evolution process, the alignment model is called a pair-Hidden Markov Model (pair-HMM). Observations in a pair-HMM are formed by the couple of sequences to be aligned and the hidden alignment is a Markov chain. From a theoretical point of view, we provide a rigorous formalism for these models and study consistency of maximum likelihood and bayesian estimators. From the point of view of applications, we are interested in detection of conserved motifs in the sequences. To do this we present an evolution process that allows heterogeneity along the sequence. The alignment under this process still fits the pair-HMM. We propose efficient estimation algorithms for alignments and evolution parameters. Finally we are interested in multiple alignment (more than two sequences). The classical evolution process for the sequences provides a complex hidden variable model for the alignment in which the phylogenetic relationships between the sequences must be taken into account. We provide a theoretical framework for this model and study, as for the pairwise alignment, the consistency of estimators
APA, Harvard, Vancouver, ISO, and other styles
30

Einaudi, Florence. "Analyse de séquences magmatiques océaniques continues : approche pétrophysique et géochimique." Aix-Marseille 3, 2002. http://www.theses.fr/2002AIX30044.

Full text
Abstract:
Cette thèse présente les résultats de l'étude de deux séquences magmatiques continues. La première est une section de laves de l'ophiolite d'Oman. Cette séquence a été étudiée en termes de propriétés physiques, pétrologie et géochimie afin d'accéder à l'évolution temporelle des laves à l'axe de la paléographe omanaise, décrite comme étant rapide. Ces mesures ont montré la présence de cinq cycles magmatiques. La composante temporelle adoptée dans ce travail a permis l'étude des processus volcaniques depuis l'extraction des magmas jusqu'à l'échelle du cycle volcanique. La seconde section continue étudiée est une section forée dans les gabbros de l'Océan Indien sur l'Atlantis Bank. Les données géophysiques en forage ont été complétées par des mesures sur mini carotte en laboratoire. L'analyse des mesures de micro-résistivité enregistrées par le FMS (Formation Micro Scanner) montre une distribution bimodale de l'orientation des structures associées à la déformation
This thesis presents the results of the investigations realized on two continuous magmatic sections. The first section is a basaltic sequence which has been sampled at high-resolution in the Oman Ophiolite. This section has been investigated in terms of physical properties, petrology and geochemistry to study the structure of the volcanics emplaced at the axis of a fast spreading ridge. The Wadi Shaffan section is composed of five magmatic cycles. The temporal variations enhanced by this study allowed the integration of magmatic processes from magma extraction to volcanic cycles. The second section was drilled into gabbroic basement in the Atlantis Bank (South West Indian Ridge). Downhole logging and minicore petrophysical measurements have been investigated. Electrical conduction via electronic processes in oxide-rich gabbros has been taken into account in our analysis of the electrical properties. High-resolution images have been interpreted in terms of deformation orientation
APA, Harvard, Vancouver, ISO, and other styles
31

Casagranda, Stefano. "Modélisation, analyse et réduction des systèmes biologiques." Thesis, Université Côte d'Azur (ComUE), 2017. http://www.theses.fr/2017AZUR4049/document.

Full text
Abstract:
Cette thèse porte sur la modélisation, l'analyse et la réduction de modèles biologiques, notamment de réseaux de régulation génique chez la bactérie E. coli. Différentes approches mathématiques sont utilisées. Dans la 1ère partie de la thèse, on modélise, analyse et réduit avec des outils classiques un modèle de transcription-traduction de grande dimension de l'ARN polymérase (RNAP) chez E. coli. Dans la 2de partie, l'introduction d'une nouvelle méthode appelée Analyse de Processus Principaux (PPA) nous permet d'analyser des modèles de haute dimension, en les décomposant en processus biologiques dont l'activité est évaluée pendant l'évolution du système. L'exclusion des processus inactifs réduit la dynamique du modèle à ses principaux mécanismes. La méthode est appliquée à des modèles d'horloge circadienne, de toxicologie endocrine et de voie de signalisation ; on teste également sa robustesse aux variations des conditions initiales et des paramètres. Dans la 3ème partie, on présente un modèle ODE de la machinerie d'expression génique de cellules d'E. coli dont la croissance est contrôlée par un inducteur de la synthèse de RNAP. On décrit notre contribution au développement du modèle et analyse par PPA les mécanismes essentiels du réseau de régulation. Dans une dernière partie, on modélise spécifiquement la réponse de RNAP à l'ajout d'inducteur et estime les paramètres du modèle à partir de données de cellules individuelles. On discute l'importance de considérer la variabilité entre cellules pour modéliser ce processus : ainsi, la moyenne des calibrations sur chaque cellule apparaît mieux représenter les données moyennes observées que la calibration de la cellule moyenne
This thesis deals with modeling, analysis and reduction of various biological models, with a focus on gene regulatory networks in the bacterium E. coli. Different mathematical approaches are used. In the first part of the thesis, we model, analyze and reduce, using classical tools, a high-dimensional transcription-translation model of RNA polymerase in E. coli. In the second part, we introduce a novel method called Principal Process Analysis (PPA) that allows the analysis of high-dimensional models, by decomposing them into biologically meaningful processes, whose activity or inactivity is evaluated during the time evolution of the system. Exclusion of processes that are always inactive, and inactive in one or several time windows, allows to reduce the complex dynamics of the model to its core mechanisms. The method is applied to models of circadian clock, endocrine toxicology and signaling pathway; its robustness with respect to variations of the initial conditions and parameter values is also tested. In the third part, we present an ODE model of the gene expression machinery of E. coli cells, whose growth is controlled by an external inducer acting on the synthesis of RNA polymerase. We describe our contribution to the design of the model and analyze with PPA the core mechanisms of the regulatory network. In the last part, we specifically model the response of RNA polymerase to the addition of external inducer and estimate model parameters from single-cell data. We discuss the importance of considering cell-to-cell variability for modeling this process: we show that the mean of single-cell fits represents the observed average data better than an average-cell fit
APA, Harvard, Vancouver, ISO, and other styles
32

Faisan, Sylvain. "Analyse et fusion markovienne de séquences en imagerie 3D+t : Application à l'analyse de séquences d'images IRM fonctionnelles cérébrales." Université Louis Pasteur (Strasbourg) (1971-2008), 2004. https://publication-theses.unistra.fr/public/theses_doctorat/2004/FAISAN_Sylvain_2004.pdf.

Full text
Abstract:
Largement utilisé en traitement du signal et des images, le modèle markovien caché standard est essentiellement adapté à la modélisation de processus aléatoires de nature segmentale. Il se prête peu à la représentation de processus événementiels, fréquents dans le domaine biologique et médical. Nous proposons dans cette thèse, deux approches de modélisation markovienne d'un processus de nature événementielle, voire de plusieurs processus événementiels en interaction. Dans chacune des deux approches, une première étape détecte et caractérise les événements d'intérêt composant le ou les processus événementiels à analyser. La seconde étape analyse, sur la base d'un modèle markovien caché adapté, les événements détectés. Les deux approches se distinguent par le nombre de séquences d'événements, ou canaux d'observation, sous analyse. La première approche (modèle semi-markovien caché de séquence d'événements -MSMCSE) considère une séquence d'événements alors que la seconde (modèle markovien caché de multiples séquences d'événements - MMCMSE) gère de multiples canaux d'observation, dans un cadre de fusion-association d'événements asynchrones entre canaux. En application de ces approches de modélisation, nous avons développé deux méthodes originales et non supervisées de cartographie des zones d'activation en IRM fonctionnelle (IRMf) cérébrale. Toutes deux sont fondées sur le même principe, novateur,d'alignement temporel entre séquences d'événements. En exploitant de plus l'information spatiale de voisinage dans un cadre de détection--fusion multicanaux d'événements, la méthode de cartographie par MMCMSE s'avère très robuste au bruit et à la variabilité du signal IRMf actif. Ses performances de détection surpassent celles obtenues par la méthode à base de MSMCSE d'une part, mais également celles obtenues par la méthode de cartographie cérébrale faisant référence dans le domaine, SPM (Statistical Parameter Mapping)
Hidden Markov Models (HMMs) which are widely used to process signals or images, are well-suited to the analysis of random processes that are segmental in nature. However, many processes, met in particular in the biomedical field, are event-based processes making the HMMs ill-suited. We present in this PHD two markovian approaches dedicated to the modeling and analysis of an event-based process or of multiple interacting event-based processes. Both approaches proceed in two steps. First, a preprocessing step detects and characterizes events of interest in the raw input data. Then, detected events are analyzed based on an adapted hidden Markov model. The two modeling approaches can be distinguished by the number of event sequences they can handle. The first approach, which is based on a hidden semi-Markov event sequence model(HSMESM), considers a single event sequence whereas the second approach,which is based on a hidden Markov multiple event sequence model (HMMESM),handles multiple observation channels at once, within a rich mathematical framework of fusion--association of asynchronous events across channels. From these models, two unsupervised functional MRI (fMRI) brain mapping methods have been developed. Both methods rely on the same, novel principle of temporal alignment between event sequences. By accounting for spatial information within a statistical framework of multiple event sequence detection- multiple event sequence fusion, the HMMESM-based mapping method shows high robustness to noise and variability of the active fMRI signal across space, time, experiments, and subjects. Besides, the HMMESM method clearly outperforms the HSMESM method as well as the widely used Statistical Parametric Mapping (SPM) approach
APA, Harvard, Vancouver, ISO, and other styles
33

Beaudry, Cyrille. "Analyse et reconnaissance de séquences vidéos d'activités humaines dans l'espace sémantique." Thesis, La Rochelle, 2015. http://www.theses.fr/2015LAROS042/document.

Full text
Abstract:
Dans cette thèse, nous nous intéressons à la caractérisation et la reconnaissance d'activités humaines dans des vidéos. L'intérêt grandissant en vision par ordinateur pour cette thématique est motivé par une grande variété d'applications telles que l'indexation automatique de vidéos, la vidéo-surveillance, ou encore l'assistance aux personnes âgées. Dans la première partie de nos travaux, nous développons une méthode de reconnaissance d'actions élémentaires basée sur l'estimation du mouvement dans des vidéos. Les points critiques du champ vectoriel obtenu, ainsi que leurs trajectoires, sont estimés à différentes échelles spatio-temporelles. La fusion tardive de caractéristiques d'orientation de mouvement et de variation de gradient, dans le voisinage des points critiques, ainsi que la description fréquentielle des trajectoires, nous permet d'obtenir des taux de reconnaissance parmi les meilleurs de la littérature. Dans la seconde partie, nous construisons une méthode de reconnaissance d'activités en considérant ces dernières comme un enchainement temporel d'actions élémentaires. Notre méthode de reconnaissance d'actions est utilisée pour calculer la probabilité d'actions élémentaires effectuées au cours du temps. Ces séquences de probabilité évoluent sur une variété statistique appelée simplexe sémantique. Une activité est finalement représentée comme une trajectoire dans cet espace. Nous introduisons un descripteur fréquentiel de trajectoire pour classifier les différentes activités humaines en fonction de la forme des trajectoires associées. Ce descripteur prend en compte la géométrie induite par le simplexe sémantique
This thesis focuses on the characterization and recognition of human activities in videos. This research domain is motivated by a large set of applications such as automatic video indexing, video monitoring or elderly assistance. In the first part of our work, we develop an approach based on the optical flow estimation in video to recognize human elementary actions. From the obtained vector field, we extract critical points and trajectories estimated at different spatio-temporal scales. The late fusion of local characteristics such as motion orientation and shape around critical points, combined with the frequency description of trajectories allow us to obtain one of the best recognition rate among state of art methods. In a second part, we develop a method for recognizing complex human activities by considering them as temporal sequences of elementary actions. In a first step, elementary action probabilities over time is calculated in a video sequence with our first approach. Vectors of action probabilities lie in a statistical manifold called semantic simplex. Activities are then represented as trajectories on this manifold. Finally, a new descriptor is introduced to discriminate between activities from the shape of their associated trajectories. This descriptor takes into account the induced geometry of the simplex manifold
APA, Harvard, Vancouver, ISO, and other styles
34

Clarot, Pierre. "Analyse de séquences vidéo de surveillance basée sur la détection d'activités." Mémoire, Université de Sherbrooke, 2010. http://savoirs.usherbrooke.ca/handle/11143/4882.

Full text
Abstract:
Le présent mémoire porte sur des applications de vidéosurveillance fondées sur des techniques d'analyse d'images et de vidéos. Plus particulièrement, deux volets de la vidéosurveillance y sont abordés.Le premier volet porte sur la mise en correspondance d'objets vus par plusieurs caméras en même temps. Fonctionnant en réseau, ces caméras peuvent être fixes ou articulées, avoir différents paramètres internes (distance focale, résolution, etc.) et différentes positions et orientations. Ce type de réseau est qualifié d'hétérogène. À ce jour, très peu de solutions ont été proposées pour effectuer la mise en correspondance d'objets à travers un réseau hétérogène. L'originalité de notre méthode réside dans sa fonction de coût. Elle utilise la co-occurrence statistique d'événements binaires détectés par plusieurs caméras filmant un même endroit. L'utilisation de tels événements plutôt que des caractéristiques de couleur et de texture confère à notre méthode un avantage considérable. En effet, nous démontrons que la présence et l'absence d'activité sont des caractéristiques indépendantes de la position, de l'orientation ainsi que des paramètres internes des caméras. Autrement dit, un objet en mouvement vu par plusieurs caméras laissera une trace statistique identique dans chacune des caméras et ce, peu importe leur configuration. Notre méthode peut donc fonctionner sans étalonnage préalable du réseau, ce qui constitue un avantage indéniable. Nous démontrons également que les résultats obtenus par notre méthode peuvent être utilisés pour estimer des cartes d'occultation, les matrices d'homographie et fondamentale, ainsi que les matrices de projection des caméras.Le deuxième volet de ce mémoire porte sur la segmentation temporelle de longues séquences de vidéosurveillance. L'objectif ici est de segmenter une séquence vidéo longue de plusieurs heures en clips vidéo longs de quelques secondes. Ces clips sont étiquetés en fonction de la nature des événements qu'ils contiennent. Pour ce faire, nous utilisons à nouveau des événements binaires fondés sur la présence et l'absence d'activité. Ces événements nous permettent de quantifier non seulement la densité d'activité, mais également la taille des objets en mouvement, leur direction ainsi que leur vitesse. Dans ce mémoire, nous démontrons différentes façons d'extraire ces caractéristiques dites"événementielles". Nous comparons également différentes techniques de segmentation telles que la propagation d'affinité (l'affinity propagation), et la segmentation spectrale (spectral clustering) sur plusieurs vidéos de surveillance. Nous démontrons également que le positionnement multidimensionnel (multidimentional scaling) est un outil utile pour analyser le contenu sémantique de longues séquences vidéo.
APA, Harvard, Vancouver, ISO, and other styles
35

Njonkou, Fankam Marc-Aurèle. "Analyse du mouvement dans les séquences d'images et filtrage linéaire récursif." Rouen, 1997. http://www.theses.fr/1997ROUES046.

Full text
Abstract:
Le cadre général de cette thèse est l'analyse du mouvement dans les séquences d'images. Elle se compose de deux parties : la première partie s'intéresse au filtrage linéaire récursif. La deuxième et principale partie aborde l'étude du mouvement à travers ses principaux thèmes : estimation, détection et segmentation. La première partie s'ouvre sur un rappel des principes de base du filtrage linéaire récursif qui constitue un préalable pour l'étude du mouvement et conditionne fortement la qualité des traitements effectués en aval. Nous décrivons ensuite une méthode originale de traitement du problème des effets des bords qu'il engendre. Elle est fondée sur l'utilisation des propriétés des suites récurrentes convergentes. Les résultats présentés montrent que l'élimination des effets de bords a un effet bénéfique sur la performance des filtres. Dans la seconde partie, nous motivons tout d'abord l'intérêt de l'étude du mouvement et rappelons diverses méthodes existantes. Pour l'estimation du mouvement, nous proposons une approche multirésolution fondée sur la définition d'un modèle d'énergie minimisée à chaque niveau de résolution par une méthode variationnelle. Ce modèle prend en compte les discontinuités par l'introduction d'une variable de contrôle. Le troisième chapitre présente la méthode que nous avons développée, qui permet de reconstruire les masques des objets mobiles dans la scène, à partir du champ des vecteurs vitesses estimé précédemment. Cette approche combine des techniques de détection de contours, de morphologie mathématique binaire et de remplissage de formes. Dans le chapitre quatre, l'approche de segmentation du mouvement que nous avons retenue est liée aux phases du flux optique. Elle est réalisée en deux étapes : une segmentation grossière fondée sur la mesure des concavités de l'histogramme des phases du flux optique, suivie d'une segmentation fine fondée sur une modélisation markovienne du champ des étiquettes précédemment grossièrement estimé.
APA, Harvard, Vancouver, ISO, and other styles
36

Jorda, Julien. "Analyse systématique des motifs répétés en tandem dans les séquences protéiques." Thesis, Montpellier 2, 2010. http://www.theses.fr/2010MON20090/document.

Full text
Abstract:
Au cours des dernières décennies, les avancées techniques dans la biologie moléculaire telles que les projets de séquençage de génome ont eu pour conséquence un accroissement du volume des banques de données biologiques. Parmi ces données, des séquences présentent des motifs similaires entre eux, répétés de façon juxtaposée, appelés répétitions en tandem. L'objectif de cette thèse est de comprendre l'existence de ces répétitions dans les séquences protéiques via une analyse à grande échelle
Over the last decades, technical advances in molecular biology such as the genome sequencing projects led to a huge increase of data in the biological databanks. Among them, there are particular motifs which are adjacently repeated and similar between them, called tandem repeats. The purpose of this thesis is to understand the existence of these repeats in protein sequences through a large-scale analysis
APA, Harvard, Vancouver, ISO, and other styles
37

Domelevo, Entfellner Jean-Baka. "Combinaison de modèles phylogénétiques et longitudinaux pour l'analyse des séquences biologiques : reconstruction de HMM profils ancestraux." Phd thesis, Université Montpellier II - Sciences et Techniques du Languedoc, 2011. http://tel.archives-ouvertes.fr/tel-00842847.

Full text
Abstract:
La modélisation statistique de séquences homologues par HMM profils laisse de côté l'information phylogénétique reliant les séquences. Nous proposons ici des modèles combinant efficacement analyse longitudinale (séquences protéiques vues comme des enchaînements d'acides aminés) et verticale (séquences vues comme étant le produit d'une évolution le long des branches d'un arbre phylogénétique). De tels modèles appartiennent à la famille des phylo-HMM, introduite dans le courant des années 1990 (Mitchison& Durbin). Notre objectif étant la détection d'homologues distants dans les bases de données, nous décrivons une méthodologie de dérivation complète des paramètres des phylo-HMM profils basée sur la phylogénie: les modèles que nous proposons sont des HMM de reconstruction ancestrale,issus d'un processus d'inférence phylogénétique des positions conservées, des probabilités d'émission de caractères sur les états Match et Insertion, ainsi que des probabilités de transition entre états du HMM. Nous suggérons notamment une nouvelle modélisation pour l'évolution des transitions entre états du HMM, ainsi qu'un modèle de type Ornstein-Uhlenbeck pour l'évolution des longueurs des insertions. Contraintes évolutives et contraintes longitudinales sont ainsi simultanément prises en compte. Le processus d'apprentissage développé a été implémenté et testé sur une base de données de familles de séquences homologues,mettant en évidence des gains à la fois en termes de vraisemblance accrue des homologues distants et en termes de performance lorsqu'il s'agit de détecter ceux-ci dans les grandes bases de données protéiques
APA, Harvard, Vancouver, ISO, and other styles
38

Boukhetta, Salah Eddine. "Analyse de séquences avec GALACTIC – Approche générique combinant analyse formelle des concepts et fouille de motifs." Electronic Thesis or Diss., La Rochelle, 2022. http://www.theses.fr/2022LAROS035.

Full text
Abstract:
Une séquence est une suite d’éléments ordonnés comme par exemple les trajectoires de déplacement ou les séquences d’achats de produits dans un supermarché. La fouille de séquences est un domaine de la fouille de données qui vise à extraire des motifs séquentiels fréquents à partir d’un ensemble de séquences, où ces motifs sont le plus souvent des sous-séquences. Plusieurs algorithmes ont été proposés pour l’extraction des motifs séquentiels fréquents. Avec l’évolution des capacités de calcul, la tâche d’extraction des motifs séquentiels fréquents est devenue plus rapide. La difficulté réside alors dans le trop grand nombre de motifs séquentiels extraits, qui en rend difficile la lisibilité et donc l’interprétation. On parle de déluge de motifs. L’Analyse Formelle de Concepts (AFC) est un domaine d’analyse de données permettant d’identifier des relations à partir d’un ensemble de données binaires. Les structures de motifs étendent l’AFC pour traiter des données complexes comme les séquences. La plateforme GALACTIC implémente l’algorithme Next Priority Concept qui propose une approche d’extraction de motifs pour des données hétérogènes et complexes. Il permet un calcul de motifs génériques à travers des descriptions spécifiques d’objets par des prédicats monadiques. Il propose également de raffiner un ensemble d’objets à travers des stratégies d’explorations spécifiques, ce qui permet de réduire le nombre de motifs. Dans ce travail, nous nous intéressons à l’analyse de données séquentielles en utilisant GALACTIC. Nous proposons plusieurs descriptions et stratégies adaptées aux séquences. Nous proposons également des mesures de qualité non supervisées pour pouvoir comparer entre les motifs obtenus. Une analyse qualitative et quantitative est menée sur des jeux de données réels et synthétiques afin de montrer l’efficacité de notre approche
A sequence is a sequence of ordered elements such as travel trajectories or sequences of product purchases in a supermarket. Sequence mining is a domain of data mining that aims an extracting frequent sequential patterns from a set of sequences, where these patterns are most often common subsequences. Support is a monotonic measure that defines the proportion of data sharing a sequential pattern. Several algorithms have been proposed for frequent sequential pattern extraction. With the evolution of computing capabilities, the task of frequent sequential pattern extraction has become faster. The difficulty then lies in the large number of extracted sequential patterns, which makes it difficult to read and therefore to interpret. We speak about "deluge of patterns". Formal Concept Analysis (FCA) is a field of data analysis for identifying relationships in a set of binary data. Pattern structures extend FCA to handle complex data such as sequences. The GALACTIC platform implements the Next Priority Concept algorithm which proposes a pattern extraction approach for heterogeneous and complex data. It allows a generic pattern computation through specific descriptions of objects by monadic predicates. It also proposes to refine a set of objects through specific exploration strategies, which allows to reduce the number of patterns. In this work, we are interested in the analysis of sequential data using GALACTIC. We propose several descriptions and strategies adapted to sequences. We also propose unsupervised quality measures to be able to compare between the obtained patterns. A qualitative and quantitative analysis is conducted on real and synthetic datasets to show the efficiency of our approach
APA, Harvard, Vancouver, ISO, and other styles
39

Bourdon, Jérémie. "Sources Probabilistes: des séquences aux systèmes." Habilitation à diriger des recherches, Université de Nantes, 2012. http://tel.archives-ouvertes.fr/tel-00776681.

Full text
Abstract:
Ce mémoire est un recueil et une synthèse de plusieurs études en analyse en moyenne d'algorithmes et en bioinformatique. Il y est présenté des travaux allant de l'étude de problèmes sur les séquences à l'étude de systèmes biologiques, en gardant un fil conducteur fort: quelles que soient les applications, l'objet d'étude central est une source probabiliste qui produit des mots. Ces travaux trouvent des applications en bioinformatique qui se concrétisent par la mise au point d'algorithmes dédiés de recherche de motifs et la définition de tests statistiques et en biologie des systèmes biologiques avec des développements qui ont été appliqués, en collaboration étroite avec des équipes de biologistes, à des modèles biologiques réels.
APA, Harvard, Vancouver, ISO, and other styles
40

Aubert, Julie. "Analyse statistique de données biologiques à haut débit." Thesis, Université Paris-Saclay (ComUE), 2017. http://www.theses.fr/2017SACLS048/document.

Full text
Abstract:
Les progrès technologiques des vingt dernières années ont permis l’avènement d'une biologie à haut-débit reposant sur l'obtention de données à grande échelle de façon automatique. Les statisticiens ont un rôle important à jouer dans la modélisation et l'analyse de ces données nombreuses, bruitées, parfois hétérogènes et recueillies à différentes échelles. Ce rôle peut être de plusieurs natures. Le statisticien peut proposer de nouveaux concepts ou méthodes inspirées par les questions posées par cette biologie. Il peut proposer une modélisation fine des phénomènes observés à l'aide de ces technologies. Et lorsque des méthodes existent et nécessitent seulement une adaptation, le rôle du statisticien peut être celui d'un expert, qui connaît les méthodes, leurs limites et avantages. Le travail présenté dans cette thèse se situe à l'interface entre mathématiques appliquées et biologie, et relève plutôt des deuxième et troisième type de rôles mentionnés.Dans une première partie, j’introduis différentes méthodes développées pour l'analyse de données biologiques à haut débit, basées sur des modèles à variables latentes. Ces modèles permettent d'expliquer un phénomène observé à l'aide de variables cachées. Le modèle à variables latentes le plus simple est le modèle de mélange. Les deux premières méthodes présentées en sont des exemples: la première dans un contexte de tests multiples et la deuxième dans le cadre de la définition d'un seuil d'hybridation pour des données issues de puces à ADN. Je présente également un modèle de chaînes de Markov cachées couplées pour la détection de variations du nombre de copies en génomique prenant en compte de la dépendance entre les individus, due par exemple à une proximité génétique. Pour ce modèle, nous proposons une inférence approchée fondée sur une approximation variationnelle, l'inférence exacte ne pouvant pas être envisagée dès lors que le nombre d'individus augmente. Nous définissons également un modèle à blocs latents modélisant une structure sous-jacente par bloc de lignes et colonnes adaptées à des données de comptage issue de l'écologie microbienne. Les données issues de méta-codebarres ou de métagénomique correspondent à l'abondance de chaque unité d'intérêt (par exemple micro-organisme) d'une communauté microbienne au sein d'environnement (rhizosphère de plante, tube digestif humain, océan par exemple). Ces données ont la particularité de présenter une dispersion plus forte qu'attendue sous les modèles les plus classiques (on parle de sur-dispersion). La classification croisée est une façon d'étudier les interactions entre la structure des communautés microbiennes et les échantillons biologiques dont elles sont issues. Nous avons proposé de modéliser ce phénomène à l'aide d'une distribution Poisson-Gamma et développé une autre approximation variationnelle pour ce modèle particulier ainsi qu'un critère de sélection de modèle. La flexibilité et la performance du modèle sont illustrées sur trois jeux de données réelles.Une deuxième partie est consacrée à des travaux dédiés à l'analyse de données de transcriptomique issues des technologies de puce à ADN et de séquençage de l’ARN. La première section concerne la normalisation des données (détection et correction de biais techniques) et présente deux nouvelles méthodes que j’ai proposées avec mes co-auteurs et une comparaison de méthodes à laquelle j’ai contribuée. La deuxième section dédiée à la planification expérimentale présente une méthode pour analyser les dispositifs dit en dye-switch.Dans une dernière partie, je montre à travers deux exemples de collaboration, issues respectivement d'une analyse de gènes différentiellement exprimés à partir de données issues de puces à ADN, et d'une analyse du traductome chez l'oursin à partir de données de séquençage de l'ARN, la façon dont les compétences statistiques sont mobilisées et la plus-value apportée par les statistiques aux projets de génomique
The technological progress of the last twenty years allowed the emergence of an high-throuput biology basing on large-scale data obtained in a automatic way. The statisticians have an important role to be played in the modelling and the analysis of these numerous, noisy, sometimes heterogeneous and collected at various scales. This role can be from several nature. The statistician can propose new concepts, or new methods inspired by questions asked by this biology. He can propose a fine modelling of the phenomena observed by means of these technologies. And when methods exist and require only an adaptation, the role of the statistician can be the one of an expert, who knows the methods, their limits and the advantages.In a first part, I introduce different methods developed with my co-authors for the analysis of high-throughput biological data, based on latent variables models. These models make it possible to explain a observed phenomenon using hidden or latent variables. The simplest latent variable model is the mixture model. The first two presented methods constitutes two examples: the first in a context of multiple tests and the second in the framework of the definition of a hybridization threshold for data derived from microarrays. I also present a model of coupled hidden Markov chains for the detection of variations in the number of copies in genomics taking into account the dependence between individuals, due for example to a genetic proximity. For this model we propose an approximate inference based on a variational approximation, the exact inference not being able to be considered as the number of individuals increases. We also define a latent-block model modeling an underlying structure per block of rows and columns adapted to count data from microbial ecology. Metabarcoding and metagenomic data correspond to the abundance of each microorganism in a microbial community within the environment (plant rhizosphere, human digestive tract, ocean, for example). These data have the particularity of presenting a dispersion stronger than expected under the most conventional models (we speak of over-dispersion). Biclustering is a way to study the interactions between the structure of microbial communities and the biological samples from which they are derived. We proposed to model this phenomenon using a Poisson-Gamma distribution and developed another variational approximation for this particular latent block model as well as a model selection criterion. The model's flexibility and performance are illustrated on three real datasets.A second part is devoted to work dedicated to the analysis of transcriptomic data derived from DNA microarrays and RNA sequencing. The first section is devoted to the normalization of data (detection and correction of technical biases) and presents two new methods that I proposed with my co-authors and a comparison of methods to which I contributed. The second section devoted to experimental design presents a method for analyzing so-called dye-switch design.In the last part, I present two examples of collaboration, derived respectively from an analysis of genes differentially expressed from microrrays data, and an analysis of translatome in sea urchins from RNA-sequencing data, how statistical skills are mobilized, and the added value that statistics bring to genomics projects
APA, Harvard, Vancouver, ISO, and other styles
41

Elloumi, Mourad. "Analyse de chaînes de caractères codant des macromolécules biologiques." Aix-Marseille 3, 1994. http://www.theses.fr/1994AIX30031.

Full text
Abstract:
Dans cette these, nous developpons de nouveaux algorithmes d'analyse de chaines de caracteres codant des macromolecules biologiques. Nous nous interessons, particulierement, aux algorithmes de prediction de structures secondaires de macromolecules d'arn, discrimination entre deux familles de chaines et comparaison de plusieurs chaines appartenant a la meme famille. Donc cette these est repartie en trois parties: dans la premiere partie, nous presentons sous l'hypothese de la linearite de l'energie, puis, sous l'hypothese de l'energie dependante des fermetures nos algorithmes de calcul des energies libres des structures secondaires stables et nos algorithmes de prediction de ces structures. Dans la seconde partie, nous presentons notre algorithme de construction d'un descripteur discriminant (dd) entre deux familles de chaines, puis, nous presentons nos strategies de classification utilisant les dd. Enfin, dans la troisieme partie, nous presentons notre algorithme de construction d'une sous-sequence commune a une famille de chaines
APA, Harvard, Vancouver, ISO, and other styles
42

Virazel, Arnaud. "Test intégré des circuits digitaux : analyse et génération de séquences aléatoires adjacentes." Montpellier 2, 2001. http://www.theses.fr/2001MON20094.

Full text
APA, Harvard, Vancouver, ISO, and other styles
43

Bruey-Sédano, Nathalie. "Analyse fonctionnelle des séquences régulatrices du gène cuticulaire ACP65A chez la drosophile." Dijon, 2001. http://www.theses.fr/2001DIJOS034.

Full text
Abstract:
La période d'expression des deux gènes cuticulaires acp65A et acp-1 coi͏̈ncide avec la période de formation de la cuticule chitineuse pré et post exuviale. Acp65A est restreint aux régions épidermiques synthétisant une cuticule souple alors qu'acp-1 est présent dans les zones dures et sclérifées de l'épiderme. L'étude des profils d'expression des facteurs transcriptionnels E74, Dhr3 et ß-Ftz-f1 a permis de mettre en évidence de l'existence lors de la transition pupe-adulte d'une cascade de régulation similaire à celle décrite lors de la transformation larve-pupe. Nous avons étudié le promoteur du gène cuticulaire acp65A de drosophile dans des lignées transgéniques. Cette étude a permis de définir les portions géniques nécessaires à l'expression in vivo d'acp65A. Le domaine d'expression d'une des isoformes du récepteur HR38 concorde spatialement et temporellement avec celui d'acp65A et en font un candidat potentiel dans l'étude de sa régulation. Le taux des transcrits acp65A et acp-1 est fortement diminué chez des mutants HR38-/-, de plus la sur-expression des isoformes HR38 induit une augmentation du taux de transcrit de ces deux gènes cuticulaires. Ces données suggèrent fortement qu'HR38 agit directement sur la régulation de ces gènes. Des expériences in vitro de retard sur gel à partir de séquences 5' flanquante d'acp65A ont mis en évidence l'existence d'un complexe de migration retardé en présence d'extrait de protéines nucléaires enrichi en protéines HR38. Ce complexe semble être composé de l'hétérodimère HR38-USP. Bien qu'HR38 semble réguler positivement acp65A la fonction précise de ce complexe HR38-USP reste à définir.
APA, Harvard, Vancouver, ISO, and other styles
44

Hadji, Mohamed. "Contributions à l'étude d'un processeur s'intégrant dans un réseau systolique linéaire dédié à la comparaison des séquences biologiques." Rennes 1, 1995. http://www.theses.fr/1995REN10044.

Full text
APA, Harvard, Vancouver, ISO, and other styles
45

Cabrol-Bass, Daniel. "Étude conformationnelle quantique de séquences tri peptidiques typiques des structures collagéniques." Nice, 1985. http://www.theses.fr/1985NICE4002.

Full text
APA, Harvard, Vancouver, ISO, and other styles
46

Tankam, Chloé. "Analyse économique du développement des nouveaux marchés biologiques : le cas des marchés biologiques domestiques au Kenya." Thesis, Clermont-Ferrand 1, 2015. http://www.theses.fr/2015CLF10480.

Full text
Abstract:
L’agriculture biologique sort aujourd’hui des frontières des pays du Nord en se développant dans de nombreux pays dits du Sud. Cette dynamique a tout d’abord été celle d’un positionnement sur des filières d’export de produits à haute valeur ajoutée. Parallèlement à l’export, émergent dans un nombre croissant de pays en développement, et notamment au Kenya, des marchés domestiques. La thèse pose la question des dynamiques permettant l’émergence et le développement de ces nouveaux marchés. La recherche est structurée autour de quatre questions. La première porte sur les formes d’organisation des échanges de produits biologiques à Nairobi. À partir du cadre de l’économie néo-institutionnelle, nous expliquons comment, en l’absence de systèmes de certification crédibles, ces produits parviennent à être vendus avec premiums. La seconde question porte sur les conditions d’accès des producteurs à ces marchés. Il est fréquent de mettre en avant leur caractère plus rémunérateur. Or, une partie des producteurs qui pourraient effectivement vendre sur ces marchés privilégient les marchés conventionnels. À partir du concept de coûts de transaction, nous montrons le rôle de coûts de négociation et de suivi. Dans notre troisième chapitre, nous posons la question des effets de l’accès à ces marchés sur la diversification des cultures des producteurs, et par là sur la durabilité économique et environnementale de leurs exploitations. À partir des apports de la micro-économie, nos résultats confirment l’effet positif de l’accès aux marchés biologiques.Enfin, notre quatrième et dernier chapitre consiste en une analyse de l’efficacité de ces marchés et des conditions de leur pérennité. Nous proposons une grille d’analyse associant économie de l’information et analyse de la construction de la qualité. Elle nous permet de comparer les différents dispositifs de certification existant au Kenya. L’analyse montre que le dispositif le moins efficace est celui qui est amené à se développer, posant ainsi la question de la pérennité des marchés biologiques domestiques kenyans
Over the past two decades the organic agro-food system has been transformed, extending beyond Northern countries and expanding in many so-called developing countries.This dynamic was first a positioning on high added value products’ export markets. Since several years, domestic markets have emerged in a growing number of developing countries, including Kenya. This thesis attempts to shed light on the dynamics explaining these new markets’ emergence and development. The research is based on four questions. The first one concerns the way organic transactions have been organized in Nairobi. Based on neo institutional economics, we explain how, in the absence of credible certification systems, these products are able to be sold with premium. The second question deals with the conditions of producers’ access to these markets. It is common to highlight that organic domestic Kenyan markets are more profitable than conventional ones. However, some producers, who could actually sell in these markets, prefer conventionalones. Thanks to the concept of transaction costs, we show the role of negotiation and monitoring transaction costs. Chapter 3 analyses the effects of selling on organic market on crops’ diversification, as a proxy of economic and environmental sustainability .Based on microeconomics’ contributions our results confirm the positive effect of organic markets. Finally, our fourth and final chapter provides an analysis of the conditions of these markets sustainability. We propose an analysis grid combining economy of information and quality construction approach, based on Hirschman (1970) works.This grid helps us comparing different certification and verification schemes existing in Kenya. Analysis shows that the least effective scheme is the one that is bound to grow,raising the question of the sustainability of Kenyan domestic organic markets
APA, Harvard, Vancouver, ISO, and other styles
47

Corpetti, Thomas. "Images & télédétection : analyse de séquences à basse et très haute résolution spatiale." Habilitation à diriger des recherches, Université Rennes 1, 2011. http://tel.archives-ouvertes.fr/tel-00616558.

Full text
Abstract:
Ce document d'habilitation est consacré à l'étude de séries temporelles d'images de télédétection à basse (LSR) et à très haute résolution spatiale (VHSR). Les phénomènes étudiés concernent la météorologie et l'océanographie (données LSR) et l'agriculture et le milieu urbain (données VHSR). La fréquence d'acquisition des données satellites est inversement proportionnelle à la résolution spatiale. Ainsi, pour des données LSR, la cadence d'acquisition est élevée (une images pour $15min$ avec le satellite MSG --Météosat Seconde Génération) et cela autorise l'étude des mouvement atmosphériques turbulents observés à travers le mouvement des nuages, la circulation océanique, ... Les problèmes d'analyse d'images associés concernent l'estimation du mouvement, le suivi de courbe ou encore l'interpolation de données manquantes. En ce qui concerne les données VHSR, la période séparant deux images peut varier de quelques semaines à quelques mois. Les études associées sont alors dédiées à la détection de changements structurels entre deux images. Du point de vue méthodologique, l'analyse de données LSR est principalement réalisée en introduisant des connaissances physiques a priori dans les outils classiques d'analyse d'images. Une part importante est dédiée à l'utilisation de techniques d'assimilation variationnelle de données. Pour l'analyse de données VHSR, nous proposons des descripteurs spécifiques permettant de caractériser les motifs texturés que l'on a à manipuler. Ces descripteurs sont ensuite utilisés pour résoudre différents problèmes d'analyse de données VHSR tels que la segmentation, la classification, la détection de fronts texturés ou encore l'estimation de l'orientation. Enfin, un chapitre est consacré à la détection de changements où nous proposons des techniques pour le détection binaire et multi-labels.
APA, Harvard, Vancouver, ISO, and other styles
48

Palmeira, Leonor. "Analyse et modélisation des dépendances entre sites voisins dans l'évolution des séquences d'ADN." Phd thesis, Université Claude Bernard - Lyon I, 2007. http://tel.archives-ouvertes.fr/tel-00178453.

Full text
Abstract:
Cette thèse a porté, d'une part, sur l'analyse des sur- et sous-représentations en dinucléotides au sein de différents génomes complets, en recherchant les liens éventuels avec des mécanismes connus de dommages causés à l'ADN qui soient liés à des sites avoisinants — particulièrement les voisins directs en 5' et 3'. L'étude de l'effet des UVs sur les génomes de micro-organismes, et sur l'effet de la méthylation sur les génomes de métazoaires en a été un des grands axes. D'autre part, les résultats récents de Bérard et al. sur des modèles d'évolution incorporant des dépendances entre bases adjacentes (pyrimidine suivie de purine) ont permis de développer une approche probabiliste d'estimation des substitutions liées au mécanisme de méthylation-désamination spontanée des dinucléotides CG.
APA, Harvard, Vancouver, ISO, and other styles
49

Boulfani-Cuisinaud, Yasmine. "Compression au fil de l'eau de séquences de maillages 3D par analyse multirésolution." Nice, 2010. http://www.theses.fr/2010NICE4080.

Full text
Abstract:
Nous proposons dans cette thèse deux approches de compression géométrique de maillages 3D dynamiques au fil de l’eau pour analyse multirésolution. Comme première approche de compression, le codeur TWC (Temporal Wavelet Coding) est proposé, incluant une transformée en ondelettes temporelle mise en œuvre au moyen d’un schéma lifting, où plusieurs schémas lifting ont été testés. Les sous-bandes de la transformée en ondelettes sont codées avec une technique basée sur une allocation binaire, permettant d’obtenir les pas de quantification optimaux, selon un critère débit / distorsion. En deuxième approche de compression, le codeur appelé MCTWC (Motion Compensated Temporal Wavelet Coding) est proposé, s’appuyant sur la transformée en ondelettes incluant une compensation de mouvement, un codage arithmétique des matrices de mouvement et des partitions, et un codage des sous-bandes par le codeur basé sur l’allocation binaire. Une technique de segmentation automatique au sens du mouvement est proposée, consistant à regrouper dans des parties (clusters) les sommets qui suivent un mouvement affine proche, sous la condition de la minimisation de l’erreur de compensation de mouvement. Une estimation / compensation du mouvement est appliquée ensuite sur chaque cluster de la partition pour obtenir une séquence compensée en mouvement par parties, sur laquelle est appliqué la transformée en ondelettes par schéma lifting
We propose in this thesis two approaches for geometric compression of 3D dynamic meshes computing on the fly multiresolution analysis. As a first compression approach, the encoder TWC (Temporal wavelet Coding) is proposed, including a temporal wavelet transforms implemented by several lifting schemes. The subbands of the wavelet transforms are encoded thanks to a bit allocation giving the optimal quantization steps, by optimizing the rate-distorstion trade-off. A second compression approach is proposed, called MCTWC (Motion Compensated Temporal Wavelet Coding). It is based on the motion compensated wavelet transform. An automatic motion-based segmentation technique is proposed using z region growing approach : the vertices that follow the same affine motion belong to a same cluster. A motion estimation / compensation is then applied to each cluster of the partition to obtain a cluster-based motion compensation sequence. Then, a wavelet-based lifting scheme is applied. Experimentally, the encoder MCTWC including motion compensation improves significantly the compression performances compared to the encoder TWC which does not include this feature. Also, compared to some state of the art encoders, the proposed coders do not depend on the geometric characteristics of the mesh sequences, permit a low computational complexity multiresolution analysis, and offer features like temporal scalability and streaming
APA, Harvard, Vancouver, ISO, and other styles
50

Palmeira, Leonor. "Analyse et modélisation des dépendances entre sites voisins dans l’évolution des séquences d’ADN." Lyon 1, 2007. http://tel.archives-ouvertes.fr/docs/00/17/84/53/PDF/structure.pdf.

Full text
Abstract:
Cette thèse a porté, d’une part, sur l’analyse des sur- et sous-représentations en dinucléotides au sein de différents génomes complets, en recherchant les liens éventuels avec des mécanismes connus de dommages causés à l’ADN qui soient liés à des sites avoisinants — particulièrement les voisins directs en 5’ et 3’. L’étude de l’effet des UVs sur les génomes de micro-organismes, et sur l’effet de la méthylation sur les génomes de métazoaires en a été un des grands axes. D’autre part, les résultats récents de Bérard et al. Sur des modèles d’évolution incorporant des dépendances entre bases adjacentes (pyrimidine suivie de purine) ont permis de développer une approche probabiliste d’estimation des substitutions liées au mécanisme de méthylation-désamination spontanée des dinucléotides CG
On the one hand, this study examined dinucleotide over- and under-representations in different complete genomes, in order to determine possible links with DNA damage known mechanims. We focused on direct 5’ and 3’ neighbors, and analyzed the effect of UV light on the genomes of micro-organisms, and the effect of methylation on the genomes of metazoans. On the other hand, recent results by Bérard et al. On models of evolution incorporating neighboring site dependencies (pyrimidine followed by purine), allowed us to develop a probabilistic approach for the estimation of substitution rates due to the methylation-deamination process acting on CG dinucleotides
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography