Dissertations / Theses on the topic 'Exploration des séquences'

To see the other types of publications on this topic, follow the link: Exploration des séquences.

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 31 dissertations / theses for your research on the topic 'Exploration des séquences.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Faisan, Sylvain. "Analyse et fusion markovienne de séquences en imagerie 3D+t : Application à l'analyse de séquences d'images IRM fonctionnelles cérébrales." Université Louis Pasteur (Strasbourg) (1971-2008), 2004. https://publication-theses.unistra.fr/public/theses_doctorat/2004/FAISAN_Sylvain_2004.pdf.

Full text
Abstract:
Largement utilisé en traitement du signal et des images, le modèle markovien caché standard est essentiellement adapté à la modélisation de processus aléatoires de nature segmentale. Il se prête peu à la représentation de processus événementiels, fréquents dans le domaine biologique et médical. Nous proposons dans cette thèse, deux approches de modélisation markovienne d'un processus de nature événementielle, voire de plusieurs processus événementiels en interaction. Dans chacune des deux approches, une première étape détecte et caractérise les événements d'intérêt composant le ou les processus événementiels à analyser. La seconde étape analyse, sur la base d'un modèle markovien caché adapté, les événements détectés. Les deux approches se distinguent par le nombre de séquences d'événements, ou canaux d'observation, sous analyse. La première approche (modèle semi-markovien caché de séquence d'événements -MSMCSE) considère une séquence d'événements alors que la seconde (modèle markovien caché de multiples séquences d'événements - MMCMSE) gère de multiples canaux d'observation, dans un cadre de fusion-association d'événements asynchrones entre canaux. En application de ces approches de modélisation, nous avons développé deux méthodes originales et non supervisées de cartographie des zones d'activation en IRM fonctionnelle (IRMf) cérébrale. Toutes deux sont fondées sur le même principe, novateur,d'alignement temporel entre séquences d'événements. En exploitant de plus l'information spatiale de voisinage dans un cadre de détection--fusion multicanaux d'événements, la méthode de cartographie par MMCMSE s'avère très robuste au bruit et à la variabilité du signal IRMf actif. Ses performances de détection surpassent celles obtenues par la méthode à base de MSMCSE d'une part, mais également celles obtenues par la méthode de cartographie cérébrale faisant référence dans le domaine, SPM (Statistical Parameter Mapping)
Hidden Markov Models (HMMs) which are widely used to process signals or images, are well-suited to the analysis of random processes that are segmental in nature. However, many processes, met in particular in the biomedical field, are event-based processes making the HMMs ill-suited. We present in this PHD two markovian approaches dedicated to the modeling and analysis of an event-based process or of multiple interacting event-based processes. Both approaches proceed in two steps. First, a preprocessing step detects and characterizes events of interest in the raw input data. Then, detected events are analyzed based on an adapted hidden Markov model. The two modeling approaches can be distinguished by the number of event sequences they can handle. The first approach, which is based on a hidden semi-Markov event sequence model(HSMESM), considers a single event sequence whereas the second approach,which is based on a hidden Markov multiple event sequence model (HMMESM),handles multiple observation channels at once, within a rich mathematical framework of fusion--association of asynchronous events across channels. From these models, two unsupervised functional MRI (fMRI) brain mapping methods have been developed. Both methods rely on the same, novel principle of temporal alignment between event sequences. By accounting for spatial information within a statistical framework of multiple event sequence detection- multiple event sequence fusion, the HMMESM-based mapping method shows high robustness to noise and variability of the active fMRI signal across space, time, experiments, and subjects. Besides, the HMMESM method clearly outperforms the HSMESM method as well as the widely used Statistical Parametric Mapping (SPM) approach
APA, Harvard, Vancouver, ISO, and other styles
2

Levivier, Emilie. "Exploration des similitudes de séquences protéiques à haut niveau de divergence évolutive : perspectives de l'approche Hydrophobic Cluster Analysis (HCA)." Paris 7, 2003. http://www.theses.fr/2003PA077069.

Full text
APA, Harvard, Vancouver, ISO, and other styles
3

Li, Dong Haoyuan. "Extraction de séquences inattendues : des motifs séquentiels aux règles d’implication." Montpellier 2, 2009. http://www.theses.fr/2009MON20253.

Full text
Abstract:
Les motifs séquentiels peuvent être vus comme une extension de la notion d'itemsets fréquents intégrant diverses contraintes temporelles. La recherche de tels motifs consiste ainsi à extraire des enchaînements d'ensembles d'items, couramment associés sur une période de temps bien spécifiée. La construction de règles à partir de ces motifs séquentiels permet d'étendre la notion de règles d'association pour la pris en compte de la temporalité. En fait, cette recherche met en évidence des associations inter-transactions, contrairement à celle des règles d'association qui extrait des combinaisons intra-transactions. Ce problème, posé à l'origine dans un contexte de marketing, intéresse à présent des domaines aussi variés que les télécommunications, la finance, ou encore la médecine et la bioinformatique. Même s'il existe aujourd'hui de très nombreuses approches efficaces pour extraire des motifs, ces derniers ne sont pas forcément adaptés aux besoins des applications réelles. En fait, les résultats obtenus sont basés sur une mesure statistique et ne tiennent pas compte de la connaissance du domaine. De plus, ces approches sont principalement axées sur la recherche de tendances et ne permettent pas d'extraire des connaissances sur les éléments atypiques ou inattendus. Dans le cadre de cette thèse, nous nous intéressons donc à la problématique de l'extraction de motifs séquentiels et règles inattendus en intégrant la connaissance du domaine. Le travail présenté dans cette thèse comporte la mise en œuvre d'un cadre MUSE pour l'extraction de séquences inattendues par rapport à un système de croyances, des extensions avec la théorie de logique floue, l'intégration des données hi
The sequential patterns can be viewed as an extension of the notion of association rules with integrating temporal constraints, which are effective for representing statistical frequency based behaviors between the elements contained in sequence data, that is, the discovered patterns are interesting because they are frequent. However, with considering prior domain knowledge of the data, another reason why the discovered patterns are interesting is because they are unexpected. In this thesis, we investigate the problems in the discovery of unexpected sequences in large databases with respect to prior domain expertise knowledge. We first methodically develop the framework Muse with integrating the approaches to discover the three forms of unexpected sequences. We then extend the framework Muse by adopting fuzzy set theory for describing sequence occurrence. We also propose a generalized framework SoftMuse with respect to the concept hierarchies on the taxonomy of data. We further propose the notions of unexpected sequential patterns and unexpected implication rules, in order to evaluate the discovered unexpected sequences by using a self-validation process. We finally propose the discovery and validation of unexpected sentences in free format text documents. The usefulness and effectiveness of our proposed approaches are shown with the experiments on synthetic data, real Web server access log data, and text document classification
APA, Harvard, Vancouver, ISO, and other styles
4

Jaziri, Rakia. "Modèles de mélanges topologiques pour la classification de données structurées en séquences." Paris 13, 2013. http://scbd-sto.univ-paris13.fr/secure/edgalilee_th_2013_jaziri.pdf.

Full text
Abstract:
Ces dernières années ont vu le développement des techniques de fouille de données séquentielles dans de nombreux domaines d’applications dans le but d’analyser des données temporelles, volumineuses et complexes. Dans le cadre de cette thèse, nous nous intéressons aux problèmes de classification et de structuration de données séquentielles, que nous proposons d’étudier à travers trois approches principales. Dans la première, il s’agit de mettre en oeuvre une nouvelle approche de classification topographique probabiliste dédiée aux données séquentielles, nous l’appellerons PrSOMS. Cette approche consiste à adapter la carte topographique déterministe à des séquences tout en s’appuyant sur les modèles de Markov cachés. On aboutit ainsi à une approche qui bénéficie du pouvoir de visualisation des SOM et de celui de structuration (modélisation) de séquences des HMM. Dans la deuxième, nous proposons une extension hiérarchique de l’approche PrSOMS. Cette approche permet de tirer partie de l’aspect complexe des données au sein du processus de classification. Nous avons constaté que le modèle obtenu ”H-PrSOMS” assure une bonne interprétabilité des classes construites. Dans la troisième, nous proposons une autre approche statistique topologique MGTM-TT, qui repose sur le même paradigme que celui des HMM. Il s’agit d’une modélisation générative topographique à densité d’observations mélanges, qui s’apparente à une extension hiérarchique du modèle GTM temporel. Ces propositions ont ensuite été appliquées à des données de test et à des données réelles issues de l’INA (Institut National de l’Audiovisuel). Dans le cas de l’INA, Ces approches consistent à proposer dans un premier temps une classification plus fine des segments audiovisuels diffusés. Puis, elles cherchent à définir une typologie des enchainements des segments (diffusion multiple d’un même programme, un programme entre deux inter-programme) afin de prévoir de manière statistique les caractéristiques des segments diffusés. La méthodologie globale offre ainsi un outil pour la classification et la structuration des données séquentielles
Recent years have seen the development of data mining techniques in various application areas, with the purpose of analyzing sequential, large and complex data. In this work, the problem of clustering, visualization and structuring data is tackled by a three-stage proposal. The first proposal present a generative approach to learn a new probabilistic Self-Organizing Map (PrSOMS) for non independent and non identically distributed data sets. Our model defines a low dimensional manifold allowing friendly visualizations. To yield the topology preserving maps, our model exhibits the SOM like learning behavior with the advantages of probabilistic models. This new paradigm uses HMM (Hidden Markov Models) formalism and introduces relationships between the states. This allows us to take advantage of all the known classical views associated to topographic map. The second proposal concerns a hierarchical extension of the approach PrSOMS. This approach deals the complex aspect of the data in the classification process. We find that the resulting model ”H-PrSOMS” provides a good interpretability of classes built. The third proposal concerns an alternative approach statistical topological MGTM-TT, which is based on the same paradigm than HMM. It is a generative topographic modeling observation density mixtures, which is similar to a hierarchical extension of time GTM model. These proposals have then been applied to test data and real data from the INA (National Audiovisual Institute). This work is to provide a first step, a finer classification of audiovisual broadcast segments. In a second step, we sought to define a typology of the chaining of segments (multiple scattering of the same program, one of two inter-program) to provide statistically the characteristics of broadcast segments. The overall framework provides a tool for the classification and structuring of audiovisual programs
APA, Harvard, Vancouver, ISO, and other styles
5

Nicolas, Renaud. "Développement de nouvelles séquences d'IRM de diffusion dédiées à la neuro-imagerie." Toulouse 3, 2012. http://www.theses.fr/2012TOU30283.

Full text
Abstract:
Le sujet de cette thèse est dédié au développement d'une technique, l'IRM de diffusion, qui permet d'obtenir des images de propriétés micro-structurelles (inférieures à la taille du pixel obtenu par IRM) des milieux biologique, et à son application à l'étude du cerveau. La capacité de cette technique à révéler des modifications précoces de changement micro-structuraux qui sont associés à des modifications métaboliques énergétiques complexes en a fait une méthode de référence pour détecter précocement certaines pathologies focales telles les Accidents Vasculaires Cérébraux Ischémiques. Le lecteur pourra trouver dans cette thèse une introduction complète aux phénomènes physiques de la diffusion brownienne dans les milieux biologiques, de l'IRM et de la RMN de diffusion ainsi qu'une synthèse originale sur les origine biologiques et biophysiques des modifications de Coefficient de Diffusion Apparent observés dans l'ischémie. Afin d'étendre le domaine de l'IRM de diffusion des phénomènes ischémiques focaux (étudiés expérimentalement sur l'homme et l'animal) aux pathologies non focales, l'étude de la déviation à la diffusion gaussienne de l'eau dans les tissus biologiques a été étudiée du point de vue bibliographique et expérimental. Les méthodologies pratiques permettant de traiter et de préparer les images de diffusion pour l'étude des diffusion non gaussienne ainsi que les corrections d'artefacts nécessaires y sont soigneusement décrites. Ceci a pu donner lieu à une étude des modèles de diffusion non gaussienne en tant que problématique inverse et à des applications dans la détection de la Maladie d'Alzheimer, caractérisée par des lésions peu focales et microscopiques. Enfin, nous avons mis au point trois approches originales de développement technologiques de séquences d'IRM de diffusion ainsi que les traitements d'images associés nécessaires à leur exploitation. Le premier développement inclut les mesures de diffusion non gaussienne avec variation des temps de diffusion appliquée à l'imagerie à 4. 7 et 7 T. Le second a consisté à mettre en place et tester à 3 T des séquences combinées de diffusion et de transfert d'aimantation permettant d'apporter des indications additionnelles sur la nature de l'eau sondée par l'IRM de diffusion. La troisième approche a consisté à développer à 3 T une méthodologie d'IRM fonctionnelle du tenseur de diffusion destinée à expérimenter les postulats biologiques résumés dans la première partie de cette thèse concernant le rôle potentiel de l'eau et de sa biologie dans les phénomènes d'activation cérébrales fonctionnelles. Au fil des validations, les hypothèses sur les micro-structures des milieux biologiques sont testées et affinées par différentes approches in vivo, ex vivo et in silico, afin d'appliquer les avancées physiques récentes en l'IRM de diffusion à la détection médicale des pathologies focales et non focales et interpréter celle-ci
This PhD thesis is dedicated to a technique, diffusion MRI, which allow to obtain images of micro-structural properties (inferior to the MRI voxel size) of biological media, and to the application of this technique to study brain. Because of its ability to reveal early micro-structural changes (associated with complex energetic metabolism changes), diffusion MRI is become a reference method to detect focal diseases like ischemic stroke. The reader can find in this thesis a complete introduction to the physical phenomenon related to brownian motion in biological media and those related to diffusion NMR and MRI, and an original synthesis of the biological and biophysical determinisms of the changes of apparent diffusion coefficients observed in stroke animal models. To extend the field of the technique from stroke focal phenomenon (studied experimentally in man an rodents) to non focal pathologies, the study of the deviation of diffusion from Gaussian behaviour has been studied theoretically and experimentally. Pratical methodologies allowing the preparation of diffusion images for non-gaussian diffusion imaging, and artefacts corrections are described here. This work has lead to a study of non-gaussian diffusion MRI signal treated as an inverse problem and to applications for Alzheimer's disease detection, characterized by non-focal and microscopic lesions. Finally, we have developed three original approaches for technological developments of MRI sequences (with the associated image treatment necessary to use them). The first is the development of non-gaussian diffusion together with variation of diffusion time applied to imaging at 4. 7 and 7 T. The second concern the development of magnetization transfer and diffusion imaging that give additional information about water probed by MRI. The latter approach is the development of fonctionnal diffusion MRI at 3 T in DTI mode dedicated to apply the biological hypothesis resumed in the first part of this thesis, concerning the particular role of water in brain activation. With a progression for the experimental validations, hypothesis concerning micro-structures of biological media are tested and validated with different approaches (in vivo, ex vivo, in silico), to apply the recent discoveries concerning the physic of diffusion MRI in order to detect focal and non-focal pathologies and to interpret them
APA, Harvard, Vancouver, ISO, and other styles
6

Hérisson, Joan. "Représentation spatiale et exploration virtuelle des génomes : une approche globale pour l'analyse des éléments architecturaux des séquences." Paris 11, 2004. http://www.theses.fr/2004PA112147.

Full text
Abstract:
Les séquences d'ADN sont souvent représentées par une succession de 4 nucléotides A, C, G, T. Même si cette représentation permet d'étudier la linguistique et la syntaxe des séquences d'ADN, elle demeure textuelle, locale et monodimensionnelle et ne fournit aucune information visuelle, globale ni spatiale. Or, l'ADN est une structure à trois dimensions formant une double hélice qui peut se courber et créer des interactions longue distance. L'objectif de cette thèse est de proposer un nouveau point de vue sur les séquences génomiques afin d'enrichir les analyses classiques avec des critères tridimensionnels. La modélisation de ces séquences 3d d'ADN se base sur un modèle bio-physique de conformation spatiale de l'ADN. Une telle représentation soulève des problématiques à la fois en Informatique - en Réalité Virtuelle pour la gestion de scène, l'interaction, la représentation des données et les algorithmes associés - et en Bioinformatique des génomes. Ces différents aspects, qui font le caractère pluri-disciplinaire de cette thèse, ont été traités à travers l'outil logiciel ADN-Viewer que j'ai développé. Deux directions ont été suivies durant ces travaux et doivent perdurer au-delà de cette thèse. La première est de se rapprocher le plus possible de la réalité biologique de l'ADN. Nos travaux représentent une toute première étape en ce sens et doivent être enrichis par de nouveaux critères de conformation spatiale et par l'intégration des partenaires biologiques de l'ADN. La seconde direction est d'exploiter la structure tridimensionnelle de l'ADN comme une représentation parmi d'autres pour explorer, traiter et analyser le contenu biologique des séquences
DNA sequences are often represented by a succession of four nucleotides: A, C, G and T. Even if this representation allows to study the linguistics and syntax of DNA sequences, it remains textual, local and monodimensional and does not provide any visual, local nor spatial information. However, DNA is a three-dimensional structure forming a double helix which can bend and create long distance interactions. The aim of this thesis is to propose a new approach of the genomic sequences in order to enrich classic analyses with three-dimensonal criteria. The modelling of these 3D DNA sequences is based on a biophysical model of spatial conformation of DNA. Such a representation raises problematics both in computer science - concerning Virtual Reality for scene management, interaction, data representation and associated algorithms - and in Bioinformatics of genomes. These different aspects, which form the pluridisciplinary nature of this thesis, have been treated through the software program tool ADN-Viewer that I have developed. Two directions have been taken during this work and should endure after this thesis. The first one is to come close as much as possible to the DNA biological reality. Our work represents a very first step in this sense and has to be enriched by new criteria of spatial conformation and by the integration of biological partners of DNA. The second direction is to exploit the three-dimensional structure of DNA as a representation among others to explore, treat and analyze the biological content of sequences
APA, Harvard, Vancouver, ISO, and other styles
7

Guillame-Bert, Mathieu. "Apprentissage de règles associatives temporelles pour les séquences temporelles de symboles." Thesis, Grenoble, 2012. http://www.theses.fr/2012GRENM081/document.

Full text
Abstract:
L'apprentissage de modèles temporels constitue l'une des grandes problématiques de l'Exploration de Données (Data Mining). Dans cette thèse, nous avons développé un nouveau modèle temporel appelé TITA Rules (Règle associative temporelle basé sur des arbres d'intervalles). Ce modèle permet de décrire des phénomènes ayant un certain degré d'incertitude et/ou d'imprécision. Ce modèle permet entre autres d'exprimer la synchronicité entre évènements, les contraintes temporelles disjonctives et la négation temporelle. De par leur nature, les TITA Rules peuvent êtes utilisées pour effectuer des prédictions avec une grande précision temporel. Nous avons aussi développé un algorithme capable de découvrir et d'extraire de manière efficace des TITA Rules dans de grandes bases de données temporelles. Le cœur de l'algorithme est basé sur des techniques de minimisation d'entropie, de filtrage par Apriori et par des analyses de co-dépendance. Note modèle temporelle et notre algorithme ont été appliqués et évalués sur plusieurs jeux de données issues de phénomènes réels et de phénomènes simulés. La seconde partie de cette thèse à consisté à étudier l'utilisation de notre modèle temporel sur la problématique de la Planification Automatique. Ces travaux ont mené au développement d'un algorithme de planification automatique. L'algorithme prend en entrée un ensemble de TITA Rules décrivant le fonctionnement d'un système quelconque, une description de l'état initial du système, et un but à atteindre. En retour, l'algorithme calcule un plan décrivant la meilleure façon d'atteindre le but donné. Par la nature même des TITA Rules, cet algorithme est capable de gérer l'incertain (probabilités), l'imprécision temporelle, les contraintes temporelles disjonctives, ainsi que les événements exogènes prédictibles mais imprécis
The learning of temporal patterns is a major challenge of Data mining. We introduce a temporal pattern model called Temporal Interval Tree Association Rules (Tita rules or Titar). This pattern model can be used to express both uncertainty and temporal inaccuracy of temporal events. Among other things, Tita rules can express the usual time point operators, synchronicity, order, and chaining,disjunctive time constraints, as well as temporal negation. Tita rules are designed to allow predictions with optimum temporal precision. Using this representation, we present the Titar learner algorithm that can be used to extract Tita rules from large datasets expressed as Symbolic Time Sequences. This algorithm based on entropy minimization, apriori pruning and statistical dependence analysis. We evaluate our technique on simulated and real world datasets. The problem of temporal planning with Tita rules is studied. We use Tita rules as world description models for a Planning and Scheduling task. We present an efficient temporal planning algorithm able to deal with uncertainty, temporal inaccuracy, discontinuous (or disjunctive) time constraints and predictable but imprecisely time located exogenous events. We evaluate our technique by joining a learning algorithm and our planning algorithm into a simple reactive cognitive architecture that we apply to control a robot in a virtual world
APA, Harvard, Vancouver, ISO, and other styles
8

Guillame-bert, Mathieu. "Apprentissage de règles associatives temporelles pour les séquences temporelles de symboles." Phd thesis, Université de Grenoble, 2012. http://tel.archives-ouvertes.fr/tel-00849087.

Full text
Abstract:
L'apprentissage de modèles temporels constitue l'une des grandes problématiques de l'Exploration de Données (Data Mining). Dans cette thèse, nous avons développé un nouveau modèle temporel appelé TITA Rules (Règle associative temporelle basé sur des arbres d'intervalles). Ce modèle permet de décrire des phénomènes ayant un certain degré d'incertitude et/ou d'imprécision. Ce modèle permet entre autres d'exprimer la synchronicité entre évènements, les contraintes temporelles disjonctives et la négation temporelle. De par leur nature, les TITA Rules peuvent êtes utilisées pour effectuer des prédictions avec une grande précision temporel. Nous avons aussi développé un algorithme capable de découvrir et d'extraire de manière efficace des TITA Rules dans de grandes bases de données temporelles. Le cœur de l'algorithme est basé sur des techniques de minimisation d'entropie, de filtrage par Apriori et par des analyses de co-dépendance. Note modèle temporelle et notre algorithme ont été appliqués et évalués sur plusieurs jeux de données issues de phénomènes réels et de phénomènes simulés. La seconde partie de cette thèse à consisté à étudier l'utilisation de notre modèle temporel sur la problématique de la Planification Automatique. Ces travaux ont mené au développement d'un algorithme de planification automatique. L'algorithme prend en entrée un ensemble de TITA Rules décrivant le fonctionnement d'un système quelconque, une description de l'état initial du système, et un but à atteindre. En retour, l'algorithme calcule un plan décrivant la meilleure façon d'atteindre le but donné. Par la nature même des TITA Rules, cet algorithme est capable de gérer l'incertain (probabilités), l'imprécision temporelle, les contraintes temporelles disjonctives, ainsi que les événements exogènes prédictibles mais imprécis.
APA, Harvard, Vancouver, ISO, and other styles
9

Weber, Jonathan. "Segmentation morphologique interactive pour la fouille de séquences vidéo." Phd thesis, Université de Strasbourg, 2011. http://tel.archives-ouvertes.fr/tel-00643585.

Full text
Abstract:
Nous observons actuellement une augmentation importante du volume de données vidéo disponibles. L'utilisation efficace de cette masse de données nécessite d'en extraire de l'information. Dans cette thèse, nous proposons d'utiliser les méthodes de fouille de données et de les appliquer sur les objets-vidéo d'intérêt afin de combler le fossé sémantique en impliquant l'utilisateur dans le processus. Extraire ces objets à partir des pixels nécessite de manipuler un grand volume de données, induisant un traitement coûteux (en temps et en mémoire) peu compatible avec une implication interactive de l'utilisateur. Ainsi, nous proposons d'appliquer le processus interactif de segmentation sur une réduction des données, les zones quasi-plates. N'étant définies que pour les images fixes, nous proposons une extension des zones quasi-plates aux séquences vidéo ainsi qu'une nouvelle méthode de filtrage. La segmentation est effectuée interactivement par l'utilisateur qui dessine des marqueurs sur les objets d'intérêt afin de guider la fusion des zones quasi-plates composant ces objets. Elle est effectuée sur un graphe d'adjacence de régions représentant les zones quasi-plates spatiotemporelles ainsi que leurs relations d'adjacence. L'utilisation de cette structure assure un faible temps de calcul. Les objets-vidéo obtenus sont ensuite utilisés dans un processus de fouille interactif guidé par des descripteurs extraits automatiquement de la video et des informations données par l'utilisateur. La forte interactivité avec l'utilisateur, à la fois lors de l'étape de segmentation puis lors de l'étape de fouille favorise la synergie entre données numériques et interprétation humaine.
APA, Harvard, Vancouver, ISO, and other styles
10

Bastide, Nathalie. "Segmentation et analyse du mouvement du ventricule gauche à partir de séquences d'images cardiaques de scanographie ultra-rapide." Paris 12, 1993. http://www.theses.fr/1993PA120021.

Full text
Abstract:
Pour repondre aux differents besoins cliniques d'evaluation de la fonction ventriculaire gauche, une methode de segmentation adaptee aux sequences d'images cardiaques fournies par un scanographe ultra-rapide, l'ufct, a ete developpee. Elle se base sur la recherche d'un chemin de cout minimum entre un point de depart et un point d'arrivee. Cette recherche s'effectue par l'expansion d'un graphe dans une zone d'interet prealablement detectee. Les proprietes du contour recherche (endocarde et epicarde) sont integrees dans trois fonctions de cout differentes etablies a partir d'une etape de caracterisation des points susceptibles d'appartenir aux contours. Une validation de la segmentation automatique a ete effectuee par trois methodes differentes de calcul des erreurs entre les contours manuels traces par un experimentateur averti et les contours automatiques. De plus, deux techniques d'estimation des vitesses instantanees ou flot optique, adaptees au type de mouvement cardiaque et a cette modalite, ont ete examinees et appliquees sur les images etudiees
APA, Harvard, Vancouver, ISO, and other styles
11

Fiot, Céline. "Extraction de séquences fréquentes : des données numériques aux valeurs manquantes." Phd thesis, Université Montpellier II - Sciences et Techniques du Languedoc, 2007. http://tel.archives-ouvertes.fr/tel-00179506.

Full text
Abstract:
La quantité de données aujourd'hui emmagasinées dans tous les domaines ainsi que leur diversité d'origines et de formats rendent impossibles l'analyse, le résumé ou l'extraction manuelle de connaissances. Pour répondre à ces besoins, diverses communautés se sont intéressées à la conception et au développement d'outils permettant d'extraire automatiquement de la connaissance de ces grandes bases. Désormais ces travaux visent à prendre en compte l'hétérogénéité de ces données, de leur format et de leur qualité. Notre travail s'inscrit dans cet axe de recherche et, plus précisément, dans le contexte de la découverte de schémas fréquents à partir de données regroupées sous la forme de séquences ordonnées. Ces schémas, appelés motifs séquentiels, n'étaient jusqu'alors extraits que sur des bases de données de séquences symboliques et parfaites, c'est-à-dire des bases ne contenant que des informations binaires ou pouvant être traitées comme telles et ne contenant aucun enregistrement incomplet. Nous avons donc proposé plusieurs améliorations des techniques d'extraction de séquences fréquentes afin de prendre en compte des données hétérogènes, incomplètes, incertaines ou mal connues de leur utilisateur, tout en minimisant les pertes éventuelles d'informations. Ainsi, le travail présenté dans cette thèse comporte la mise en oeuvre d'un cadre pour l'extraction de motifs séquentiels en présence de données numériques quantitatives, la définition de contraintes temporelles relâchées autorisant l'utilisateur à spécifier des contraintes temporelles approximatives et permettant un tri des résultats obtenus selon un indice de précision temporelle, enfin, le développement de deux approches pour l'extraction de motifs séquentiels sur des données symboliques incomplètes.
APA, Harvard, Vancouver, ISO, and other styles
12

Martinez, Coralie. "Classification précoce de séquences temporelles par de l'apprentissage par renforcement profond." Thesis, Université Grenoble Alpes (ComUE), 2019. http://www.theses.fr/2019GREAT123.

Full text
Abstract:
La classification précoce (CP) de séquences temporelles est un sujet de recherche récent dans le domaine de l'analyse des données séquentielles. Le problème consiste à attribuer une étiquette à des données qui sont collectées séquentiellement avec de nouvelles mesures arrivant au cours du temps. La prédiction d’une étiquette doit être faite en utilisant le moins de mesures possible dans la séquence. Le problème de CP a une importance capitale pour de nombreuses applications, allant du contrôle des processus à la détection de fraude. Il est particulièrement intéressant pour les applications qui cherchent à minimiser les coûts d’acquisition des mesures, ou qui cherchent une prédiction rapide des étiquettes afin de pouvoir entreprendre des actions rapides. C'est par exemple le cas dans le domaine de la santé, où il est nécessaire de fournir dès que possible un diagnostic médical à partir de la séquence d'observations médicales collectées au fil du temps. Un autre exemple est la maintenance prédictive où le but est d’anticiper la panne d’une machine à partir des signaux de ses capteurs. Dans ce travail de doctorat, nous avons développé une nouvelle approche pour ce problème, basée sur la formulation d'un problème de prise de décision séquentielle. Nous considérons qu’un modèle de CP doit décider entre classer une séquence incomplète ou retarder la prédiction afin de collecter des mesures supplémentaires. Plus précisément, nous décrivons ce problème comme un processus de décision de Markov partiellement observable noté EC-POMDP. L'approche consiste à entraîner un agent pour la CP à partir d’apprentissage par renforcement profond dans un environnement caractérisé par le EC-POMDP. La principale motivation de cette approche est de proposer un modèle capable d’effectuer la CP de bout en bout, en étant capable d’apprendre simultanément les caractéristiques optimales dans les séquences pour la classification et les décisions stratégiques optimales pour le moment de la prédiction. En outre, la méthode permet de définir l’importance du temps par rapport à la précision de la prédiction dans la définition des récompenses, et ce en fonction de l’application et de sa volonté de faire un compromis. Afin de résoudre le EC-POMDP et de modéliser la politique de l'agent, nous avons appliqué un algorithme existant, le Double Deep-Q-Network, dont le principe général est de mettre à jour la politique de l'agent pendant des épisodes d'entraînement, à partir d’expériences passées stockées dans une mémoire de rejeu. Nous avons montré que l'application de l'algorithme original au problème de CP entraînait des problèmes de mémoire déséquilibrée, susceptibles de détériorer l’entrainement de l'agent. Par conséquent, pour faire face à ces problèmes et permettre un entrainement plus robuste de l'agent, nous avons adapté l'algorithme aux spécificités du EC-POMDP et nous avons introduit des stratégies de gestion de la mémoire et des épisodes. Expérimentalement, nous avons montré que ces contributions amélioraient les performances de l'agent par rapport à l'algorithme d'origine et que nous étions en mesure de former un agent à faire un compromis entre la vitesse et la précision de la classification, individuellement pour chaque séquence. Nous avons également pu former des agents sur des jeux de données publics pour lesquels nous n’avons aucune expertise, ce qui montre que la méthode est applicable à divers domaines. Enfin, nous avons proposé des stratégies pour interpréter, valider ou rejeter les décisions de l'agent. Lors d'expériences, nous avons montré comment ces solutions peuvent aider à mieux comprendre le choix des actions effectuées par l'agent
Early classification (EC) of time series is a recent research topic in the field of sequential data analysis. It consists in assigning a label to some data that is sequentially collected with new data points arriving over time, and the prediction of a label has to be made using as few data points as possible in the sequence. The EC problem is of paramount importance for supporting decision makers in many real-world applications, ranging from process control to fraud detection. It is particularly interesting for applications concerned with the costs induced by the acquisition of data points, or for applications which seek for rapid label prediction in order to take early actions. This is for example the case in the field of health, where it is necessary to provide a medical diagnosis as soon as possible from the sequence of medical observations collected over time. Another example is predictive maintenance with the objective to anticipate the breakdown of a machine from its sensor signals. In this doctoral work, we developed a new approach for this problem, based on the formulation of a sequential decision making problem, that is the EC model has to decide between classifying an incomplete sequence or delaying the prediction to collect additional data points. Specifically, we described this problem as a Partially Observable Markov Decision Process noted EC-POMDP. The approach consists in training an EC agent with Deep Reinforcement Learning (DRL) in an environment characterized by the EC-POMDP. The main motivation for this approach was to offer an end-to-end model for EC which is able to simultaneously learn optimal patterns in the sequences for classification and optimal strategic decisions for the time of prediction. Also, the method allows to set the importance of time against accuracy of the classification in the definition of rewards, according to the application and its willingness to make this compromise. In order to solve the EC-POMDP and model the policy of the EC agent, we applied an existing DRL algorithm, the Double Deep-Q-Network algorithm, whose general principle is to update the policy of the agent during training episodes, using a replay memory of past experiences. We showed that the application of the original algorithm to the EC problem lead to imbalanced memory issues which can weaken the training of the agent. Consequently, to cope with those issues and offer a more robust training of the agent, we adapted the algorithm to the EC-POMDP specificities and we introduced strategies of memory management and episode management. In experiments, we showed that these contributions improved the performance of the agent over the original algorithm, and that we were able to train an EC agent which compromised between speed and accuracy, on each sequence individually. We were also able to train EC agents on public datasets for which we have no expertise, showing that the method is applicable to various domains. Finally, we proposed some strategies to interpret the decisions of the agent, validate or reject them. In experiments, we showed how these solutions can help gain insight in the choice of action made by the agent
APA, Harvard, Vancouver, ISO, and other styles
13

Raissi, Chedy. "Extraction de séquences fréquentes : des bases de données statiques aux flots de données." Montpellier 2, 2008. http://www.theses.fr/2008MON20063.

Full text
APA, Harvard, Vancouver, ISO, and other styles
14

Zidouni, Azeddine. "Modèles graphiques discriminants pour l'étiquetage de séquences : application à la reconnaissance d'entités nommées radiophiniques." Thesis, Aix-Marseille 2, 2010. http://www.theses.fr/2010AIX22125/document.

Full text
Abstract:
Le traitement automatique des données complexes et variées est un processus fondamental dans les applications d'extraction d'information. L'explosion combinatoire dans la composition des textes journalistiques et l'évolution du vocabulaire rend la tâche d'extraction d'indicateurs sémantiques, tel que les entités nommées, plus complexe par les approches symboliques. Les modèles stochastiques structurels tel que les champs conditionnels aléatoires (CRF) permettent d'optimiser des systèmes d'extraction d'information avec une importante capacité de généralisation. La première contribution de cette thèse est consacrée à la définition du contexte optimal pour l'extraction des régularités entre les mots et les annotations dans la tâche de reconnaissance d'entités nommées. Nous allons intégrer diverses informations dans le but d'enrichir les observations et améliorer la qualité de prédiction du système. Dans la deuxième partie nous allons proposer une nouvelle approche d'adaptation d'annotations entre deux protocoles différents. Le principe de cette dernière est basé sur l'enrichissement d'observations par des données générées par d'autres systèmes. Ces travaux seront expérimentés et validés sur les données de la campagne ESTER. D'autre part, nous allons proposer une approche de couplage entre le niveau signal représenté par un indice de la qualité de voisement et le niveau sémantique. L'objectif de cette étude est de trouver le lien entre le degré d'articulation du locuteur et l'importance de son discours
Recent researches in Information Extraction are designed to extract fixed types of information from data. Sequence annotation systems are developed to associate structured annotations to input data presented in sequential form. The named entity recognition (NER) task consists of identifying and classifying every word in a document into some predefined categories such as person name, locations, organizations, and dates. The complexity of the NER is largely related to the definition of the task and to the complexity of the relationships between words and the semantic associated. Our first contribution is devoted to solving the NER problem using discriminative graphical models. The proposed approach investigates the use of various contexts of the words to improve recognition. NER systems are fixed in accordance with a specific annotation protocol. Thus, new applications are developed for new protocols. The challenge is how we can adapt an annotation system which is performed for a specific application to other target application? We will propose in this work an adaptation approach of sequence labelling task based on annotation enrichment using conditional random fields (CRF). Experimental results show that the proposed approach outperform rules-based approach in NER task. Finally, we propose a multimodal approach of NER by integrating low level features as contextual information in radio broadcast news data. The objective of this study is to measure the correlation between the speaker voicing quality and the importance of his speech
APA, Harvard, Vancouver, ISO, and other styles
15

Boukhetta, Salah Eddine. "Analyse de séquences avec GALACTIC – Approche générique combinant analyse formelle des concepts et fouille de motifs." Electronic Thesis or Diss., La Rochelle, 2022. http://www.theses.fr/2022LAROS035.

Full text
Abstract:
Une séquence est une suite d’éléments ordonnés comme par exemple les trajectoires de déplacement ou les séquences d’achats de produits dans un supermarché. La fouille de séquences est un domaine de la fouille de données qui vise à extraire des motifs séquentiels fréquents à partir d’un ensemble de séquences, où ces motifs sont le plus souvent des sous-séquences. Plusieurs algorithmes ont été proposés pour l’extraction des motifs séquentiels fréquents. Avec l’évolution des capacités de calcul, la tâche d’extraction des motifs séquentiels fréquents est devenue plus rapide. La difficulté réside alors dans le trop grand nombre de motifs séquentiels extraits, qui en rend difficile la lisibilité et donc l’interprétation. On parle de déluge de motifs. L’Analyse Formelle de Concepts (AFC) est un domaine d’analyse de données permettant d’identifier des relations à partir d’un ensemble de données binaires. Les structures de motifs étendent l’AFC pour traiter des données complexes comme les séquences. La plateforme GALACTIC implémente l’algorithme Next Priority Concept qui propose une approche d’extraction de motifs pour des données hétérogènes et complexes. Il permet un calcul de motifs génériques à travers des descriptions spécifiques d’objets par des prédicats monadiques. Il propose également de raffiner un ensemble d’objets à travers des stratégies d’explorations spécifiques, ce qui permet de réduire le nombre de motifs. Dans ce travail, nous nous intéressons à l’analyse de données séquentielles en utilisant GALACTIC. Nous proposons plusieurs descriptions et stratégies adaptées aux séquences. Nous proposons également des mesures de qualité non supervisées pour pouvoir comparer entre les motifs obtenus. Une analyse qualitative et quantitative est menée sur des jeux de données réels et synthétiques afin de montrer l’efficacité de notre approche
A sequence is a sequence of ordered elements such as travel trajectories or sequences of product purchases in a supermarket. Sequence mining is a domain of data mining that aims an extracting frequent sequential patterns from a set of sequences, where these patterns are most often common subsequences. Support is a monotonic measure that defines the proportion of data sharing a sequential pattern. Several algorithms have been proposed for frequent sequential pattern extraction. With the evolution of computing capabilities, the task of frequent sequential pattern extraction has become faster. The difficulty then lies in the large number of extracted sequential patterns, which makes it difficult to read and therefore to interpret. We speak about "deluge of patterns". Formal Concept Analysis (FCA) is a field of data analysis for identifying relationships in a set of binary data. Pattern structures extend FCA to handle complex data such as sequences. The GALACTIC platform implements the Next Priority Concept algorithm which proposes a pattern extraction approach for heterogeneous and complex data. It allows a generic pattern computation through specific descriptions of objects by monadic predicates. It also proposes to refine a set of objects through specific exploration strategies, which allows to reduce the number of patterns. In this work, we are interested in the analysis of sequential data using GALACTIC. We propose several descriptions and strategies adapted to sequences. We also propose unsupervised quality measures to be able to compare between the obtained patterns. A qualitative and quantitative analysis is conducted on real and synthetic datasets to show the efficiency of our approach
APA, Harvard, Vancouver, ISO, and other styles
16

Bercot, Béatrice. "Etude de l'expression de gènes d'aminoside 6'-N-acétyltransférase dans deux intégrons de classe 1 : exploration de séquences contrôlant la traduction ou la spécificité de substrat." Paris 5, 2002. http://www.theses.fr/2002PA05N015.

Full text
Abstract:
La dissémination de la résistance aux antibiotiques chez les bactéries à Gram négatif est facilitée par la présence de gènes de résistance sur des éléments génétiques récemment décrits, les intégrons. Ces éléments ont la particularité de promouvoir l'intégration, en leur propre sein, de gènes de résistance appelés cassette et d'en assurer l'expression. Près de la moitié des gènes cassette sont partiellement ou totalement dépourvus des séquences nucléotidiques nécessaires à leur expression au niveau de la traduction (codon d'initiation de la traduction typique et/ou séquence Shine Dalgarno). Nous avons montré, à l'aide du modèle de la cassette aac(6')-ib7, que l'expression de ces gènes cassette "minimum" dépend de la présence d'un ORF ayant une capacité de codage pour un peptide de 11 acides aminés. . . .
APA, Harvard, Vancouver, ISO, and other styles
17

Sananes, Jean-Christophe. "Exploration IRM des voies biliaires : intérêt de la séquence Haste." Bordeaux 2, 1994. http://www.theses.fr/1994BOR23011.

Full text
APA, Harvard, Vancouver, ISO, and other styles
18

Ben, Zakour Asma. "Extraction des utilisations typiques à partir de données hétérogènes en vue d'optimiser la maintenance d'une flotte de véhicules." Thesis, Bordeaux 1, 2012. http://www.theses.fr/2012BOR14539/document.

Full text
Abstract:
Le travail produit s'inscrit dans un cadre industriel piloté par la société 2MoRO Solutions. La réalisation présentée dans cette thèse doit servir à l'élaboration d'un service à haute valeur, permettant aux exploitants aéronautiques d'optimiser leurs actions de maintenance. Les résultats obtenus permettent d'intégrer et de regrouper les tâches de maintenance en vue de minimiser la durée d'immobilisation des aéronefs et d'en réduire les risques de panne.La méthode que nous proposons comporte trois étapes : (i) une étape de rationalisation des séquences afin de pouvoir les combiner [...]
The present work is part of an industrial project driven by 2MoRO Solutions company.It aims to develop a high value service enabling aircraft operators to optimize their maintenance actions.Given the large amount of data available around aircraft exploitation, we aim to analyse the historical events recorded with each aircraft in order to extract maintenance forecasting. Theresults are used to integrate and consolidate maintenance tasks in order to minimize aircraft downtime and risk of failure. The proposed method involves three steps : (i) streamlining information in order to combinethem, (ii) organizing this data for easy analysis and (iii) an extraction step of useful knowledgein the form of interesting sequences. [...]
APA, Harvard, Vancouver, ISO, and other styles
19

Mathonat, Romain. "Rule discovery in labeled sequential data : Application to game analytics." Thesis, Lyon, 2020. http://www.theses.fr/2020LYSEI080.

Full text
Abstract:
Exploiter des jeux de données labelisés est très utile, non seulement pour entrainer des modèles et mettre en place des procédures d'analyses prédictives, mais aussi pour améliorer la compréhension d'un domaine. La découverte de sous-groupes a été l'objet de recherches depuis deux décennies. Elle consiste en la découverte de règles couvrants des ensembles d'objets ayant des propriétés intéressantes, qui caractérisent une classe cible donnée. Bien que de nombreux algorithmes de découverte de sous-groupes aient été proposés à la fois dans le cas des données transactionnelles et numériques, la découverte de règles dans des données séquentielles labelisées a été bien moins étudiée. Dans ce contexte, les stratégies d'exploration exhaustives ne sont pas applicables à des cas d'application rééls, nous devons donc nous concentrer sur des approches heuristiques. Dans cette thèse, nous proposons d'appliquer des modèles de bandit manchot ainsi que la recherche arborescente de Monte Carlo à l'exploration de l'espace de recherche des règles possibles, en utilisant un compromis exploration-exploitation, sur différents types de données tels que les sequences d'ensembles d'éléments, ou les séries temporelles. Pour un budget temps donné, ces approches trouvent un ensemble des top-k règles decouvertes, vis-à-vis de la mesure de qualité choisie. De plus, elles ne nécessitent qu'une configuration légère, et sont indépendantes de la mesure de qualité utilisée. A notre connaissance, il s'agit de la première application de la recherche arborescente de Monte Carlo au cas de la fouille de données séquentielles labelisées. Nous avons conduit des études appronfondies sur différents jeux de données pour illustrer leurs plus-values, et discuté leur résultats quantitatifs et qualitatifs. Afin de valider le bon fonctionnement d'un de nos algorithmes, nous proposons un cas d'utilisation d'analyse de jeux vidéos, plus précisémment de matchs de Rocket League. La decouverte de règles intéressantes dans les séquences d'actions effectuées par les joueurs et leur exploitation dans un modèle de classification supervisée montre l'efficacité et la pertinence de notre approche dans le contexte difficile et réaliste des données séquentielles de hautes dimensions. Elle permet la découverte automatique de techniques de jeu, et peut être utilisée afin de créer de nouveaux modes de jeu, d'améliorer le système de classement, d'assister les commentateurs de "e-sport", ou de mieux analyser l'équipe adverse en amont, par exemple
It is extremely useful to exploit labeled datasets not only to learn models and perform predictive analytics but also to improve our understanding of a domain and its available targeted classes. The subgroup discovery task has been considered for more than two decades. It concerns the discovery of rules covering sets of objects having interesting properties, e.g., they characterize a given target class. Though many subgroup discovery algorithms have been proposed for both transactional and numerical data, discovering rules within labeled sequential data has been much less studied. In that context, exhaustive exploration strategies can not be used for real-life applications and we have to look for heuristic approaches. In this thesis, we propose to apply bandit models and Monte Carlo Tree Search to explore the search space of possible rules using an exploration-exploitation trade-off, on different data types such as sequences of itemset or time series. For a given budget, they find a collection of top-k best rules in the search space w.r.t chosen quality measure. They require a light configuration and are independent from the quality measure used for pattern scoring. To the best of our knowledge, this is the first time that the Monte Carlo Tree Search framework has been exploited in a sequential data mining setting. We have conducted thorough and comprehensive evaluations of our algorithms on several datasets to illustrate their added-value, and we discuss their qualitative and quantitative results. To assess the added-value of one or our algorithms, we propose a use case of game analytics, more precisely Rocket League match analysis. Discovering interesting rules in sequences of actions performed by players and using them in a supervised classification model shows the efficiency and the relevance of our approach in the difficult and realistic context of high dimensional data. It supports the automatic discovery of skills and it can be used to create new game modes, to improve the ranking system, to help e-sport commentators, or to better analyse opponent teams, for example
APA, Harvard, Vancouver, ISO, and other styles
20

Soriano, Mélanie. "Astérosismologie d'étoiles de séquence principale ou évoluées en relation avec l'expérience spatiale COROT et les instruments au sol HARPS et SOPHIE." Toulouse 3, 2009. http://thesesups.ups-tlse.fr/827/.

Full text
Abstract:
Le travail présenté dans cette thèse porte sur l'astérosismologie des étoiles de type solaire, et plus particulièrement des étoiles centrales de systèmes planétaires. L'analyse des ondes se propageant dans ces étoiles permet de mieux contraindre leur structure interne. Les deux premiers chapitres décrivent la théorie des oscillations stellaires et les outils numériques utilisés. La troisième partie traite de HD 52265, étoile cible de la mission CoRoT possédant une planète. Nous avons calculé des modèles préliminaires de cette étoile, en tenant compte des contraintes spectroscopiques, et nous avons avons fait des prédictions astérosismiques. Au cours de cette étude, nous avons mis en évidence une signature sismique caractéristique du cœur de l'étoile. Ce phénomène est induit par un fort gradient d'hélium au centre de l'étoile. Nous avons étudié cet effet dans le cas général des étoiles de type solaire, et nous avons montré qu'il se produit systématiquement, à la fin de la phase de séquence principale ou au début de la branche des sous-géantes. Cette signature caractéristique peut être utilisée pour contraindre le cœur de l'étoile. Le cinquième chapitre est consacré à l'étoile 51 Peg. Nous avons observé cette étoile avec le spectrographe SOPHIE à l'Observatoire de Haute Provence en 2007 et nous avons détecté ses oscillations. L'analyse des données a conduit à l'identification de 21 modes de pulsation. Enfin, nous présentons une nouvelle analyse sismique de l'étoile centrale de système planétaire µ Arae, observée et analysée par Bazot et al. En 2004. L'astérosismologie couplée avec la spectroscopie nous a permis de déterminer l'abondance d'hélium de l'étoile, ainsi que ses paramètres: masse, âge, rayon, taille du cœur convectif et extension possible due à de l'overshooting. Ces résultats illustrent que l'astérosismologie est un outil puissant pour apporter des contraintes sur la structure interne des étoiles
The work presented in this thesis focuses on asteroseismology of solar-type stars, and more specifically on central stars of planetary systems. The analysis of waves propagating in these stars can help constraining their internal structure. The two first chapters describe the theory and the stellar oscillations and the numerical tools used for this work. The third part deals with HD 52265, target of the CoRoT mission with a planet. We computed preliminary models for this star, taking into account the spectroscopic constraints, and we made some asteroseismic predictions. During this study, we found a seismic signature characteristic of the stellar core. This phenomenon is induced by a strong helium gradient in the core. We studied this effect in the general case of solar-type stars and we showed that it always happens, at the end of the main sequence or at the beginning of the subgiant branch. This characteristic signature can be used to constrain the stellar core. The fifth chapter is devoted to the star 51 Peg. We observed this star with the SOPHIE spectrograph at the Observatoire de Haute Provence in 2007 and we detected its oscillations. The analysis of the data led to the identification of 21 pulsation modes. Finally, we present a new seismic analysis of the exoplanet-host star µ Arae, observed and analysed by Bazot et al. In 2004. Asteroseismology coupled with spectroscopy allowed us to determine the helium abundance of the star, and its parameters: mass, age, radius, size of the convective core and its possible extension due to overshooting. These results show that asteroseismology is a powerful tool to bring constraints on the internal structure of stars
APA, Harvard, Vancouver, ISO, and other styles
21

Pinet, Svetlana. "Exploration cognitive de l'écriture au clavier." Thesis, Aix-Marseille, 2016. http://www.theses.fr/2016AIXM3031/document.

Full text
Abstract:
Bien qu'elle soit omniprésente dans notre société, l'écriture au clavier reste assez mal caractérisée. L’étudier impose de s'intéresser à l'intersection de plusieurs champs de recherche tels que la psycholinguistique, le contrôle moteur et la programmation de séquence. Le but de cette thèse était d'étudier les processus linguistiques et moteurs mis en jeu lors de l'écriture au clavier. Une première étude comportementale a démontré l'importance des processus linguistiques pour expliquer les performances d'écriture (temps de réaction, intervalles inter-frappes et proportion de réponses correctes). Dans une deuxième étude, nous avons évalué la fiabilité d’une plateforme de récolte de données en ligne pour enregistrer des séquences de frappe à grande échelle. Ensuite, trois études d'EEG ont permis de caractériser les processus de préparation de réponses motrices et leur éventuelle interaction avec des processus linguistiques. Nous avons observé à plusieurs reprises un patron d'activation/inhibition des cortex moteurs, précédemment caractérisé dans le contexte de tâches de choix forcé. Nous avons pu également observer la dépendance de cet index aux effecteurs engagés dans la séquence tapée. Les résultats présentés sont discutés en termes de processus linguistiques et moteurs sous-jacents. L'écriture au clavier se présente comme une modalité appropriée pour étudier leur interaction potentielle lors de la production écrite et la question générale de la transmission d'information entre processus cognitifs. Les données présentées ici contribuent à la caractérisation de ce comportement désormais omniprésent et ouvrent ainsi de nombreuses perspectives de recherche dans ce domaine
Typing has become a ubiquitous skill in our modern information societies. It constitutes an important language production modality and probably our preferred way to produce written language. Still its investigation is rather scarce. Understanding typing behavior pertains to several research domains such as language production, motor control and sequence programming. The aim of this thesis was to characterize linguistic and motor processing during typing. The methodology combined fine grained behavioral and electroencephalography (EEG) investigations.The first study aimed to assess the importance of linguistic processes during typing. It revealed a composite pattern of effects on response latencies, inter-keystroke intervals and accuracy rates. The second study assessed the reliability of an online platform to perform large-scale studies of typing skills. Then, three EEG studies aimed to characterize motor planning during typing and their putative interaction with linguistic processing. While linguistic processing was harder to trace with EEG, all three studies revealed a reliable pattern over motor cortices prior to the striking of the first keystroke of a word, interpreted as an index of motor preparation. The manipulation of effectors engaged in sequence production revealed versatile inhibitory processes dependent on the content of the sequence. The results are discussed in terms of linguistic and motor processes and their putative interactions during typed language production, contributing to the popular debate about information processing in cognitive science. This work provides novel data that pave the way to promising future investigations of typing
APA, Harvard, Vancouver, ISO, and other styles
22

Aïzan, Josky. "Modélisation et reconnaissance d'activités quotidiennes au sein d'une maison intelligente : application à la surveillance des personnes âgées." Thesis, Littoral, 2020. http://www.theses.fr/2020DUNK0557.

Full text
Abstract:
Les systèmes d'aide à la vie ambiante permettant le maintien à domicile des personnes âgées sont en pleine expansion de nos jours. Les nouvelles approches consistent à mettre en place un système automatisé de surveillance d'activités au sein d'une maison intelligente équipée de capteurs portables tels que les GPS, les bracelets électroniques ou les puces RFID. Ces capteurs malheureusement ont la contrainte d'être portés constamment. L'utilisation des capteurs binaires est une alternative de plus en plus proposée. Dans cette thèse, nous avons proposé la modélisation et la reconnaissance d'activités quotidiennes au sein d'une maison intelligente équipée de capteurs binaires. La première phase de l'architecture proposée concerne la modélisation d'activités. Les algorithmes de fouilles de séquences fréquentes déterministes et incertaines ont été utilisés. Ces algorithmes contiennent une phase de pré-traitement qui intègre la contrainte temporelle entre évènements. Les performances de ces algorithmes ont été évaluées sur la base de données MIT qui contient une collection d'activités humaines issues de deux appartements instrumentés respectivement de 77 et 84 capteurs. Ces expérimentations nous montrent que le nombre et la qualité des modèles issus de la phase de modélisation sont fortement liés au taux de confiance des capteurs. La seconde phase de l'architecture concerne la reconnaissance d'activités. Au cours de cette phase, deux approches sont proposées. La première approche consiste à coupler la méthode de forêt aléatoire avec l'algorithme de fouille déterministe de séquences fréquentes. Cette approche intègre une caractérisation temporelle des modèles d'activités découverts. Une expérimentation est effectuée sur la base de données MIT et les résultats en terme de reconnaissance d'activités sont de 98% pour le sujet 1 et 95% pour le sujet 2. Ces résultats sont comparés à ceux de la littérature pour rendre compte de la performance de l'approche proposée. La seconde approche utilise la méthode de reconnaissance par alignement de séquences basées sur la distance de Levenshtein couplée à la fouille incertaine de séquences fréquentes. A ce niveau, l'algorithme de fouille incertaine de séquences fréquentes, intègre à la fois la gestion des contraintes temporelles entre évènements et la gestion de l'incertitude des données issus des capteurs. Les performances de cette méthode ont été évaluées sur les bases de données MIT et CASAS. La base de données CASAS contient une collection de données issues de deux scénarios réalistes pour détecter les activités de la vie quotidiennes normales et entrelacées. Les résultats obtenus des expérimentations sur ses deux bases de données montrent que le taux de reconnaissances est une fonction croissante du taux de confiance des capteurs. Ces résultats sont de 100% et 94% respectivement pour les activités normales et entrelacées de la base CASAS puis 93% et 90% respectivement pour les activités des sujets 1 et 2 de la base MIT. Comparés avec ceux de la littérature, ces résultats mettent en évidence l'efficacité de notre méthode
The ADL systems for keeping seniors at home are expanding today. The new approaches involve setting up an automated activity monitoring system in a smart home equipped with wearable sensors such as Global Positioning System (GPS), electronics bracelets or RFID chips. These sensors unfortunately have the constraint to be worn constantly. The use of binary sensors is an increasingly common alternative. In this thesis we proposed modeling and recognition of daily activities within a smart home equipped with binary sensors. The first phase of the proposed architecture concerns activity modelling. Deterministic and uncertain sequential pattern mining algorithms were used. These algorothms contain a pre-processing phase that integrates the temporal constraint between events. The performance of these algorithms was evaluated on the MIT database, which contains a collection of human activities from two instruments of 77 and 84 sensors respectively. These experiments show that the number and quality of models from the modeling phase are strongly linked to the confidence rate of the sensors. The second phase of architecture involves the recognition of activities. During this phase, two approaches are proposed. The first approach is to pair the random forest method with the deterministic sequential pattern mining algorithm. This approach incorporates a temporal characterization of the activity models discovered. An experiment is carried out on the MIT database and the results in terms of activity recognition are 98% for the subject 1 and 95% for the subject 2. These results are compared with those in the literature to reflect the performance of the proposed approach. The second approach uses the sequence alignment recognition method based on the Levenshtein distance coupled with the uncertain sequential pattern mining. At this level, the uncertain sequential pattern mining algorithm integrates both the management of time constraints between events and the management of the uncertainty of data from the sensors. The performance of this method was evaluated on the MIT and CASAS databases. The CASAS database contains a collection of data from realistic scenarios to detect normal and intertwined daily activities. The results of the experiments on its two databases show that the recognition rate is an increasing function of the confidente rate of the sensors. These results are 100% and 94% respectively for the normal and interweave activities of the CASAS base and 93% and 90% respectively for the activities of subjects 1 and 2 of the MIT base. Compared with those in literature, these results highlight the effectiveness of our method
APA, Harvard, Vancouver, ISO, and other styles
23

Richard, Jérémy. "De la capture de trajectoires de visiteurs vers l’analyse interactive de comportement après enrichissement sémantique." Electronic Thesis or Diss., La Rochelle, 2023. http://www.theses.fr/2023LAROS012.

Full text
Abstract:
Cette thèse porte sur l’étude comportementale de l’activité touristique en utilisant une approche d’analyse générique et interactive. Le processus d’analyse développé concerne la trajectoire touristique dans la ville et dans les musées en tant que terrain d’étude. Des expérimentations ont été menées pour collecter les données de déplacement dans la ville touristique en utilisant des signaux GPS, permettant ainsi l’obtention d’une trajectoire de déplacement. Toutefois, l’étude se focalise en premier lieu sur la reconstruction de la trajectoire d’un visiteur dans les musées à l’aide d’un équipement de positionnement intérieur, c’est-à-dire dans un environnement contraint. Ensuite, un modèle d’enrichissement sémantique multi-aspects générique est développé pour compléter la trajectoire d’un individu en utilisant plusieurs données de contexte telles que les noms des quartiers traversés par l’individu dans la ville, les salles des musées, la météo à l’extérieur et des données d’application mobile à l’intérieur. Les trajectoires enrichies, appelées trajectoires sémantiques, sont ensuite analysées à l’aide de l’analyse formelle de concept et de la plateforme GALACTIC, qui permet l’analyse de structures de données complexes et hétérogènes sous la forme d’une hiérarchie de sous-groupes d’individus partageant des comportements communs. Enfin, l’attention est portée sur l’algorithme "ReducedContextCompletion" qui permet la navigation interactive dans un treillis de concepts, ce qui permet à l’analyste de données de se concentrer sur les aspects de la donnée qu’il souhaite explorer
This thesis focuses on the behavioral study of tourist activity using a generic and interactive analysis approach. The developed analytical process concerns the tourist trajectory in the city and museums as the study field. Experiments were conducted to collect movement data in the tourist city using GPS signals, thus enabling the acquisition of a movement trajectory. However, the study primarily focuses on reconstructing a visitor’s trajectory in museums using indoor positioning equipment, i.e., in a constrained environment. Then, a generic multi-aspect semantic enrichment model is developed to supplement an individual’s trajectory using multiple context data such as the names of neighborhoods the individual passed through in the city, museum rooms, weather outside, and indoor mobile application data. The enriched trajectories, called semantic trajectories, are then analyzed using formal concept analysis and the GALACTIC platform, which enables the analysis of complex and heterogeneous data structures as a hierarchy of subgroups of individuals sharing common behaviors. Finally, attention is paid to the "ReducedContextCompletion" algorithm that allows for interactive navigation in a lattice of concepts, allowing the data analyst to focus on the aspects of the data they wish to explore
APA, Harvard, Vancouver, ISO, and other styles
24

Dumont, Victoria. "Explorations cérébrale et comportementale des capacités de traitement des séquences de stimuli tactiles non-sociaux par les nouveau-nés prématurés." Thesis, Normandie, 2017. http://www.theses.fr/2017NORMC017/document.

Full text
Abstract:
Le cadre neuroconstructiviste du développement cognitif, en considérant la variabilité des contraintes qui agissent dès la conception et façonnent le développement, apparaît pertinent pour considérer l’influence des expériences sensorielles précoces sur le développement neurocomportemental des nouveau-nés prématurés. Ils évoluent dans un environnement particulier et ont une vulnérabilité aux troubles neurodéveloppementaux, auxquels des atypies du traitement tactile et temporel sont associées. L’objectif de ce travail de thèse est d’étudier les compétences tactiles et temporelles des nouveaux nés prématurés, et d’évaluer l’effet de l’environnement précoce sur ces perceptions. La perception tactile passive et la cognition ont été étudié auprès de 61 nouveau-nés prématurés (nés entre 32 et 34SA) à 35 semaines d’âge corrigé. Les réponses d’orientation manuelle lors de stimulations tactiles passives du membre supérieur ont été mesurées lors d'un paradigme d’habituation et de déshabituation (changement de localisation ou pause dans la séquence de stimulation). Les prématurés montrent une réponse d'orientation manuelle aux stimuli, qui diminue lors de la répétition, indépendamment de son emplacement sur le bras. L'habituation est retardée chez les sujets nés le plus tôt, à un petit poids et ayant vécu davantage d’expériences douloureuses. Enfin, les prématurés perçoivent les changements de localisation du stimulus et l'intervalle interstimulus, ce qui suggère un développement prénatal des capacités de traitement temporel. Ces capacités de traitement temporel et leur utilisation pour générer une prédiction sensorielle ont été évaluées au cours d’une seconde étude. 19 nouveau-nés prématurés (nés entre 31 et 32 SA) ont été soumis à une séquence tactile (régulière ou irrégulière) aux âges corrigés de 33 et 35 SA. Les variations de flux sanguin cérébral été mesurées. Aux deux âges corrigés, les stimuli tactiles sont associés à une réponse hémodynamique au sein du cortex somatosensoriel. À 33 semaines d’âge gestationnel corrigé les omissions dans la séquence sont associées à une augmentation du flux sanguin cérébral, qui indique que les prématurés forment des prédictions sensorielles, indépendamment du groupe expérimental. Ce travail de thèse permet de mieux caractériser les capacités de traitement tactile et temporel des nouveau-nés prématurés, qui manquent d’investigations récentes et approfondies. De plus, il apporte des arguments rationnels qui pourraient permettre de proposer des thérapies sensorielles à ces patients, basées sur leurs capacités de perception
The neuroconstructivist theoretical framework of cognitive development, taking into account the variability of the constraints that act from the conception to shape development, is relevant to consider the early influence of sensory experiences on the neurobehavioral development of preterm neonates. They evolve in a particular environment and are vulnerable to neurodevelopmental disorders, to which atypical tactile and temporal processing are associated. The aim of the thesis is to study tactile and temporal abilities in preterm newborns and to evaluate the effect of the early environment on these perceptions. We included 61 preterm neonates (born between 32 and 34 weeks of gestational age (wGA)). At 35 weeks of corrected gestational age, we measured orienting responses (forearm, hand, and fingers movements) during vibrotactile stimulation of their hand and forearm, during a habituation and dishabituation paradigm, the dishabituation being either a location change or a pause in the stimulation sequence. Preterm newborns displayed a manual orienting response to vibrotactile stimuli which significantly decreased when the stimulus was repeated, regardless of the stimulated location on the limb. Habituation was delayed in subjects born at a younger gestational age, smaller birth weight, and having experienced more painful care procedures. Preterm neonates perceived changes in stimulus location and interstimulus time interval, suggesting a prenatal development of temporal processing capacities. These temporal processing abilities and their use to generate sensory prediction are being evaluated in a second study. 19 premature neonates (born between 31 and 32wGA) were presented with a tactile sequence (regular or irregular) at 33 and 35 weeks of corrected GA. Variations in cerebral blood flow were measured. At both corrected GA, tactile stimuli are associated with a hemodynamic response in the primary somatosensory cortex. At 33 weeks of corrected GA, omissions in the sequence are associated with an increase in cerebral blood flow, which indicates that premature neonates form sensory predictions, regardless of their experimental group. This thesis work allows to better characterize the tactile and temporal processing abilities in premature neonates, which lack recent and thorough investigation. In addition, it provides rational arguments that could help to propose sensory therapies to these patients, based on their perceptual abilities
APA, Harvard, Vancouver, ISO, and other styles
25

Biteau, Nicolas. "Faisabilité du séquençage systématique d'un chromosome : stratégies et exploration du génome de Saccharomyces cerevisiae." Bordeaux 2, 1993. http://www.theses.fr/1993BOR28241.

Full text
APA, Harvard, Vancouver, ISO, and other styles
26

Fahed, Lina. "Prédire et influencer l'apparition des événements dans une séquence complexe." Thesis, Université de Lorraine, 2016. http://www.theses.fr/2016LORR0125/document.

Full text
Abstract:
Depuis plusieurs années, un nouveau phénomène lié aux données numériques émerge : des données de plus en plus volumineuses, variées et véloces, apparaissent et sont désormais disponibles, elles sont souvent qualifiées de données complexes. Dans cette thèse, nous focalisons sur un type particulier de données complexes : les séquences complexes d’événements, en posant la question suivante : “comment prédire au plus tôt et influencer l’apparition des événements futurs dans une séquence complexe d’événements ?”. Tout d’abord, nous traitons le problème de prédiction au plus tôt des événements. Nous proposons un algorithme de fouille de règles d’épisode DEER qui a l’originalité de maîtriser l’horizon d’apparition des événements futurs à travers d’une distance imposée au sein de règles extraites. Dans un deuxième temps, nous focalisons sur la détection de l’émergence dans un flux d’événements. Nous proposons l’algorithme EER pour la détection au plus tôt de l’émergence de nouvelles règles. Pour augmenter la fiabilité de nouvelles règles lorsque leur support est très faible, EER s’appuie sur la similarité entre ces règles et les règles déjà connues. Enfin, nous étudions l’impact porté par des événements sur d’autres dans une séquence d’événements. Nous proposons l’algorithme IE qui introduit la notion des “événements influenceurs” et étudie l’influence sur le support, la confiance et la distance à travers de trois mesures d’influence proposées. Ces travaux sont évalués et validés par une étude expérimentale menée sur un corpus de données réelles issues de blogs
For several years now, a new phenomenon related to digital data is emerging : data which are increasingly voluminous, varied and rapid, appears and becomes available, they are often referred to as complex data. In this dissertation, we focus on a particular type of data : complex sequence of events, by asking the following question : “how to predict as soon as possible and to influence the appearance of future events within a complex sequence of events?”. First of all, we focus on the problem of predicting events as soon as possible in a sequence of events. We propose DEER : an algorithm for mining episode rules, which has the originality of controlling the horizon of the appearance of future events by imposing a temporal distance within the extracted rules. In a second phase, we address the problem of emergence detection in an events stream. We propose EER : an algorithm for detecting new emergent rules as soon as possible. In order to increase the reliability of new rules, EER relies on the similarity between theses rules and previously extracted rules. At last, we study the impact carried by events on other events within a sequence of events. We propose IE : an algorithm that introduces the concept of “influencer events” and studies the influence on the support, on the confidence and on the distance through three proposed measures. Our work is evaluated and validated through an experimental study carried on a real data set of blogs messages
APA, Harvard, Vancouver, ISO, and other styles
27

Pham, Quang-Khai. "Time Sequence Summarization: Theory and Applications." Phd thesis, Université de Nantes, 2010. http://tel.archives-ouvertes.fr/tel-00538512.

Full text
Abstract:
Les domaines de la médecine, du web, du commerce ou de la nance génèrent et stockent de grandes masses d'information sous la forme de séquences d'événements. Ces archives représentent des sources d'information très riches pour des analystes avides d'y découvrir des perles de connaissance. Par exemple, les biologistes cherchent à découvrir les facteurs de risque d'une maladie en analysant l'historique des patients, les producteurs de contenu web et les bureaux de marketing examinent les habitudes de consommation des clients et les opérateurs boursiers suivent les évolutions du marché pour mieux l'anticiper. Cependant, ces applications requièrent l'exploration de séquences d'événements très volumineuses, par exemple, la nance génère quotidiennement des millions d'événements, où les événements peuvent être décrits par des termes extraits de riches contenus textuels. La variabilité des descripteurs peut alors être très grande. De ce fait, découvrir des connaissances non triviales à l'aide d'approches classiques de fouille de données dans ces sources d'information prolixes est un problème dicile. Une étude récente montre que les approches classiques de fouille de données peuvent tirer prot de formes condensées de ces données, telles que des résultats d'agrégation ou encore des résumés. La connaissance ainsi extraite est qualiée de connaissance d'ordre supérieur. À partir de ce constat, nous présentons dans ces travaux le concept de résumé de séquence d'événements dont le but est d'amener les applications dépendantes du temps à gagner un facteur d'échelle sur de grandes masses de données. Un résumé s'obtient en transformant une séquence d'événements où les événements sont ordonnés chronologiquement. Chaque événement est précisément décrit par un ensemble ni de descripteurs symboliques. Le résumé produit est alors une séquence d'événements, plus concise que la séquence initiale, et pouvant s'y substituer dans les applications. Nous proposons une première méthode de construction guidée par l'utilisateur, appelée TSaR. Il s'agit d'un processus en trois phases : i) une généralisation, ii) un regroupement et iii) une formation de concepts. TSaR utilise des connaissances de domaine exprimées sous forme de taxonomies pour généraliser les descripteurs d'événements. Une fenêtre temporelle est donnée pour contrôler le processus de regroupement selon la proximité temporelle des événements. Dans un second temps, pour rendre le processus de résumé autonome, c'est- à-dire sans paramétrage, nous proposons une redénition du problème de résumé en un nouveau problème de classication. L'originalité de ce problème de classication tient au fait que la fonction objective à optimiser dépend simultanément du contenu des événements et de leur proximité dans le temps. Nous proposons deux algorithmes gloutons appelés G-BUSS et GRASS pour répondre à ce problème. Enn, nous explorons et analysons l'aptitude des résumés de séquences d'événements à contribuer à l'extraction de motifs séquentiels d'ordre supérieur. Nous analysons les caractéristiques des motifs fréquents extraits des résumés et proposons une méthodologie qui s'appuie sur ces motifs pour en découvrir d'autres, à granularité plus ne. Nous évaluons et validons nos approches de résumé et notre méthodologie par un ensemble d'expériences sur un jeu de données réelles extraites des archives d'actualités nancières produites par Reuters.
APA, Harvard, Vancouver, ISO, and other styles
28

Luu, Vinh Trung. "Using event sequence alignment to automatically segment web users for prediction and recommendation." Thesis, Mulhouse, 2016. http://www.theses.fr/2016MULH0098/document.

Full text
Abstract:
Une masse de données importante est collectée chaque jour par les gestionnaires de site internet sur les visiteurs qui accèdent à leurs services. La collecte de ces données a pour objectif de mieux comprendre les usages et d'acquérir des connaissances sur le comportement des visiteurs. A partir de ces connaissances, les gestionnaires de site peuvent décider de modifier leur site ou proposer aux visiteurs du contenu personnalisé. Cependant, le volume de données collectés ainsi que la complexité de représentation des interactions entre le visiteur et le site internet nécessitent le développement de nouveaux outils de fouille de données. Dans cette thèse, nous avons exploré l’utilisation des méthodes d’alignement de séquences pour l'extraction de connaissances sur l'utilisation de site Web (web mining). Ces méthodes sont la base du regroupement automatique d’internautes en segments, ce qui permet de découvrir des groupes de comportements similaires. De plus, nous avons également étudié comment ces groupes pouvaient servir à effectuer de la prédiction et la recommandation de pages. Ces thèmes sont particulièrement importants avec le développement très rapide du commerce en ligne qui produit un grand volume de données (big data) qu’il est impossible de traiter manuellement
This thesis explored the application of sequence alignment in web usage mining, including user clustering and web prediction and recommendation.This topic was chosen as the online business has rapidly developed and gathered a huge volume of information and the use of sequence alignment in the field is still limited. In this context, researchers are required to build up models that rely on sequence alignment methods and to empirically assess their relevance in user behavioral mining. This thesis presents a novel methodological point of view in the area and show applicable approaches in our quest to improve previous related work. Web usage behavior analysis has been central in a large number of investigations in order to maintain the relation between users and web services. Useful information extraction has been addressed by web content providers to understand users’ need, so that their content can be correspondingly adapted. One of the promising approaches to reach this target is pattern discovery using clustering, which groups users who show similar behavioral characteristics. Our research goal is to perform users clustering, in real time, based on their session similarity
APA, Harvard, Vancouver, ISO, and other styles
29

Dalloux, Clément. "Fouille de texte et extraction d'informations dans les données cliniques." Thesis, Rennes 1, 2020. http://www.theses.fr/2020REN1S050.

Full text
Abstract:
Avec la mise en place d'entrepôts de données cliniques, de plus en plus de données de santé sont disponibles pour la recherche. Si une partie importante de ces données existe sous forme structurée, une grande partie des informations contenues dans les dossiers patients informatisés est disponible sous la forme de texte libre qui peut être exploité pour de nombreuses tâches. Dans ce manuscrit, deux tâches sont explorées~: la classification multi-étiquette de textes cliniques et la détection de la négation et de l'incertitude. La première est étudiée en coopération avec le centre hospitalier universitaire de Rennes, propriétaire des textes cliniques que nous exploitons, tandis que, pour la seconde, nous exploitons des textes biomédicaux librement accessibles que nous annotons et diffusons gratuitement. Afin de résoudre ces tâches, nous proposons différentes approches reposant principalement sur des algorithmes d'apprentissage profond, utilisés en situations d'apprentissage supervisé et non-supervisé
With the introduction of clinical data warehouses, more and more health data are available for research purposes. While a significant part of these data exist in structured form, much of the information contained in electronic health records is available in free text form that can be used for many tasks. In this manuscript, two tasks are explored: the multi-label classification of clinical texts and the detection of negation and uncertainty. The first is studied in cooperation with the Rennes University Hospital, owner of the clinical texts that we use, while, for the second, we use publicly available biomedical texts that we annotate and release free of charge. In order to solve these tasks, we propose several approaches based mainly on deep learning algorithms, used in supervised and unsupervised learning situations
APA, Harvard, Vancouver, ISO, and other styles
30

Belghiti, Moulay Tayeb. "Modélisation et techniques d'optimisation en bio-informatique et fouille de données." Thesis, Rouen, INSA, 2008. http://www.theses.fr/2008ISAM0002.

Full text
Abstract:
Cette thèse est particulièrement destinée à traiter deux types de problèmes : clustering et l'alignement multiple de séquence. Notre objectif est de résoudre de manière satisfaisante ces problèmes globaux et de tester l'approche de la Programmation DC et DCA sur des jeux de données réelles. La thèse comporte trois parties : la première partie est consacrée aux nouvelles approches de l'optimisation non convexe. Nous y présentons une étude en profondeur de l'algorithme qui est utilisé dans cette thèse, à savoir la programmation DC et l'algorithme DC (DCA). Dans la deuxième partie, nous allons modéliser le problème clustering en trois sous-problèmes non convexes. Les deux premiers sous-problèmes se distinguent par rapport au choix de la norme utilisée, (clustering via les normes 1 et 2). Le troisième sous-problème utilise la méthode du noyau, (clustering via la méthode du noyau). La troisième partie sera consacrée à la bio-informatique. On va se focaliser sur la modélisation et la résolution de deux sous-problèmes : l'alignement multiple de séquence et l'alignement de séquence d'ARN par structure. Tous les chapitres excepté le premier se terminent par des tests numériques
This Ph.D. thesis is particularly intended to treat two types of problems : clustering and the multiple alignment of sequence. Our objective is to solve efficiently these global problems and to test DC Programming approach and DCA on real datasets. The thesis is divided into three parts : the first part is devoted to the new approaches of nonconvex optimization-global optimization. We present it a study in depth of the algorithm which is used in this thesis, namely the programming DC and the algorithm DC ( DCA). In the second part, we will model the problem clustering in three nonconvex subproblems. The first two subproblems are distinguished compared to the choice from the norm used, (clustering via norm 1 and 2). The third subproblem uses the method of the kernel, (clustering via the method of the kernel). The third part will be devoted to bioinformatics, one goes this focused on the modeling and the resolution of two subproblems : the multiple alignment of sequence and the alignment of sequence of RNA. All the chapters except the first end in numerical tests
APA, Harvard, Vancouver, ISO, and other styles
31

Lu, Peng. "Empirical study and multi-task learning exploration for neural sequence labeling models." Thèse, 2019. http://hdl.handle.net/1866/22530.

Full text
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography