Tesi sul tema "Annotations de données"

Segui questo link per vedere altri tipi di pubblicazioni sul tema: Annotations de données.

Cita una fonte nei formati APA, MLA, Chicago, Harvard e in molti altri stili

Scegli il tipo di fonte:

Vedi i top-45 saggi (tesi di laurea o di dottorato) per l'attività di ricerca sul tema "Annotations de données".

Accanto a ogni fonte nell'elenco di riferimenti c'è un pulsante "Aggiungi alla bibliografia". Premilo e genereremo automaticamente la citazione bibliografica dell'opera scelta nello stile citazionale di cui hai bisogno: APA, MLA, Harvard, Chicago, Vancouver ecc.

Puoi anche scaricare il testo completo della pubblicazione scientifica nel formato .pdf e leggere online l'abstract (il sommario) dell'opera se è presente nei metadati.

Vedi le tesi di molte aree scientifiche e compila una bibliografia corretta.

1

Alec, Céline. "Enrichissement et peuplement d’ontologie à partir de textes et de données du LOD : Application à l’annotation automatique de documents". Thesis, Université Paris-Saclay (ComUE), 2016. http://www.theses.fr/2016SACLS228/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Cette thèse traite d'une approche, guidée par une ontologie, conçue pour annoter les documents d'un corpus où chaque document décrit une entité de même type. Dans notre contexte, l'ensemble des documents doit être annoté avec des concepts qui sont en général trop spécifiques pour être explicitement mentionnés dans les textes. De plus, les concepts d'annotation ne sont représentés au départ que par leur nom, sans qu'aucune information sémantique ne leur soit reliée. Enfin, les caractéristiques des entités décrites dans les documents sont incomplètes. Pour accomplir ce processus particulier d'annotation de documents, nous proposons une approche nommée SAUPODOC (Semantic Annotation Using Population of Ontology and Definitions of Concepts) qui combine plusieurs tâches pour (1) peupler et (2) enrichir une ontologie de domaine. La phase de peuplement (1) ajoute dans l'ontologie des informations provenant des documents du corpus mais aussi du Web des données (Linked Open Data ou LOD). Le LOD représente aujourd'hui une source prometteuse pour de très nombreuses applications du Web sémantique à condition toutefois de développer des techniques adaptées d'acquisition de données. Dans le cadre de SAUPODOC, le peuplement de l'ontologie doit tenir compte de la diversité des données présentes dans le LOD : propriétés multiples, équivalentes, multi-valuées ou absentes. Les correspondances à établir, entre le vocabulaire de l'ontologie à peupler et celui du LOD, étant complexes, nous proposons un modèle pour faciliter leur spécification. Puis, nous montrons comment ce modèle est utilisé pour générer automatiquement des requêtes SPARQL et ainsi faciliter l'interrogation du LOD et le peuplement de l'ontologie. Celle-ci, une fois peuplée, est ensuite enrichie(2) avec les concepts d'annotation et leurs définitions qui sont apprises grâce à des exemples de documents annotés. Un raisonnement sur ces définitions permet enfin d'obtenir les annotations souhaitées. Des expérimentations ont été menées dans deux domaines d'application, et les résultats, comparés aux annotations obtenues avec des classifieurs, montrent l'intérêt de l'approche
This thesis deals with an approach, guided by an ontology, designed to annotate documents from a corpus where each document describes an entity of the same type. In our context, all documents have to be annotated with concepts that are usually too specific to be explicitly mentioned in the texts. In addition, the annotation concepts are represented initially only by their name, without any semantic information connected to them. Finally, the characteristics of the entities described in the documents are incomplete. To accomplish this particular process of annotation of documents, we propose an approach called SAUPODOC (Semantic Annotation of Population Using Ontology and Definitions of Concepts) which combines several tasks to (1) populate and (2) enrich a domain ontology. The population step (1) adds to the ontology information from the documents in the corpus but also from the Web of Data (Linked Open Data or LOD). The LOD represents today a promising source for many applications of the Semantic Web, provided that appropriate techniques of data acquisition are developed. In the settings of SAUPODOC, the ontology population has to take into account the diversity of the data in the LOD: multiple, equivalent, multi-valued or absent properties. The correspondences to be established, between the vocabulary of the ontology to be populated and that of the LOD, are complex, thus we propose a model to facilitate their specification. Then, we show how this model is used to automatically generate SPARQL queries and facilitate the interrogation of the LOD and the population of the ontology. The latter, once populated, is then enriched (2) with the annotation concepts and definitions that are learned through examples of annotated documents. Reasoning on these definitions finally provides the desired annotations. Experiments have been conducted in two areas of application, and the results, compared with the annotations obtained with classifiers, show the interest of the approach
2

Liu, Jixiong. "Semantic Annotations for Tabular Data Using Embeddings : Application to Datasets Indexing and Table Augmentation". Electronic Thesis or Diss., Sorbonne université, 2023. http://www.theses.fr/2023SORUS529.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Avec le développement de l'Open Data, un grand nombre de sources de données sont mises à disposition des communautés (notamment les data scientists et les data analysts). Ces données constituent des sources importantes pour les services numériques sous réserve que les données soient nettoyées, non biaisées, et combinées à une sémantique explicite et compréhensible par les algorithmes afin de favoriser leur exploitation. En particulier, les sources de données structurées (CSV, JSON, XML, etc.) constituent la matière première de nombreux processus de science des données. Cependant, ces données proviennent de différents domaines pour lesquels l'expertise des consommateurs des données peut être limitée (knowledge gap). Ainsi, l'appropriation des données, étape critique pour la création de modèles d'apprentissage automatique de qualité, peut être complexe.Les modèles sémantiques (en particulier, les ontologies) permettent de représenter explicitement le sens des données en spécifiant les concepts et les relations présents dans les données. L'association d'étiquettes sémantiques aux ensembles de données facilite la compréhension et la réutilisation des données en fournissant une documentation sur les données qui peut être facilement utilisée par un non-expert. De plus, l'annotation sémantique ouvre la voie à des modes de recherche qui vont au-delà de simples mots-clés et permettent l'expression de requêtes d'un haut niveau conceptuel sur le contenu des jeux de données mais aussi leur structure tout en surmontant les problèmes d'hétérogénéité syntaxique rencontrés dans les données tabulaires. Cette thèse introduit un pipeline complet pour l'extraction, l'interprétation et les applications de tableaux de données à l'aide de graphes de connaissances. Nous rappelons tout d'abord la définition des tableaux du point de vue de leur interprétation et nous développons des systèmes de collecte et d'extraction de tableaux sur le Web et dans des fichiers locaux. Nous proposons ensuite trois systèmes d'interprétation de tableaux basés sur des règles heuristiques ou sur des modèles de représentation de graphes, afin de relever les défis observés dans la littérature. Enfin, nous présentons et évaluons deux applications d'augmentation des tables tirant parti des annotations sémantiques produites: l'imputation des données et l'augmentation des schémas
With the development of Open Data, a large number of data sources are made available to communities (including data scientists and data analysts). This data is the treasure of digital services as long as data is cleaned, unbiased, as well as combined with explicit and machine-processable semantics in order to foster exploitation. In particular, structured data sources (CSV, JSON, XML, etc.) are the raw material for many data science processes. However, this data derives from different domains for which consumers are not always familiar with (knowledge gap), which complicates their appropriation, while this is a critical step in creating machine learning models. Semantic models (in particular, ontologies) make it possible to explicitly represent the implicit meaning of data by specifying the concepts and relationships present in the data. The provision of semantic labels on datasets facilitates the understanding and reuse of data by providing documentation on the data that can be easily used by a non-expert. Moreover, semantic annotation opens the way to search modes that go beyond simple keywords and allow the use of queries of a high conceptual level on the content of the datasets but also their structure while overcoming the problems of syntactic heterogeneity encountered in tabular data. This thesis introduces a complete pipeline for the extraction, interpretation, and applications of tables in the wild with the help of knowledge graphs. We first refresh the exiting definition of tables from the perspective of table interpretation and develop systems for collecting and extracting tables on the Web and local files. Three table interpretation systems are further proposed based on either heuristic rules or graph representation models facing the challenges observed from the literature. Finally, we introduce and evaluate two table augmentation applications based on semantic annotations, namely data imputation and schema augmentation
3

Lutz, Quentin. "Graph-based contributions to machine-learning". Electronic Thesis or Diss., Institut polytechnique de Paris, 2022. http://www.theses.fr/2022IPPAT010.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Un graphe est un objet mathématique permettant de représenter des relations entre des entités (appelées nœuds) sous forme d’arêtes. Les graphes sont depuis longtemps un objet d’étude pour différents problèmes allant d’Euler au PageRank en passant par les problèmes de plus courts chemins. Les graphes ont plus récemment trouvé des usages pour l’apprentissage automatique.Avec l’avènement des réseaux sociaux et du web, de plus en plus de données sont représentées sous forme de graphes. Ces graphes sont toujours plus gros, pouvant contenir des milliards de nœuds et arêtes. La conception d’algorithmes efficaces s’avère nécessaire pour permettre l’analyse de ces données. Cette thèse étudie l’état de l’art et propose de nouveaux algorithmes pour la recherche de communautés et le plongement de nœuds dans des données massives. Par ailleurs, pour faciliter la manipulation de grands graphes et leur appliquer les techniques étudiées, nous proposons Scikit-network, une librairie libre développée en Python dans le cadre de la thèse. De nombreuses tâches, telles que le calcul de centralités et la classification de nœuds, peuvent être accomplies à l’aide de Scikit-network.Nous nous intéressons également au problème d’annotation de données. Les techniques supervisées d’apprentissage automatique nécessitent des données annotées pour leur entrainement. La qualité de ces données influence directement la qualité des prédictions de ces techniques une fois entrainées. Cependant, obtenir ces données ne peut pas se faire uniquement à l’aide de machines et requiert une intervention humaine. Nous étudions le problème d’annotation, sous un formalisme utilisant des graphes, avec pour but de décrire les solutions qui limitent cette intervention de façon optimale. Nous caractérisons ces solutions et illustrons comment elles peuvent être appliquées
A graph is a mathematical object that makes it possible to represent relationships (called edges) between entities (called nodes). Graphs have long been a focal point in a number of problems ranging from work by Euler to PageRank and shortest-path problems. In more recent times, graphs have been used for machine learning.With the advent of social networks and the world-wide web, more and more datasets can be represented using graphs. Those graphs are ever bigger, sometimes with billions of edges and billions of nodes. Designing efficient algorithms for analyzing those datasets has thus proven necessary. This thesis reviews the state of the art and introduces new algorithms for the clustering and the embedding of the nodes of massive graphs. Furthermore, in order to facilitate the handling of large graphs and to apply the techniques under study, we introduce Scikit-network, a free and open-source Python library which was developed during the thesis. Many tasks, such as the classification or the ranking of the nodes using centrality measures, can be carried out thanks to Scikit-network.We also tackle the problem of labeling data. Supervised machine learning techniques require labeled data to be trained. The quality of this labeled data has a heavy influence on the quality of the predictions of those techniques once trained. However, building this data cannot be achieved through the sole use of machines and requires human intervention. We study the data labeling problem in a graph-based setting, and we aim at describing the solutions that require as little human intervention as possible. We characterize those solutions and illustrate how they can be applied in real use-cases
4

Savonnet, Marinette. "Systèmes d'Information Scientifique : des modèles conceptuels aux annotations sémantiques Application au domaine de l'archéologie et des sciences du vivant". Habilitation à diriger des recherches, Université de Bourgogne, 2013. http://tel.archives-ouvertes.fr/tel-00917782.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Les Systèmes d'Information Scientifique (SIS) sont des Systèmes d'Information (SI) dont le but est de produire de la connaissance et non pas de gérer ou contrôler une activité de production de biens ou de services comme les SI d'entreprise. Les SIS se caractérisent par des domaines de recherche fortement collaboratifs impliquant des équipes pluridisciplinaires et le plus souvent géographiquement éloignées, ils manipulent des données aux structures très variables dans le temps qui vont au-delà de la simple hétérogénéité : nuages de points issus de scanner 3D, modèles numériques de terrain, cartographie, publications, données issues de spectromètre de masse ou de technique de thermoluminescence, données attributaires en très grand volume, etc. Ainsi, contrairement aux bases de données d'entreprise qui sont modélisées avec des structures établies par l'activité qu'elles supportent, les données scientifiques ne peuvent pas se contenter de schémas de données pré-definis puisque la structure des données évolue rapidement de concert avec l'évolution de la connaissance. La gestion de données scientifiques nécessite une architecture de SIS ayant un niveau d'extensibilité plus élevé que dans un SI d'entreprise. Afin de supporter l'extensibilité tout en contrôlant la qualité des données mais aussi l'interopérabilité, nous proposons une architecture de SIS reposant sur : - des données référentielles fortement structurées, identifiables lors de la phase d'analyse et amenées à évoluer rarement ; - des données complémentaires multi-modèles (matricielles, cartographiques, nuages de points 3D, documentaires, etc.). Pour établir les liens entre les données complémentaires et les données référentielles, nous avons utilisé un unique paradigme, l'annotation sémantique. Nous avons proposé un modèle formel d'annotation à base ontologique pour construire des annotations sémantiques dont la cohérence et la consistance peuvent être contrôlées par une ontologie et des règles. Dans ce cadre, les annotations offrent ainsi une contextualisation des données qui permet de vérifier leur cohérence, par rapport à la connaissance du domaine. Nous avons dressé les grandes lignes d'une sémantique du processus d'annotation par analogie avec la sémantique des langages de programmation. Nous avons validé notre proposition, à travers deux collaborations pluridisciplinaires : - le projet ANR CARE (Corpus Architecturae Religiosae Europeae - IV-X saec. ANR-07- CORP-011) dans le domaine de l'archéologie. Son objectif était de développer un corpus numérique de documents multimédia sur l'évolution des monuments religieux du IVe au XIe siècle (http://care.tge-adonis.fr). Un assistant d'annotation a été développé pour assurer la qualité des annotations par rapport à la connaissance représentée dans l'ontologie. Ce projet a donné lieu au développement d'une extension sémantique pour MediaWiki ; - le projet eClims dans le domaine de la protéomique clinique. eClims est un composant clinique d'un LIMS (Laboratory Information Management System) développé pour la plate-forme de protéomique CLIPP. eClims met en oeuvre un outil d'intégration basé sur le couplage entre des modèles représentant les sources et le système protéomique, et des ontologies utilisées comme médiatrices entre ces derniers. Les différents contrôles que nous mettons en place garantissent la validité des domaines de valeurs, la complétude, la consistance des données et leur cohérence. Le stockage des annotations est assuré par une Base de Données orientées colonnes associée à une Base de Données relationnelles.
5

Mefteh, Wafa. "Approche ontologique pour la modélisation et le raisonnement sur les trajectoires : prise en compte des aspects thématiques, temporels et spatiaux". Thesis, La Rochelle, 2013. http://www.theses.fr/2013LAROS405/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
L’évolution des systèmes de capture des données concernant les objets mobiles a donné naissance à de nouvelles générations d’applications dans différents domaines. Les données capturées, communément appelées « trajectoires », sont au cœur des applications qui analysent et supervisent le trafic routier, maritime et aérien ou également celles qui optimisent le transport public. Elles sont aussi exploitées dans les domaines du jeu vidéo, du cinéma, du sport et dans le domaine de la biologie animale pour l’étude des comportements, par les systèmes de capture des mouvements. Aujourd’hui, les données produites par ces capteurs sont des données brutes à caractère spatio-temporel qui cachent des informations sémantiquement riches et enrichissantes pour un expert. L’objectif de cette thèse est d’associer automatiquement aux données spatio-temporelles des descriptions ou des concepts liés au comportement des objets mobiles, interprétables par les humains, mais surtout par les machines. Partant de ce constat, nous proposons un processus partant de l’expérience des objets mobiles de monde réel, notamment le bateau et l’avion, vers un modèle ontologique générique pour la trajectoire. Nous présentons quelques requêtes qui intéressent les experts du domaine et qui montrent l’impossibilité d’exploiter les trajectoires dans leurs états bruts. En effet, l’analyse de ces requêtes fait ressortir trois types de composantes sémantiques : thématique, spatiale et temporelle. Ces composantes doivent être rattachées aux données des trajectoires ce qui conduit à introduire un processus d’annotation qui transforme les trajectoires brutes en trajectoires sémantiques. Pour exploiter les trajectoires sémantiques, on construit une ontologie de haut niveau pour le domaine de la trajectoire qui modélise les données brutes et leurs annotations. Vu le besoin d’un raisonnement complet avec des concepts et des opérateurs spatiaux et temporaux, nous proposons la solution de réutilisation des ontologies de temps et d’espace. Dans cette thèse, nous présentons aussi notre travail issu d’une collaboration avec une équipe de recherche qui s’intéresse à l’analyse et à la compréhension des comportements des mammifères marins dans leur milieu naturel. Nous détaillons le processus utilisé dans les deux premiers domaines, qui part des données brutes représentant les déplacements des phoques jusqu’au modèle ontologique de trajectoire des phoques. Nous accordons une attention particulière à l’apport de l’ontologie de haut niveau définissant un cadre contextuel pour l’ontologie du domaine d’application. Enfin, cette thèse présente la difficulté de mise en œuvre sur des données de taille réelle (des centaines de milliers d’individus) lors du raisonnement à travers les mécanismes d’inférence utilisant des règles métiers
The evolution of systems capture data on moving objects has given birth to new generations of applications in various fields. Captured data, commonly called ”trajectories”, are at the heart of applications that analyze and monitor road, maritime and air traffic or also those that optimize public transport. They are also used in the video game, movies, sports and field biology to study animal behavior, by motion capture systems. Today, the data produced by these sensors are raw spatio-temporal characters hiding semantically rich and meaningful informations to an expert data. So, the objective of this thesis is to automatically associate the spatio-temporal data descriptions or concepts related to the behavior of moving objects, interpreted by humans, but also by machines. Based on this observation, we propose a process based on the experience of real-world moving objects, including vessel and plane, to an ontological model for the generic path. We present some applications of interest to experts in the field and show the inability to use the paths in their raw state. Indeed, the analysis of these queries identified three types of semantic components : thematic, spatial and temporal. These components must be attached to data paths leading to enter an annotation that transforms raw semantic paths process trajectories. To exploit the semantic trajectories, we construct a high-level ontology for the domain of the path which models the raw data and their annotations. Given the need of complete reasoning with concepts and spatial and temporal operators, we propose the solution for reuse of ontologies time space. In this thesis, we also present our results from a collaboration with a research team that focuses on the analysis and understanding of the behavior of marine mammals in their natural environment. We describe the process used in the first two areas, which share raw data representing the movement of seals to ontological trajectory model seals. We pay particular attention to the contribution of the upper ontology defined in a contextual framework for ontology application. Finally, this thesis presents the difficulty of implementation on real data size (hundreds of thousands) when reasoning through inference mechanisms using business rules
6

Tran, Hoang Tung. "Automatic tag correction in videos : an approach based on frequent pattern mining". Thesis, Saint-Etienne, 2014. http://www.theses.fr/2014STET4028/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Nous présentons dans cette thèse un système de correction automatique d'annotations (tags) fournies par des utilisateurs qui téléversent des vidéos sur des sites de partage de documents multimédia sur Internet. La plupart des systèmes d'annotation automatique existants se servent principalement de l'information textuelle fournie en plus de la vidéo par les utilisateurs et apprennent un grand nombre de "classifieurs" pour étiqueter une nouvelle vidéo. Cependant, les annotations fournies par les utilisateurs sont souvent incomplètes et incorrectes. En effet, un utilisateur peut vouloir augmenter artificiellement le nombre de "vues" d'une vidéo en rajoutant des tags non pertinents. Dans cette thèse, nous limitons l'utilisation de cette information textuelle contestable et nous n'apprenons pas de modèle pour propager des annotations entre vidéos. Nous proposons de comparer directement le contenu visuel des vidéos par différents ensembles d'attributs comme les sacs de mots visuels basés sur des descripteurs SIFT ou des motifs fréquents construits à partir de ces sacs. Nous proposons ensuite une stratégie originale de correction des annotations basées sur la fréquence des annotations des vidéos visuellement proches de la vidéo que nous cherchons à corriger. Nous avons également proposé des stratégies d'évaluation et des jeux de données pour évaluer notre approche. Nos expériences montrent que notre système peut effectivement améliorer la qualité des annotations fournies et que les motifs fréquents construits à partir des sacs de motifs fréquents sont des attributs visuels pertinents
This thesis presents a new system for video auto tagging which aims at correcting the tags provided by users for videos uploaded on the Internet. Most existing auto-tagging systems rely mainly on the textual information and learn a great number of classifiers (on per possible tag) to tag new videos. However, the existing user-provided video annotations are often incorrect and incomplete. Indeed, users uploading videos might often want to rapidly increase their video’s number-of-view by tagging them with popular tags which are irrelevant to the video. They can also forget an obvious tag which might greatly help an indexing process. In this thesis, we limit the use this questionable textual information and do not build a supervised model to perform the tag propagation. We propose to compare directly the visual content of the videos described by different sets of features such as SIFT-based Bag-Of-visual-Words or frequent patterns built from them. We then propose an original tag correction strategy based on the frequency of the tags in the visual neighborhood of the videos. We have also introduced a number of strategies and datasets to evaluate our system. The experiments show that our method can effectively improve the existing tags and that frequent patterns build from Bag-Of-visual-Words are useful to construct accurate visual features
7

Kellou-Menouer, Kenza. "Découverte de schéma pour les données du Web sémantique". Thesis, Université Paris-Saclay (ComUE), 2017. http://www.theses.fr/2017SACLV047/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Un nombre croissant de sources de données interconnectées sont publiées sur le Web. Cependant, leur schéma peut êtreincomplet ou absent. De plus, les données ne sont pas nécessairement conformes au schéma déclaré. Ce qui rend leur exploitation complexe. Dans cette thèse, nous proposons une approche d’extraction automatique et incrémentale du schéma d’une source à partir de la structure implicite de ses données. Afin decompléter la description des types découverts, nous proposons également une approche de découverte des patterns structurels d’un type. L’approche procède en ligne sans avoir à télécharger ou à parcourir la source. Ce quipeut être coûteux voire impossible car les sources sont interrogées à distance et peuvent imposer des contraintes d’accès, notamment en termes de temps ou de nombre de requêtes. Nous avons abordé le problème de l’annotationafin de trouver pour chaque type un ensemble de labels permettant de rendre compte de sonsens. Nous avons proposé des algorithmes d’annotation qui retrouvent le sens d’un type en utilisant des sources de données de références. Cette approche s’applique aussi bien pour trouver des noms pertinents pour les typesdécouverts que pour enrichir la description des types existants. Enfin, nous nous sommes intéressés à caractériser la conformité entre les données d’une source et le schéma qui les décrit. Nous avons proposé une approche pour l'analyse et l'amélioration de cette conformité et nous avons proposé des facteurs de qualité, les métriques associées, ainsi qu'une extension du schéma permettant de refléter l'hétérogénéité entre les instances d'un type
An increasing number of linked data sources are published on the Web. However, their schema may be incomplete or missing. In addition, data do not necessarily follow their schema. This flexibility for describing the data eases their evolution, but makes their exploitation more complex. In our work, we have proposed an automatic and incremental approach enabling schema discovery from the implicit structure of the data. To complement the description of the types in a schema, we have also proposed an approach for finding the possible versions (patterns) for each of them. It proceeds online without having to download or browse the source. This can be expensive or even impossible because the sources may have some access limitations, either on the query execution time, or on the number of queries.We have also addressed the problem of annotating the types in a schema, which consists in finding a set of labels capturing their meaning. We have proposed annotation algorithms which provide meaningful labels using external knowledge bases. Our approach can be used to find meaningful type labels during schema discovery, and also to enrichthe description of existing types.Finally, we have proposed an approach to evaluate the gap between a data source and itsschema. To this end, we have proposed a setof quality factors and the associated metrics, aswell as a schema extension allowing to reflect the heterogeneity among instances of the sametype. Both factors and schema extension are used to analyze and improve the conformity between a schema and the instances it describes
8

Paganini, Julien. "L'analyse de données génomiques et l'annotation à l'heure des NGS : la bioinformatique 2.0". Thesis, Aix-Marseille, 2015. http://www.theses.fr/2015AIXM4105.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Les récents progrès technologiques en termes de séquençage de données génomiques ont entraîné une forte croissance des données disponibles et l'apparition de nouveaux besoins. Initialement limitée à l'analyse de petite quantité de données, la bioinformatique a dû s'adapter à ce nouveau contexte technologique et scientifique afin de répondre aux nouveaux challenges proposés. Par l'intermédiaire de différents projets réalisés dans des contextes différents, cette thèse s'intègre dans ce changement contextuel où la bioinfomatique n'est plus limitée à l'utilisation successive d'outils à objectifs unitaire entrecoupée d'étapes humaine dépendantes. Focalisés sur le développement de stratégies d'analyse complexes pour le développement ou la mise à disposition d'outils entièrement automatisés et la production de données à haute valeur ajoutée, ces travaux permettent de comprendre le rôle important de la bioinformatique 2.0. Ainsi nous montrerons comment elle doit être à même de répondre à des objectifs précis par l'intermédiaire de stratégies intégrant les concepts de la biologie, les outils bioinformatiques existants et l'expertise humaine associée au domaine. En conclusion nous discuterons du nouveau rôle et de l'impact futur de la bioinformatique 2.0 qui requiert une expertise tant sur le plan biologique qu'informatique adaptée aux données NGS
Recent technological advances in terms of genomic sequencing data led to a strong growth of available data and the emergence of new needs. Initially limited to the analysis of simple sequence or limited amount of data, bioinformatics has to adapt to this new technological and scientific context to meet the new challenges offered. Through different projects in different genomic era, this thesis fits into this contexts change where bioinfomatics is no longer limited to the use of tool with unitary goal and human dependent steps. Focused on the development of complex analysis strategies for the development or the availability of fully automated tools and high-value data, this work introduce the important role of bioinformatics version 2.0. We will show how it is able to answer to precise biological question through specific strategy that integrate all the biological concepts, existing bioinformatics tools and human expertise related to the domain. To conclude, we discuss about the role and the impact of the bioinformatics 2.0 that requires a expert vision at biological and computers level adapted to NGS data
9

Reverdy, Clément. "Annotation et synthèse basée données des expressions faciales de la Langue des Signes Française". Thesis, Lorient, 2019. http://www.theses.fr/2019LORIS550.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
La Langue des Signes Française (LSF) représente une part de l'identité et de la culture de la communauté des sourds en France. L'un des moyens permettant de promouvoir cette langue est la génération de contenu par le biais de personnages virtuels appelés avatars signeurs. Le système que nous proposons s’intègre dans un projet plus général de synthèse gestuelle de la LSF par concaténation qui permet de générer de nouvelles phrases à partir d'un corpus de données de mouvements annotées et capturées via un dispositif de capture de mouvement basé marqueurs (MoCap) en éditant les données existantes. En LSF, l'expressivité faciale est le vecteur de nombreuses informations (e.g., affectives, clausales ou adjectivales), d'où son importance. Cette thèse a pour but d'intégrer l'aspect facial de la LSF au système de synthèse concaténative décrit précédemment. Ainsi, nous proposons une chaîne de traitement de l'information allant de la capture des données via un dispositif de MoCap jusqu'à l'animation faciale de l'avatar à partir de ces données et l'annotation automatique des corpus ainsi constitués. La première contribution de cette thèse concerne la méthodologie employée et la représentation par blendshapes à la fois pour la synthèse d'animations faciales et pour l'annotation automatique. Elle permet de traiter le système d'analyse / synthèse à un certain niveau d'abstraction, avec des descripteurs homogènes et signifiants. La seconde contribution concerne le développement d'une approche d'annotation automatique qui s'appuie sur la reconnaissance d'expressions faciales émotionnelles par des techniques d'apprentissage automatique. La dernière contribution réside dans la méthode de synthèse qui s'exprime comme un problème d'optimisation assez classique mais au sein duquel nous avons inclus une énergie basée laplacien quantifiant les déformations d'une surface en tant qu'énergie de régularisation
French Sign Language (LSF) represents part of the identity and culture of the deaf community in France. One way to promote this language is to generate signed content through virtual characters called signing avatars. The system we propose is part of a more general project of gestural synthesis of LSF by concatenation that allows to generate new sentences from a corpus of annotated motion data captured via a marker-based motion capture device (MoCap) by editing existing data. In LSF, facial expressivity is particularly important since it is the vector of numerous information (e.g., affective, clausal or adjectival). This thesis aims to integrate the facial aspect of LSF into the concatenative synthesis system described above. Thus, a processing pipeline is proposed, from data capture via a MoCap device to facial animation of the avatar from these data and to automatic annotation of the corpus thus constituted. The first contribution of this thesis concerns the employed methodology and the representation by blendshapes both for the synthesis of facial animations and for automatic annotation. It enables the analysis/synthesis scheme to be processed at an abstract level, with homogeneous and meaningful descriptors. The second contribution concerns the development of an automatic annotation method based on the recognition of expressive facial expressions using machine learning techniques. The last contribution lies in the synthesis method, which is expressed as a rather classic optimization problem but in which we have included
10

Casallas-Gutiérrez, Rubby. "Objets historiques et annotations pour les environnements logiciels". Université Joseph Fourier (Grenoble), 1996. http://tel.archives-ouvertes.fr/tel-00004982.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Dans un environnement guidé par les procédés de fabrication de logiciel (EGPFL), la gestion de l'information est un problème complexe qui doit concilier deux besoins: gérer le produit logiciel et gérer les procédés de fabrication. Outre la grande quantité d'entités diverses et fortement interdépendantes, la gestion du produit doit prendre en compte l'aspect évolutif et les facteurs de variation du logiciel, ainsi que la nature coopérative des activités de fabrication des logiciels. La gestion des procédés recouvre la modélisation, l'exécution, l'évaluation et la supervision des procédés. Diverses informations doivent alors être prises en compte: la trace d'exécution des procédés, les événements survenus dans l'environnement et les mesures de qualité. Nous proposons les objets historiques annotés pour gérer l'information d'un EGPFL. L'objet historique constitue la notion de base d'un modèle à objets historique permettant de représenter à la fois les entités logicielles et leur évolution. La notion d'annotation vient, quant à elle, enrichir ce modèle pour permettre d'introduire des informations qui dénotent des faits (notes, mesures, observations, etc) pouvant être ponctuellement associés aux entités de l'EGPFL. Un langage de requêtes est défini afin d'accéder aux différentes informations. Grâce à ce langage, l'EGPFL dispose d'un service puissant pour rassembler, à partir de la base d'objets, les diverses informations nécessaires à l'évaluation et au contrôle des procédés de fabrication. Nous proposons également d'exploiter les possibilités offertes par notre modèle pour définir des événements et, éventuellement, en conserver un historique. Les événements permettent d'identifier des situations liant des informations provenant aussi bien de l'état courant que des états passés de l'EGPFL. C'est pourquoi la définition d'un événement peut comporter des conditions exprimées dans le langage de requêtes. L'emploi d'annotations permet d'enregistrer les occurences d'événements, ainsi qu'une partie de l'état du système. Une implantation du modèle est proposée dans le système Adèle
11

Bayle, Yann. "Apprentissage automatique de caractéristiques audio : application à la génération de listes de lecture thématiques". Thesis, Bordeaux, 2018. http://www.theses.fr/2018BORD0087/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Ce mémoire de thèse de doctorat présente, discute et propose des outils de fouille automatique de mégadonnées dans un contexte de classification supervisée musical.L'application principale concerne la classification automatique des thèmes musicaux afin de générer des listes de lecture thématiques.Le premier chapitre introduit les différents contextes et concepts autour des mégadonnées musicales et de leur consommation.Le deuxième chapitre s'attelle à la description des bases de données musicales existantes dans le cadre d'expériences académiques d'analyse audio.Ce chapitre introduit notamment les problématiques concernant la variété et les proportions inégales des thèmes contenus dans une base, qui demeurent complexes à prendre en compte dans une classification supervisée.Le troisième chapitre explique l'importance de l'extraction et du développement de caractéristiques audio et musicales pertinentes afin de mieux décrire le contenu des éléments contenus dans ces bases de données.Ce chapitre explique plusieurs phénomènes psychoacoustiques et utilise des techniques de traitement du signal sonore afin de calculer des caractéristiques audio.De nouvelles méthodes d'agrégation de caractéristiques audio locales sont proposées afin d'améliorer la classification des morceaux.Le quatrième chapitre décrit l'utilisation des caractéristiques musicales extraites afin de trier les morceaux par thèmes et donc de permettre les recommandations musicales et la génération automatique de listes de lecture thématiques homogènes.Cette partie implique l'utilisation d'algorithmes d'apprentissage automatique afin de réaliser des tâches de classification musicale.Les contributions de ce mémoire sont résumées dans le cinquième chapitre qui propose également des perspectives de recherche dans l'apprentissage automatique et l'extraction de caractéristiques audio multi-échelles
This doctoral dissertation presents, discusses and proposes tools for the automatic information retrieval in big musical databases.The main application is the supervised classification of musical themes to generate thematic playlists.The first chapter introduces the different contexts and concepts around big musical databases and their consumption.The second chapter focuses on the description of existing music databases as part of academic experiments in audio analysis.This chapter notably introduces issues concerning the variety and unequal proportions of the themes contained in a database, which remain complex to take into account in supervised classification.The third chapter explains the importance of extracting and developing relevant audio features in order to better describe the content of music tracks in these databases.This chapter explains several psychoacoustic phenomena and uses sound signal processing techniques to compute audio features.New methods of aggregating local audio features are proposed to improve song classification.The fourth chapter describes the use of the extracted audio features in order to sort the songs by themes and thus to allow the musical recommendations and the automatic generation of homogeneous thematic playlists.This part involves the use of machine learning algorithms to perform music classification tasks.The contributions of this dissertation are summarized in the fifth chapter which also proposes research perspectives in machine learning and extraction of multi-scale audio features
12

Zaag, Rim. "Enrichissement de profils transcriptomiques par intégration de données hétérogènes : annotation fonctionnelle de gènes d'Arabidopsis thaliana impliqués dans la réponse aux stress". Thesis, Université Paris-Saclay (ComUE), 2016. http://www.theses.fr/2016SACLE013/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
À l'ère de la biologie computationnelle, l'annotation fonctionnelle reste un défi central. Les méthodes d’annotation récentes reposent sur l’hypothèse d’association par culpabilité et s’appuient sur l’intégration de données pour la recherche de partenaires fonctionnels. Cependant, la majorité de ces méthodes souffrent de l’hétérogénéité des données et du manque de spécificité du contexte biologique ce qui expliquerait un taux élevé de faux positifs parmi les prédictions. Ce travail de thèse développe une approche intégrative de données moléculaires contrôlant leur hétérogénéité pour annoter des gènes d’Arabidopsis thaliana impliqués dans la réponse aux stress. Les contributions majeures de cette thèse sont: (1) l'annotation fonctionnelle de groupes de gènes coexprimés par l'intégration de données omiques (2) la construction d'un réseau de corégulation par une analyse transversale des groupes coexprimés qui renforce les liens fonctionnels entre les gènes. (3) le développement d’une méthode d’apprentissage supervisé pour l’inférence de fonction centrée sur les termes de la GO Slim en contrôlant le FDR. En identifiant une règle de décision par terme, cette méthode a permis de prédire la fonction de 47 gènes partiellement annotés ou orphelins
In the era of computational biology, functional annotation remains a major challenge. Recent annotation methods are based on the guilt by association assumption and rely on data integration to identify functional partners. However, most of these methods suffer from data heterogeneity and a lack of biological context specificity which would probably explain the high rate of false positives among predictions. This thesis develops an approach of molecular data integration controlling their heterogeneity in order to annotate Arabidopsis thaliana genes involved in stress response. The major contributions of this thesis are: (1) functional annotation of groups of co-expressed genes by omics data integration (2) the construction of a coregulatory gene network through a cross-analysis of the coexpressed groups strengthening the functional links between genes (3) the development of a supervised learning method for the inference of gene function centered on the GO Slim terms with a control of the FDR. By identifying a decision rule by term, this method was used to predict the function of 47 orphan or partially annotated genes
13

Alili, Hiba. "Intégration de données basée sur la qualité pour l'enrichissement des sources de données locales dans le Service Lake". Thesis, Paris Sciences et Lettres (ComUE), 2019. http://www.theses.fr/2019PSLED019.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
De nos jours, d’énormes volumes de données sont créés en continu et les utilisateurs s’attendent à ce que ceux-ci soient collectés, stockés et traités quasiment en temps réel. Ainsi, les lacs de données sont devenus une solution attractive par rapport aux entrepôts de données classiques coûteux et fastidieux (nécessitant une démarche ETL), pour les entreprises qui souhaitent stocker leurs données. Malgré leurs volumes, les données stockées dans les lacs de données des entreprises sont souvent incomplètes voire non mises à jour vis-à-vis des besoins (requêtes) des utilisateurs.Les sources de données locales ont donc besoin d’être enrichies. Par ailleurs, la diversité et l’expansion du nombre de sources d’information disponibles sur le web a rendu possible l’extraction des données en temps réel. Ainsi, afin de permettre d’accéder et de récupérer l’information de manière simple et interopérable, les sources de données sont de plus en plus intégrées dans les services Web. Il s’agit plus précisément des services de données, y compris les services DaaS du Cloud Computing. L’enrichissement manuel des sources locales implique plusieurs tâches fastidieuses telles que l’identification des services pertinents, l’extraction et l’intégration de données hétérogènes, la définition des mappings service-source, etc. Dans un tel contexte, nous proposons une nouvelle approche d’intégration de données centrée utilisateur. Le but principal est d’enrichir les sources de données locales avec des données extraites à partir du web via les services de données. Cela permettrait de satisfaire les requêtes des utilisateurs tout en respectant leurs préférences en terme de coût d’exécution et de temps de réponse et en garantissant la qualité des résultats obtenus
In the Big Data era, companies are moving away from traditional data-warehouse solutions whereby expensive and timeconsumingETL (Extract, Transform, Load) processes are used, towards data lakes in order to manage their increasinglygrowing data. Yet the stored knowledge in companies’ databases, even though in the constructed data lakes, can never becomplete and up-to-date, because of the continuous production of data. Local data sources often need to be augmentedand enriched with information coming from external data sources. Unfortunately, the data enrichment process is one of themanual labors undertaken by experts who enrich data by adding information based on their expertise or select relevantdata sources to complete missing information. Such work can be tedious, expensive and time-consuming, making itvery promising for automation. We present in this work an active user-centric data integration approach to automaticallyenrich local data sources, in which the missing information is leveraged on the fly from web sources using data services.Accordingly, our approach enables users to query for information about concepts that are not defined in the data sourceschema. In doing so, we take into consideration a set of user preferences such as the cost threshold and the responsetime necessary to compute the desired answers, while ensuring a good quality of the obtained results
14

Ghufran, Mohammad. "Découverte et réconciliation de données numeriques relatives aux personnes pour la gestion des ressources humaines". Thesis, Université Paris-Saclay (ComUE), 2017. http://www.theses.fr/2017SACLC062/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
La gestion des ressources humaines est une tâche importante pour toutes les organisations. Avec le nombre de candidatures en augmentation grâce à plusieurs plateformes en ligne, il est souhaitable de faire correspondre automatiquement les candidats avec des offres d’emploi. Les approches existantes utilisent les CVs sans compléter les informations par des recherches sur le Web, notamment le Web social. L’objectif de cette thèse est de surmonter cette limitation et proposer des méthodes pour découvrir des ressources en ligne pertinentes pour un demandeur d’emploi. À cet égard, une nouvelle méthode pour l’extraction d’informations clés à partir des CVs est proposée. Il s’agit d’un problème difficile puisque les CVs peuvent être multilingues et avoir des structures assez variées. En plus, les entités présentes sont suivant ambiguës. L’identification et la réconciliation des ressources en ligne en utilisant les informations clés sont un autre défi. Nous proposons un algorithme pour générer des requêtes et classer les résultats pour obtenir les ressources en ligne les plus pertinentes pour un demandeur d’emploi.. En outre, nous abordons spécifiquement la réconciliation de profils dans les réseaux sociaux grâce à une méthode qui est capable d’identifier les profils de individus à travers différents réseaux. Cette méthode utilise notamment les informations relatives à la localisation géographique des profils. A cet égard, nous proposons un algorithme permettant de désambiguïser les toponymes utilisés dans les profils pour indiquer une localité géographique ; cet algorithme peut être également utilisé pour inférer la localité d’un individu lorsqu’il ne l’a pas renseignée. Des expériences sur des ensembles de données réelles sont menées pour tous les différents algorithmes proposés dans cette thèse qui montrent de bons résultats
Finding the appropriate individual to hire is a crucial part of any organization. With the number of applications increasing due to the introduction of online job portals, it is desired to automatically match applicants with job offers. Existing approaches that match applicants with job offers take resumes as they are and do not attempt to complete the information on a resume by looking for more information on the Internet. The objective of this thesis is to fill this gap by discovering online resources pertinent to an applicant. To this end, a novel method for extraction of key information from resumes is proposed. This is a challenging task since resumes can have diverse structures and formats, and the entities present within are ambiguous. Identification of Web results using the key information and their reconciliation is another challenge. We propose an algorithm to generate queries, and rank the results to obtain the most pertinent online resources. In addition, we specifically tackle reconciliation of social network profiles through a method that is able to identify profiles of individuals across different networks. Moreover, a method to resolve ambiguity in locations, or predict it when absent, is also presented. Experiments on real data sets are conducted for all the different algorithms proposed in this thesis and they show good results
15

Jedidi, Anis. "MODÉLISATION GÉNÉRIQUE DE DOCUMENTS MULTIMÉDIA PAR DES MÉTADONNÉES : MÉCANISMES D'ANNOTATION ET D'INTERROGATION". Phd thesis, Université Paul Sabatier - Toulouse III, 2005. http://tel.archives-ouvertes.fr/tel-00424059.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Dans le cadre de la manipulation et de la description du contenu des documents, mes travaux de thèse consistent à étudier la modélisation générique de documents multimédia par des métadonnées. Nous proposons une approche qui consiste à l'homogénéisation des structures de représentation de tels documents facilitant leur traitement final sans avoir recours aux contenus multimédia eux-mêmes. Nous avons proposé la structuration de ces métadonnées dans des documents XML appelés « méta-documents ». Ces méta-documents représentent une structure supplémentaire par rapport à d'éventuelles structures logiques ou physiques rédigées par les auteurs des documents. Nous avons étendu les méta-documents en intégrant des descripteurs sémantiques définis selon le besoin de l'utilisateur et des relations spatiales et temporelles. Au niveau de l'interrogation des documents multimédia, nous avons proposé un outil d'aide à la formulation graphique de requêtes XQuery en utilisant les métadonnées et en intégrant les relations spatio-temporelles entre ces métadonnées.
16

Diallo, Gayo. "Une architecture à base d'ontologies pour la gestion unifiée des données structurées et non structurées". Université Joseph Fourier (Grenoble), 2006. http://www.theses.fr/2006GRE10241.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Les systèmes d'infonnation des organisations contiennent des données de diverses natures, dispersées dans une grande variété de sources. La gestion unifiée pennet d'offrir un accès unifonne et transparent à cet ensemble hétérogène de sources. Nous nous intéressons à l'intégration de données structurées (bases de données relationnelles) et de données non structurées (sources textuelles, pouvant être multilingues) et particulièrement à la prise en compte de sources textuelles dans une infrastructure de gestion unifiée. L'approche que nous proposons repose sur l'utilisation des technologies du Web sémantique et de différents types d'ontologies. Les ontologies servent d'une part à définir le schéma global d'intégration (ontologie globale) et les différentes sources à intégrer. Les ontologies qui représentent les sources à intégrer sont appelées schémas virtuels de sources ou ontologies locales (obtenues par un processus de rétroingénierie). D'autre part, les ontologies pennettent d'effectuer une représentation hybride de chaque source textuelle qui combine des infonnations de catalogage, les vecteurs de tennes, les vecteurs de concepts et, de façon optionnelle, les entités nommées ; tous ces éléments étant identifiés dans chaque document de la source. Nous avons par ailleurs élaboré une approche de gestion conjointe de plusieurs ontologies à travers un serveur d'ontologies qui sert notamment de support à l'interrogation. Un premier domaine d'application de notre travail a été la gestion de données dans le domaine du cerveau. Nous avons construit ou enrichi des ontologies pour l'organisation des connaissances dans ce domaine, utilisées notamment pour la caractérisation sémantique de sources
Organizations' information systems contain different kinds of data, dispersed in several sources. The purpose of the managing heterogeneous data is to offer a transparent access to this set of sources. We are interested in the management of structured (relational databases) and unstructured "multilingual textual sources") data. We especially describe an approach for taking textual sources into account in an integration system. The approach we propose is based on the use of Semantic Web technologies and different kinds of ontologies. Ontologies are used to define the global schema (global ontology) and the sources to be integrated (local ontologies). Local ontologies are obtained in a semi-automatic way using reverse engineering techniques. Ontologies are also used for the hybrid representation oftextual sources. The hybrid representation combines cataloguing infonnation, vectors oftenns and concepts and optionally named entities identified in documents. We have designed and implemented an ontology server to manage multiple ontologies and support queries. A first application domain of our work has been the brain field. We have developed or enriched ontologies for brain knowledge management and semantic characterization
17

Guillaumin, Matthieu. "Données multimodales pour l'analyse d'image". Phd thesis, Grenoble, 2010. http://www.theses.fr/2010GRENM048.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
La présente thèse s'intéresse à l'utilisation de méta-données textuelles pour l'analyse d'image. Nous cherchons à utiliser ces informations additionelles comme supervision faible pour l'apprentissage de modèles de reconnaissance visuelle. Nous avons observé un récent et grandissant intérêt pour les méthodes capables d'exploiter ce type de données car celles-ci peuvent potentiellement supprimer le besoin d'annotations manuelles, qui sont coûteuses en temps et en ressources. Nous concentrons nos efforts sur deux types de données visuelles associées à des informations textuelles. Tout d'abord, nous utilisons des images de dépêches qui sont accompagnées de légendes descriptives pour s'attaquer à plusieurs problèmes liés à la reconnaissance de visages. Parmi ces problèmes, la vérification de visages est la tâche consistant à décider si deux images représentent la même personne, et le nommage de visages cherche à associer les visages d'une base de données à leur noms corrects. Ensuite, nous explorons des modèles pour prédire automatiquement les labels pertinents pour des images, un problème connu sous le nom d'annotation automatique d'image. Ces modèles peuvent aussi être utilisés pour effectuer des recherches d'images à partir de mots-clés. Nous étudions enfin un scénario d'apprentissage multimodal semi-supervisé pour la catégorisation d'image. Dans ce cadre de travail, les labels sont supposés présents pour les données d'apprentissage, qu'elles soient manuellement annotées ou non, et absentes des données de test. Nos travaux se basent sur l'observation que la plupart de ces problèmes peuvent être résolus si des mesures de similarité parfaitement adaptées sont utilisées. Nous proposons donc de nouvelles approches qui combinent apprentissage de distance, modèles par plus proches voisins et méthodes par graphes pour apprendre, à partir de données visuelles et textuelles, des similarités visuelles spécifiques à chaque problème. Dans le cas des visages, nos similarités se concentrent sur l'identité des individus tandis que, pour les images, elles concernent des concepts sémantiques plus généraux. Expérimentalement, nos approches obtiennent des performances à l'état de l'art sur plusieurs bases de données complexes. Pour les deux types de données considérés, nous montrons clairement que l'apprentissage bénéficie de l'information textuelle supplémentaire résultant en l'amélioration de la performance des systèmes de reconnaissance visuelle
This dissertation delves into the use of textual metadata for image understanding. We seek to exploit this additional textual information as weak supervision to improve the learning of recognition models. There is a recent and growing interest for methods that exploit such data because they can potentially alleviate the need for manual annotation, which is a costly and time-consuming process. We focus on two types of visual data with associated textual information. First, we exploit news images that come with descriptive captions to address several face related tasks, including face verification, which is the task of deciding whether two images depict the same individual, and face naming, the problem of associating faces in a data set to their correct names. Second, we consider data consisting of images with user tags. We explore models for automatically predicting tags for new images, i. E. Image auto-annotation, which can also used for keyword-based image search. We also study a multimodal semi-supervised learning scenario for image categorisation. In this setting, the tags are assumed to be present in both labelled and unlabelled training data, while they are absent from the test data. Our work builds on the observation that most of these tasks can be solved if perfectly adequate similarity measures are used. We therefore introduce novel approaches that involve metric learning, nearest neighbour models and graph-based methods to learn, from the visual and textual data, task-specific similarities. For faces, our similarities focus on the identities of the individuals while, for images, they address more general semantic visual concepts. Experimentally, our approaches achieve state-of-the-art results on several standard and challenging data sets. On both types of data, we clearly show that learning using additional textual information improves the performance of visual recognition systems
18

Guillaumin, Matthieu. "Données multimodales pour l'analyse d'image". Phd thesis, Grenoble, 2010. http://tel.archives-ouvertes.fr/tel-00522278/en/.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
La présente thèse s'intéresse à l'utilisation de méta-données textuelles pour l'analyse d'image. Nous cherchons à utiliser ces informations additionelles comme supervision faible pour l'apprentissage de modèles de reconnaissance visuelle. Nous avons observé un récent et grandissant intérêt pour les méthodes capables d'exploiter ce type de données car celles-ci peuvent potentiellement supprimer le besoin d'annotations manuelles, qui sont coûteuses en temps et en ressources. Nous concentrons nos efforts sur deux types de données visuelles associées à des informations textuelles. Tout d'abord, nous utilisons des images de dépêches qui sont accompagnées de légendes descriptives pour s'attaquer à plusieurs problèmes liés à la reconnaissance de visages. Parmi ces problèmes, la vérification de visages est la tâche consistant à décider si deux images représentent la même personne, et le nommage de visages cherche à associer les visages d'une base de données à leur noms corrects. Ensuite, nous explorons des modèles pour prédire automatiquement les labels pertinents pour des images, un problème connu sous le nom d'annotation automatique d'image. Ces modèles peuvent aussi être utilisés pour effectuer des recherches d'images à partir de mots-clés. Nous étudions enfin un scénario d'apprentissage multimodal semi-supervisé pour la catégorisation d'image. Dans ce cadre de travail, les labels sont supposés présents pour les données d'apprentissage, qu'elles soient manuellement annotées ou non, et absentes des données de test. Nos travaux se basent sur l'observation que la plupart de ces problèmes peuvent être résolus si des mesures de similarité parfaitement adaptées sont utilisées. Nous proposons donc de nouvelles approches qui combinent apprentissage de distance, modèles par plus proches voisins et méthodes par graphes pour apprendre, à partir de données visuelles et textuelles, des similarités visuelles spécifiques à chaque problème. Dans le cas des visages, nos similarités se concentrent sur l'identité des individus tandis que, pour les images, elles concernent des concepts sémantiques plus généraux. Expérimentalement, nos approches obtiennent des performances à l'état de l'art sur plusieurs bases de données complexes. Pour les deux types de données considérés, nous montrons clairement que l'apprentissage bénéficie de l'information textuelle supplémentaire résultant en l'amélioration de la performance des systèmes de reconnaissance visuelle.
19

Alborzi, Seyed Ziaeddin. "Automatic Discovery of Hidden Associations Using Vector Similarity : Application to Biological Annotation Prediction". Thesis, Université de Lorraine, 2018. http://www.theses.fr/2018LORR0035/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Cette thèse présente: 1) le développement d'une nouvelle approche pour trouver des associations directes entre des paires d'éléments liés indirectement à travers diverses caractéristiques communes, 2) l'utilisation de cette approche pour associer directement des fonctions biologiques aux domaines protéiques (ECDomainMiner et GODomainMiner) et pour découvrir des interactions domaine-domaine, et enfin 3) l'extension de cette approche pour annoter de manière complète à partir des domaines les structures et les séquences des protéines. Au total, 20 728 et 20 318 associations EC-Pfam et GO-Pfam non redondantes ont été découvertes, avec des F-mesures de plus de 0,95 par rapport à un ensemble de référence Gold Standard extrait d'une source d'associations connues (InterPro). Par rapport à environ 1500 associations déterminées manuellement dans InterPro, ECDomainMiner et GODomainMiner produisent une augmentation de 13 fois le nombre d'associations EC-Pfam et GO-Pfam disponibles. Ces associations domaine-fonction sont ensuite utilisées pour annoter des milliers de structures de protéines et des millions de séquences de protéines pour lesquelles leur composition de domaine est connue mais qui manquent actuellement d'annotations fonctionnelles. En utilisant des associations de domaines ayant acquis des annotations fonctionnelles inférées, et en tenant compte des informations de taxonomie, des milliers de règles d'annotation ont été générées automatiquement. Ensuite, ces règles ont été utilisées pour annoter des séquences de protéines dans la base de données TrEMBL
This thesis presents: 1) the development of a novel approach to find direct associations between pairs of elements linked indirectly through various common features, 2) the use of this approach to directly associate biological functions to protein domains (ECDomainMiner and GODomainMiner), and to discover domain-domain interactions, and finally 3) the extension of this approach to comprehensively annotate protein structures and sequences. ECDomainMiner and GODomainMiner are two applications to discover new associations between EC Numbers and GO terms to protein domains, respectively. They find a total of 20,728 and 20,318 non-redundant EC-Pfam and GO-Pfam associations, respectively, with F-measures of more than 0.95 with respect to a “Gold Standard” test set extracted from InterPro. Compared to around 1500 manually curated associations in InterPro, ECDomainMiner and GODomainMiner infer a 13-fold increase in the number of available EC-Pfam and GO-Pfam associations. These function-domain associations are then used to annotate thousands of protein structures and millions of protein sequences for which their domain composition is known but that currently lack experimental functional annotations. Using inferred function-domain associations and considering taxonomy information, thousands of annotation rules have automatically been generated. Then, these rules have been utilized to annotate millions of protein sequences in the TrEMBL database
20

García-Flores, Jorge Juárez. "Annotation sémantique des spécifications informatiques de besoins par la méthode d'Exploration Contextuelle : une contribution des méthodes linguistiques aux conceptions de logiciels". Paris 4, 2007. http://www.theses.fr/2007PA040015.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
La spécification de besoins est une activité fondamentale dans l’ensemble des méthodes de conception et mise en œuvre des systèmes informatiques. Cette thèse présente une méthode d’annotation sémantique des textes de Spécification de Besoins Informatiques (SBI) pour assister la conception de logiciels ; une méthode dont les annotations, de nature sémantique, puissent être exploitées pour l’aide à l’extraction, à la modélisation ou la validation de besoins. Le but de l’annotation est de repérer automatiquement les phrases qui, dans un texte, expriment des actions, et d’y extraire les circonstances de l’action (contrôleur, finalité, contraintes). Pour y parvenir, on a effectué une analyse discursive des moyens d’expression de l’action sur des textes de SBI industriels en français et en espagnol. Cette analyse, d’inspiration linguistique, s’appui sur la méthode d’Exploration Contextuelle et la théorie de la Grammaire Applicative et Cognitive pour proposer 1) une typologie de verbes de spécification de besoins informatiques, 2) une base de marqueurs linguistiques de l’action organisé sous forme des règles d’Exploration Contextuelle, et 3) l’implémentation informatique de ces règles dans le système d’annotation EXCOM et l’annotation d’un corpus de textes de SBI industriels en français et en espagnol
This PhD research proposes a linguistic oriented annotation method to support requirements engineering activities (requirements elicitation, validation or modelling). Our approach presents a method for the automatic extraction of action sentences from software requirements specifications (SRS). Its aim is to annotate actions sentences from industrial SRS documents, and to recognize action parameters (action’s controller, goal and constraints). It presents a linguistic analysis of action markers and a technique to automatically annotate action sentences by means of Contextual Exploration rules. Discourse analysis of SRS is based on the Cognitive and Applicative Grammar linguistic theory. The main results our work are : 1) a typology of action verbs for requirements specifications, 2) a base of linguistic markers and rules for semantic annotation of actions on SRS documents, and 3) an implementations of this rules on the EXCOM semantic annotation system, which automatically attributes action annotations to a corpora of commercial (French and Spanish) SRS documents
21

Naert, Lucie. "Capture, annotation and synthesis of motions for the data-driven animation of sign language avatars". Thesis, Lorient, 2020. http://www.theses.fr/2020LORIS561.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Cette thèse porte sur la capture, l'annotation, la synthèse et l'évaluation des mouvements des mains et des bras pour l'animation d'avatars communiquant en Langues des Signes (LS). Actuellement, la production et la diffusion de messages en LS dépendent souvent d'enregistrements vidéo qui manquent d'informations de profondeur et dont l’édition et l'analyse sont difficiles. Les avatars signeurs constituent une alternative prometteuse à la vidéo. Ils sont généralement animés soit à l'aide de techniques procédurales, soit par des techniques basées données. L'animation procédurale donne souvent lieu à des mouvements peu naturels, mais n'importe quel signe peut être produit avec précision. Avec l’animation basée données, les mouvements de l'avatar sont réalistes mais la variété des signes pouvant être synthétisés est limitée et/ou biaisée par la base de données initiale. Privilégiant l’acceptation de l’avatar, nous avons choisi l'approche basée sur les données mais, pour remédier à sa principale limitation, nous proposons d'utiliser les mouvements annotés présents dans une base de mouvements de LS capturés pour synthétiser de nouveaux signes et énoncés absents de cette base. Pour atteindre cet objectif, notre première contribution est la conception, l'enregistrement et l'évaluation perceptuelle d'une base de données de capture de mouvements en Langue des Signes Française (LSF) composée de signes et d'énoncés réalisés par des enseignants sourds de LSF. Notre deuxième contribution est le développement de techniques d'annotation automatique pour différentes pistes d’annotation basées sur l'analyse des propriétés cinématiques de certaines articulations et des algorithmes d'apprentissage automatique existants. Notre dernière contribution est la mise en œuvre de différentes techniques de synthèse de mouvements basées sur la récupération de mouvements par composant phonologique et sur la reconstruction modulaire de nouveaux contenus de LSF avec l'utilisation de techniques de génération de mouvements, comme la cinématique inverse, paramétrées pour se conformer aux propriétés des mouvements réels
This thesis deals with the capture, annotation, synthesis and evaluation of arm and hand motions for the animation of avatars communicating in Sign Languages (SL). Currently, the production and dissemination of SL messages often depend on video recordings which lack depth information and for which editing and analysis are complex issues. Signing avatars constitute a powerful alternative to video. They are generally animated using either procedural or data-driven techniques. Procedural animation often results in robotic and unrealistic motions, but any sign can be precisely produced. With data-driven animation, the avatar's motions are realistic but the variety of the signs that can be synthesized is limited and/or biased by the initial database. As we considered the acceptance of the avatar to be a prime issue, we selected the data-driven approach but, to address its main limitation, we propose to use annotated motions present in an SL Motion Capture database to synthesize novel SL signs and utterances absent from this initial database. To achieve this goal, our first contribution is the design, recording and perceptual evaluation of a French Sign Language (LSF) Motion Capture database composed of signs and utterances performed by deaf LSF teachers. Our second contribution is the development of automatic annotation techniques for different tracks based on the analysis of the kinematic properties of specific joints and existing machine learning algorithms. Our last contribution is the implementation of different motion synthesis techniques based on motion retrieval per phonological component and on the modular reconstruction of new SL content with the additional use of motion generation techniques such as inverse kinematics, parameterized to comply to the properties of real motions
22

Dufresne, Yoann. "Algorithmique pour l’annotation automatique de peptides non ribosomiques". Thesis, Lille 1, 2016. http://www.theses.fr/2016LIL10147/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
La composition monomérique de polymères joue un rôle essentiel dans la comparaison de structures et dans la biologie de synthèse. Cependant, la plupart des ressources moléculaires en ligne donne accès à la structure atomique des molécules et non à leur structure monomérique. Nous avons donc créé un logiciel appelé smiles2monomers (s2m) pour inférer la structure monomérique passer des atomes aux monomères. L’algorithme sous-jacent se déroule en deux phases : une phase de recherche par isomorphisme de sous graphe des monomères au sein de la structure atomique puis une recherche du meilleur pavage non chevauchant des monomères trouvés. La recherche est basée sur un index markovien améliorant les vitesses de recherche de 30% par rapport à l’état de l’art. Le pavage est lui constitué d’un algorithme glouton couplé à un raffinement par “branch & cut”. s2m a été testé sur deux jeux de données déjà annotés. Il retrouve les annotations manuelles avec une excellente sensibilité en des temps très courts. Notre équipe développe Norine, base de données de référence de polymères particuliers appelés Peptides Non Ribosomiques (NRP). s2m, exécuté sur l’ensemble des données de Norine, a mis à jour de nombreuses annotations erronées en base. s2m est donc à la fois capable de créer de nouvelles annotations et d’en corriger des anciennes. Les nouvelles annotations nous servent à la fois à découvrir de nouveaux NRP, de nouvelles fonctionnalités NRP et potentiellement dans le futur à synthétiser des NRP non naturels
The monomeric composition of polymers is powerful for structure comparison and synthetic biology, among others. However, most of the online molecular resources only provide atomic structures but not monomeric structures. So, we designed a software called smiles2monomers (s2m) to infer monomeric structures from chemical ones. The underlying algorithm is composed of two steps: a search of the monomers using a subgraph isomorphism algorithm fitted to our data and a tiling algorithm to obtain the best coverage of the polymer by non-overlapping monomers. The search is based on a Markovian index improving the execution time by 30% compared to the state of art. The tiling is performed using a greedy algorithm refined by a “branch & cut” algorithm. s2m had been tested on two different already annotated datasets. The software reconstructed the manual annotations with an excellent sensibility in a very short time. Norine database, the reference knowledge base about specific polymers called Non Ri bosomal Peptides (NRP), is developed by our research group. s2m, executed on the Norine database, alerted us about wrong manual annotations. So, s2m not only creates new annotations, but also facilitates the process of annotation curation. The new annotations generated by the software are currently used for the discovery of new NRP, new activities and may be used to create completely new and artificial NRP
23

Gagnon, Mathieu. "Vers une méthode d’acquisition et d’analyse de données pour le dépistage précoce de la maladie d’Alzheimer dans un environnement intelligent". Mémoire, Université de Sherbrooke, 2018. http://hdl.handle.net/11143/11832.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Dans les pays développés comme le Canada, on remarque de plus en plus un vieillissement de la population et parallèlement une augmentation du nombre de personnes atteintes de déficiences cognitives. La cause la plus répandue est la démence de type Alzheimer (DTA), aussi connue sous le nom de maladie d’Alzheimer. Les incapacités cognitives causées par la DTA entraînent des difficultés dans les Activités Instrumentales de la Vie Quotidienne (AIVQ). Certains chercheurs considèrent qu'il existe des marqueurs cognitifs propres à la DTA, c’est-à-dire que les personnes atteintes peuvent présenter des difficultés cognitives observables lors de la réalisation de tâches complexes bien des années avant son diagnostic. Un habitat intelligent, muni de capteurs de mouvements, débitmètres, capteurs de contacts pour portes et tiroirs, permet de mesurer divers aspects de la performance dans la vie quotidienne lors de la réalisation d’une AIVQ. Partant de ce constat, nos travaux explorent comment des habitats intelligents pourraient permettre de détecter la DTA de façon précoce. Dans cette optique, nous proposons une méthodologie expérimentale rigoureuse. Tout d’abord, nous avons conçu, implémenté et déployé un système d’acquisition de données hétérogènes fiable intégrant réseaux de capteurs variés, vidéos de l'expérimentation et annotations de l'expérimentateur. Ensuite, nous avons exploré divers algorithmes de classification pour distinguer trois catégories de participants : sans troubles cognitifs, avec troubles cognitifs légers et avec DTA. Bien que l’acquisition des données soit complexifiée par la multiplication des sources, notre approche permet la validation des données acquises. Cet aspect est important car la qualité de ces données, acquises lors des expérimentations, influence grandement la performance des algorithmes de classification. Finalement, ce projet étudie comment réaliser et comparer les données et les résultats d’expérimentations menées sur des sites différents en termes de configuration spatiale, de densité et de positionnement des capteurs. C’est pourquoi des expérimentations avec des personnes âgées se sont déroulées aux laboratoires DOMUS (Sherbrooke) et du CRIUGM (Montréal). Les expérimentations ont utilisé le même protocole d’expérimentation où des participants ont eu un temps déterminé pour réaliser la même liste de tâches. Les participants ont été recrutés et séparés en trois groupes selon leur diagnostic : sujets sains, sujets atteints d’un trouble cognitif léger (TCL) et sujets atteints de démence de type Alzheimer (DTA). Les données recueillies ont ensuite été annotées et traitées en vue d’une analyse à l’aide de techniques d’apprentissage automatique. Une première approche de classification par arbre de décision simple a permis d’observer une différence significative entre les données d’expérimentation des personnes saines et celles des personnes TCL. Par contre, aucune différence claire n’est apparue entre les personnes DTA et les autres catégories. En conclusion, d’autres représentations de données et d’autres algorithmes sont toujours en cours d’exploration par d’autres membres de notre équipe. Les résultats préliminaires semblent prometteurs.
24

Hayer, Juliette. "Développement d'une base de connaissances du virus de l'hépatite B, HBVdb, pour l'étude de la résistance aux traitements : intégration d'outils d'analyses de séquences et application à la modélisation moléculaire de la polymérase". Thesis, Lyon 1, 2013. http://www.theses.fr/2013LYO10023/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Nous avons développé la base HBVdb (http://hbvdb.ibcp.fr) pour permettre aux chercheurs d'étudier les caractéristiques génétiques et la variabilité des séquences du virus de l'hépatite B (VHB), ainsi que la résistance virale aux traitements. HBVdb contient une collection de séquences annotées automatiquement sur la base de génomes de référence annotés manuellement, ce qui assure une nomenclature normalisée pour toutes les entrées de la base. HBVdb est accessible via un site Web dédié avec des outils d'analyses génériques et spécialisés (annotation, génotypage, détection de profils de résistance), et des jeux de données pré-calculés. La polymérase du VHB est la principale cible des traitements anti-VHB. Les analogues de nucléos(t)ides (NA) inhibent l'activité de la transcriptase inverse (RT), mais il existe des mutations de résistance aux NA. Cependant, un autre domaine enzymatique pourrait être une cible potentielle : la RNase H, liée au domaine RT, permettant la dégradation de l'ARN durant la transcription inverse. Pour pallier l'absence d'une structure expérimentale résolue, et grâce à l'analyse de séquences à partir de HBVdb, nous avons construit le modèle par homologie de la RNase H, qui a permis de définir les caractéristiques de cette RNase H de type 1. Enfin pour vérifier des hypothèses émises à partir de ce modèle, et pour le placer dans son contexte, nous avons construit un modèle plus étendu de la polymérase du VHB, qui comprend la les domaines RT et RNase H, et contribue à répondre à la question sur l'existence d'un domaine de connexion les reliant. Nous avons utilisé notre modèle pour analyser les interactions entre le site catalytique de la RT et le ténofovir
We developed HBVdb (http://hbvdb.ibcp.fr) to allow researchers to investigate the geneticcharacteristics and variability of the HBV sequences and viral resistance to treatment. HBVdb contains a collection of computer-annotated sequences based on manually annotated reference genomes. The automatic annotation procedure ensures standardized nomenclature for all HBV entries across the database. HBVdb is accessible through a dedicated website integrating generic and specialized analysis tools (annotation, genotyping, resistance profile detection), and pre- computed datasets. The HBV polymerase is the main target of anti-HBV drugs, nucleos(t)ides analogues (NA), which inhibit the activity of reverse transcriptase (RT), but NA resistance mutations appeared. Nevertheless, another enzymatic domain could be a potential drug target: RNase H domain, linked to RT, and involved in degradation of the RNA during the reverse transcription. To overcome the lack of experimental solved structure, thanks to sequences analysis from HBVdb, we built an homology model of RNase H, which helped to define the features of this type 1 RNase H. Finally, to confirm assumptions from this model and to put it in a more global context, we built an extensive HBV polymerase model, which includes the RT and RNase H domains, and helps to answer the question about the existence of connection domain linking them. We performed analyses on this model, regarding the interactions between the RT catalytic site and the Tenofovir, mapping known resistance mutations and the most variables positions of the HBV polymerase
25

Derathé, Arthur. "Modélisation de la qualité de gestes chirurgicaux laparoscopiques". Thesis, Université Grenoble Alpes, 2020. https://thares.univ-grenoble-alpes.fr/2020GRALS021.pdf.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
La chirurgie laparoscopique est une pratique de plus en plus communément utilisée dans différentes spécialités chirurgicales, du fait des grands avantages pour le patient en termes de complications et de temps d’hospitalisation. En revanche, cette pratique est très différente de la chirurgie dite « ouverte », et présente ses propres difficultés, notamment dans la manipulation des instruments chirurgicaux, et la maîtrise de l’espace opératoire. Une meilleure compréhension du geste chirurgical en laparoscopie permettrait d’améliorer les outils utilisés pour la formation des jeunes chirurgiens.L’objectif de ce travail était de développer et valider une méthode visant à expliquer certains aspects clés de la pratique du geste chirurgical en termes cliniques, à partir d’une approche algorithmique. La compréhension du contexte clinique de cette thèse étant essentielle, un important travail d’explicitation et de formalisation des connaissances du chirurgien a été effectué. La deuxième partie de ce travail a consisté à développer une méthode algorithmique visant à prédire la qualité du geste chirurgical et le chirurgien pratiquant. Enfin à travers l’analyse de données décrivant la qualité et la pratique du geste chirurgical, nous avons étudié et validé la pertinence clinique de nouveaux éléments de connaissances cliniques.Nous avons travaillé sur une cohorte de 30 patients opérés par gastrectomie longitudinale au sein du département de chirurgie digestive du CHU de Grenoble. Cette technique chirurgicale est aujourd’hui communément utilisé pour traiter les patients atteints d’obésité morbide ou accompagné de comorbidités. Grâce à une réflexion commune avec notre partenaire chirurgien, nous avons pu formaliser les notions importantes de cette procédure chirurgicale. Pour chacune des chirurgies de la cohorte, nous avons effectué trois annotations distinctes : une annotation de la procédure et des actions des mains du chirurgien, une évaluation de la qualité d’exposition de la scène chirurgicale à chaque geste de dissection effectué par le chirurgien, et enfin la segmentation complète de l’image associée à chacun des gestes de dissection évalués. L’annotation de la procédure et la segmentation ont rendu possible l’extraction de métriques caractéristiques du geste et de la scène chirurgicale.Ensuite, nous avons développé un algorithme dont l’objectif était la prédiction de la qualité d’exposition à partir des métriques. Nous avons également développé un environnement dédié à l’optimisation des hyper-paramètres de notre algorithme pour maximiser les performances en prédiction. L’intérêt de cet environnement était notamment de gérer les spécificités de notre jeu de données.Dans un troisième temps, nous avons mis en place une méthode permettant de confronter l’analyse algorithmique quantitative de nos données à l’expertise clinique des chirurgiens ayant effectué les chirurgies. Pour ce faire, nous avons d’abord extrait les variables les plus importantes pour notre tâche de prédiction. Puis nous avons traduit l’information portée par ces variables sous forme d’énoncés présentant une signification clinique. Enfin nous avons extrait des échantillons vidéos représentatifs de chacun de ces énoncés. A partir de ces énoncés accompagnés de leurs échantillons vidéos, nous avons pu construire un questionnaire de validation, et le présenter à nos partenaires chirurgiens. Nous avons ainsi mené une validation clinique visant à recueillir leur avis quant à la pertinence clinique de notre approche.Nous avons donc proposé une méthode d'analyse quantitative explicitant le lien entre des observations visuelles et temporelles et des critères cliniques relatifs à des chirurgies laparoscopiques. Une meilleure compréhension de ces liens permettrait, à terme, de proposer des systèmes d'aide à la formation des chirurgiens sur cette pratique complexe.hick up
Sous cœlioscopie, le traitement chirurgical permet une meilleure prise en charge du patient, et sa pratique est de plus en plus fréquente en routine clinique. Cette pratique présente néanmoins ses difficultés propres pour le chirurgien, et nécessite une formation prolongée pendant l’internat et en post-internat. Pour faciliter cette formation, il est notamment possible de développer des outils d’évaluation et d’analyse de la pratique chirurgicale.Dans cette optique, l’objectif de ce travail de thèse est d’étudier la faisabilité d’une méthodologie proposant, à partir d’un traitement algorithmique, des analyses à portée clinique pertinente pour le chirurgien. J’ai donc traité les problèmes suivants : Il m’a fallu recueillir et annoter un jeu de données, implémenter un environnement d’apprentissage dédié à la prédiction d’un aspect spécifique de la pratique chirurgicale, et proposer une approche permettant de traduire mes résultats algorithmiques sous une forme pertinente pour le chirurgien. Dès que cela était possible, nous avons cherché à valider ces différentes étapes de la méthodologie
26

Hacid, Kahina. "Handling domain knowledge in system design models. An ontology based approach". Phd thesis, Toulouse, INPT, 2018. http://oatao.univ-toulouse.fr/20157/7/HACID_kahina.pdf.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Complex systems models are designed in heterogeneous domains and this heterogeneity is rarely considered explicitly when describing and validating processes. Moreover, these systems usually involve several domain experts and several design models corresponding to different analyses (views) of the same system. However, no explicit information regarding the characteristics neither of the domain nor of the performed system analyses is given. In our thesis, we propose a general framework offering first, the formalization of domain knowledge using ontologies and second, the capability to strengthen design models by making explicit references to the domain knowledgeformalized in these ontology. This framework also provides resources for making explicit the features of an analysis by formalizing them within models qualified as ‘’points of view ‘’. We have set up two deployments of our approach: a Model Driven Engineering (MDE) based deployment and a formal methods one based on proof and refinement. This general framework has been validated on several no trivial case studies issued from system engineering.
27

Krömer, Cora Felicitas. "Crise de lecture : la lecture, une idée neuve à l'ère du numérique ? : Le cas des ouvrages de fiction et de leurs commentaires en ligne". Thesis, Le Mans, 2020. http://www.theses.fr/2020LEMA3010.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Le numérique transforme la production, la circulation et la réception de la culture écrite. Ces mutations offrent une occasion propice à l’examen des pratiques de lecture, dont on déplore régulièrement le déclin, et du moment charnière en SHS – nouveaux objets, terrains et méthodes – auquel cet examen nous confronte. Partant de la question, toujours sans réponse – pourquoi et comment lisons-nous ? –, cette thèse analyse des expériences de lecture ordinaires partagées à travers des critiques postées sur la communauté de lecteurs en ligne, Babelio. Elle teste les potentialités et limites d’une méthodologie ad hoc, une approche mixte déployant des méthodes quali-quantitatives et assistées par ordinateur (base de données et text mining). Le recours aux travaux préalables, issus de diverses disciplines au sein des SHS, sur la lecture et sur les échanges littéraires, permet d’approfondir la compréhension des nouvelles modalités associées au phénomène de la lecture à l’ère du numérique. La confrontation des commentaires critiques aux notions théoriques sur l’acte et les effets de lecture permet : de souligner l’importance et le goût du partage en ligne pour les lecteurs ainsi que son exploitation marchande par les réseaux sociaux consacrés à cette activité culturelle ; de vérifier la valeur expérimentale des concepts de coopération entre texte et lecteur, d’immersion, de plaisir de lecture sur support imprimé. Ainsi, dans la sphère littéraire numérique, ce n’est pas forcément la lecture elle-même qui s’avère être une idée neuve mais davantage la possibilité du partage entre pairs au sein de communautés spécifiques en ligne
Digital technology is transforming the production, circulation and reception of written culture. These changes provide an opportunity to examine reading practices, whose decline is regularly deplored, and the pivotal moment in HSS– new objects, terrains and methods– that this examination confronts us with. Starting from the question, still unanswered– why and how do people read?– this thesis analyses ordinary reading experiences shared through reviews posted on the online reader community Babelio. It tests the potentialities and limits of an ad hoc methodology, a mixed-methods approach deploying quali-quantitative and computer-assisted methods (database and text mining). The use of preliminary work on reading and literary exchanges, coming from various disciplines in the humanities, enables a deeper understanding of the new modalities associated with the phenomenon of reading in the digital age. The confrontation of critical commentaries with theoretical notions on the act and effects of reading makes it possible to: underline the importance and taste for online sharing of readers as well as its commercial exploitation by social networks dedicated to this cultural activity; verify the experimental value of the concepts of cooperation between text and reader, of immersion, and of pleasures of reading on printed media. Thus, in the digital literary sphere, it is not necessarily reading itself that proves to be a new idea, but rather the possibility of sharing between peers within specific online communities
28

Singh, Dory. "Extraction des relations de causalité dans les textes économiques par la méthode de l’exploration contextuelle". Thesis, Paris 4, 2017. http://www.theses.fr/2017PA040155.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
La thèse décrit un processus d’extraction d’informations causales dans les textes économiques qui, contrairement à l’économétrie, se fonde essentiellement sur des ressources linguistiques. En effet, l’économétrie appréhende la notion causale selon des modèles mathématiques et statistiques qui aujourd’hui sont sujets à controverses. Aussi, notre démarche se propose de compléter ou appuyer les modèles économétriques. Il s’agit d’annoter automatiquement des segments textuels selon la méthode de l’exploration contextuelle (EC). L’EC est une stratégie linguistique et computationnelle qui vise à extraire des connaissances selon un point de vue. Par conséquent, cette contribution adopte le point de vue discursif de la causalité où les catégories sont structurées dans une carte sémantique permettant l’élaboration des règles abductives implémentées dans les systèmes EXCOM2 et SEMANTAS
The thesis describes a process of extraction of causal information, which contrary to econometric, is essentially based on linguistic knowledge. Econometric exploits mathematic or statistic models, which are now, subject of controversy. So, our approach intends to complete or to support the econometric models. It deals with to annotate automatically textual segments according to Contextual Exploration (CE) method. The CE is a linguistic and computational strategy aimed at extracting knowledge according to points of view. Therefore, this contribution adopts the discursive point of view of causality where the categories are structured in a semantic map. These categories allow to elaborate abductive rules implemented in the systems EXCOM2 and SEMANTAS
29

Thuilier, Juliette. "Contraintes préférentielles et ordre des mots en français". Phd thesis, Université Paris-Diderot - Paris VII, 2012. http://tel.archives-ouvertes.fr/tel-00781228.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Cette thèse propose une approche expérimentale de la linguistique à travers l'étude de la notion de contrainte préférentielle et son application à deux phénomènes d'ordre en français : la position de l'adjectif épithète ainsi que l'ordre relatif des deux compléments sous-catégorisés par le verbe et apparaissant en position postverbale. Les contraintes préférentielles sont définies comme des contraintes qui n'affectent pas la grammaticalité mais l'acceptabilité des phrases. Nous émettons l'hypothèse selon laquelle ces contraintes constituent des propriétés spécifiques à la langue dont il faut rendre compte dans le champ de la linguistique. Sur le plan méthodologique, l'étude de ces contraintes est rendue problématique par leur nature : étant donné qu'elles n'agissent pas sur la grammaticalité des phrases, elles échappent aux méthodes traditionnelles de la syntaxe (introspection et jugement de grammaticalité). Il est donc nécessaire de définir des outils permettant leur description et leur analyse. Les méthodes envisagées sont l'analyse statistique de données de corpus, inspirée des travaux de Bresnan et al. (2007) et de Bresnan & Ford (2010), et, dans une moindre mesure, l'expérimentation psycholinguistique. En ce qui concerne la position de l'adjectif, nous testons la plupart des contraintes rencontrées dans la littérature et nous proposons une analyse statistique de données extraites du corpus French Treebank. Nous montrons notamment l'importance de l'item adjectival ainsi que de l'item nominal avec lequel il se combine. Certaines contraintes syntaxiques concernant la configuration du syntagme adjectival et du syntagme nominal jouent également un rôle dans le choix de la position. Le travail concernant l'ordre relatif des compléments du verbe est mené sur un échantillon de phrases extraites de deux corpus journalistiques (French Treebank et Est-Républicain) et de deux corpus d'oral (ESTER et C-ORAL-ROM). Nous montrons l'importante influence du poids des constituants dans le choix de l'ordre : l'ordre court avant long, caractéristique d'une langue SVO comme le français, est respecté dans plus de 86% des cas. Nous mettons également à jour le rôle fondamental du lemme verbal associé à sa classe sémantique, annotée à partir du dictionnaire de Dubois & Dubois-Charlier (1997). Enfin, en nous appuyant sur l'analyse des données de corpus ainsi que sur deux questionnaires d'élicitation de jugement d'acceptabilité, il semble que ni caractère animé, ni l'opposition 'donné/nouveau' (Prince, 1981) n'ait une influence sur l'ordre des compléments, ce qui semble aller à l'encontre d'observations faites dans d'autres langues comme l'anglais ou l'allemand.
30

El, Khelifi Aymen. "Approche générique d’extraction automatique des événements et leur exploitation". Thesis, Paris 4, 2012. http://www.theses.fr/2012PA040189.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Dans le cadre de notre thèse, nous avons proposé une approche générique d’extraction automatique des événements et de leur exploitation. L’approche est organisée en quatre composantes indépendantes et réutilisables. Une première composante de prétraitement, où les textes sont nettoyés et segmentés. Au cours de la seconde étape, les événements sont extraits en sebasant sur notre algorithme AnnotEC qui dispose d’une complexité polynomiale et qui est associé à des cartes sémantiques et des ressources linguistiques dédiées. Nous avons mis en place deux nouvelles mesures de similarité SimCatégoreille et SimEvent pour regrouper les événementssimilaires dans le cadre de la troisième composante de clustering. Les annotations, ajoutées tout au long des trois premières étapes, sont exploitées au niveau de la dernière composante par le bais des fichiers de synthèse paramétrables par l’utilisateur.L’approche a été évaluée sur un corpus issu du Web 2.0. Nous avons comparé les résultats avec des méthodes d’apprentissage automatique et des méthodes linguistiques par compilation et nous avons obtenu de meilleurs résultats
In the framework of our thesis, we proposed a generic approach for the automatic extraction of events and their exploitation. This approach is divided into four independent and reusable components. The first component of pretreatment, in which texts are cleaned and segmented. During the second stage, events are extracted based on our algorithm AnnotEC which has polynomial complexity. AnnotEC is associated with semantic maps and dedicated linguistic resources. We have proposed two new similarity measures SimCatégoreille and SimEvent to group similar events using clustering algorithms.Annotations, added throughout the first three steps, are used at the last component by summarizing files configurable by users. The approach was evaluated on a corpus of Web 2.0, we compared the obtained results with machine learning methods and linguistic compiling methods and we got good results
31

Muzeau, Julien. "Système de vision pour la sécurité des personnes sur les remontées mécaniques". Thesis, Université Grenoble Alpes, 2020. http://www.theses.fr/2020GRALT075.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Devant l'augmentation de la fréquentation des domaines skiables et la multiplication des accidents sur les remontées mécaniques imputés au comportement humain, la sécurité est devenue un enjeu majeur des gérants de stations.Pour lutter contre ce phénomène, la start-up grenobloise Bluecime a développé un système de vision par ordinateur, baptisé SIVAO, capable de détecter une situation dangereuse lors de l'embarquement d'une remontée mécanique. Le fonctionnement du système se décompose en trois étapes. D'abord, le siège (ou véhicule) est détecté dans l'image. Par la suite, la présence de skieurs sur ce dernier est confirmée ou infirmée. Enfin, la position du garde-corps est déterminée. Si des passagers sont présents sur le véhicule et si le garde-corps n'est pas abaissé, alors la situation est considérée comme dangereuse. Dans ce cas, une alarme est déclenchée afin d'alerter les skieurs ou l'opérateur qui peut alors ralentir le télésiège pour sécuriser le véhicule.Malgré des résultats convaincants, de nombreuses difficultés s'opposent à SIVAO : variabilités diverses (taille du véhicule, orientation de l’embarquement, conditions météorologiques, nombre de passagers), vibrations de la caméra, configuration complexe dans le cadre d'une nouvelle installation, etc.Le projet MIVAO, en partenariat avec le laboratoire Hubert Curien, l'entreprise Bluecime et le groupe Sofival, a donc vu le jour dans le but de pallier les difficultés précédentes. L'objectif est de construire une intelligence artificielle capable de détecter, voire d'anticiper, une situation dangereuse à bord de véhicules d'un télésiège, dans le but d'assurer la sécurité des passagers. Au sein de ce projet, l'objectif général du Gipsa-lab est l'annotation automatique, de la manière la moins supervisée possible, de vidéos de rémontées mécaniques.Premièrement, nous présentons une méthode de classification visant à confirmer ou infirmer la présence de passagers sur chaque véhicule. Cette information préliminaire est en effet cruciale dans l'analyse d'un danger potentiel. La technique proposée repose sur des caractéristiques fabriquées à la main et interprétables physiquement. Nous montrons qu'en incluant des connaissances a priori, les résultats obtenus concurrencent ceux issus de réseaux de neurones complexes, tout en permettant un fonctionnement en temps-réel.Ensuite, nous détaillons un processus pour le comptage des passagers de chaque véhicule de la manière la plus non-supervisée possible. Ce processus consiste en une première étape de réduction de dimension, suivie d'une procédure de partitionnement de données. Cette dernière vise dans le cadre de notre projet à regrouper les passages dont les véhicules transportent le même nombre de passagers. Par la suite, nous pouvons déduire, à partir d'un nombre réduit d'étiquettes fournies manuellement, le nombre de personnes présentes lors de chaque passage. On détaille notamment deux algorithmes développés durant cette thèse. Le premier algorithme propose une généralisation de la méthode de clustering par densité DBSCAN via l'introduction du concept de voisinage ellipsoïdal. Le deuxième concilie les clusterings par mélange Gaussien et spectral dans le but de découvrir des groupes de données non-convexes.Dans un dernier temps, nous abordons le problème de l'extraction automatique des véhicules dans les images issues de la caméra, ainsi que de la modélisation de leur trajectoire. Pour ce faire, nous proposons une première méthode qui consiste à supprimer le bruit du flux optique grâce à l'utilisation de la déformation optique. On présente également une technique permettant de déterminer automatiquement la durée d'un passage de véhicule via une analyse fréquentielle.De plus, nous détaillons un effort d'annotations, travail visant à détourer, au niveau pixel, les passagers et véhicules de séquences de quarante images consécutives
With the increase in the number of visitors in mountain ranges and the multiplication of accidents on skilifts attributed to human behavior, safety has become a major issue for resort managers.To fight this phenomenon, the start-up from Grenoble Bluecime developed a computer vision system, named SIVAO, which is able to detect a hazardous situation at the boarding of a skilift. The operation of the system breaks down into three steps. First, the chair (or vehicle) is detected in the image. Then, the presence of passengers is confirmed or invalidated. Finally, the position of the security railing is determined. If passengers are present on the vehicle and if the security railing is not down, then the situation is considered as hazardous. In that case, an alarm is triggered, in order to inform the skiers or the operator who can slow down the skilift to secure the vehicle.Despite convincing results, numerous difficulties have to be overcome by SIVAO: various variabilities (vehicle size, boarding orientation, meteorological conditions, number of passengers), camera vibration, complex configuration in the context of a new plant, etc.The MIVAO project, in partnership with the Hubert Curien laboratory, the Bluecime start-up and the Sofival company, was born in order to overcome the previous challenges. The goal is to build an artificial intelligence able to detect, even anticipate, a hazardous situation on vehicles of a skilift, in order to guarantee the security of passengers. Within this project, the general goal of the Gipsa-lab is the automatic annotation, in the least supervised way possible, of chairlift videos.Firstly, we present a classification method whose aim is to confirm or invalidate the presence of passengers on each vehicle. In fact, this preliminary information is critical for the analysis of a potential danger. The proposed technique is based on hand-made features which have a physical interpretation. We show that, by including a priori knowledge, the obtained results are comptetitive against those from complex neural networks, allowing real-time functioning as well.Then, we detail a process for passenger counting on each vehicle in the most unsupervised way possible. This pipeline consists in a dimensionality reduction step followed by a data clustering stage. The latter aims, in the context of our project, at gathering tracks whose vehicles carry the same number of passengers. One can then deduce, from a small number of labels obtained by hand, the number of people present during each track. In particular, we detail two algorithms developed during this thesis. The first one proposes a generalisation of the density-based clustering method DBSCAN, via the introduction of the concept of ellipsoidal neighborhood. The second conciliates Gaussian mixture and spectral clusterings so as to discover non-convex data groups.Finally, we address the problem of automatic extraction of vehicles from camera images, as well as the modeling of their trajectory. To do this, we propose a first method which consists in removing the noise from the optical flow by means of the optical strain. We also present a technique for automatically determining the duration of a vehicle track via frequency analysis.Moreover, we detail an annotation work whose objective is to define clipping paths, pixel by pixel, over the passengers and vehicles in sequences of fourty consecutive images
32

Silveira, Mastella Laura. "Exploitation sémantique des modèles d'ingénierie : application à la modélisation des réservoirs pétroliers". Phd thesis, École Nationale Supérieure des Mines de Paris, 2010. http://pastel.archives-ouvertes.fr/pastel-00005770.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Ce travail propose des solutions innovantes en vue de l'exploitation des modèles d'ingénierie hétérogènes. Il prend pour exemple le domaine de la prospection pétrolière. Les stratégies de prospection sont élaborées à partir de représentations tridimensionnelles du sous-sol appelées modèles géologiques. Ceux-ci reposent sur un grand nombre de données hétérogènes générées au fur et à mesure de la conduite de l'exploration par des activités telles que la prospection séismique, les forages, l'interprétation des logs de puits. A fin d'optimisation, les utilisateurs finaux souhaitent, pouvoir retrouver et réutiliser à tout moment les données et les interprétations attachés aux différents modèles successivement générés. Les approches d' intégration des connaissances susceptibles d'être mises en œuvre pour résoudre ce défi, doivent être dissociées aussi bien des sources et des formats de données que des outils logiciels en constante évolution. Pour cela, nous proposons d'utiliser l'annotation sémantique, technique courante du Web sémantique permettant d'associer la connaissance à des ressources au moyen d' "étiquettes sémantiques". La sémantique ainsi explicitée est définie par un certain nombre d' ontologies de domaine, qui, selon la définition classique, correspondent à autant "de spécifications formelles de la conceptualisation" des domaines considérés. En vue d'intégrer les modèles d'ingénierie considérés, nous proposons une architecture, qui permet de relier des concepts appartenant respectivement à des ontologies locales et à une ontologie globale. Les utilisateurs peuvent ainsi avoir une vision globale, intégrée et partagée de chacun des domaines impliqués dans chaîne de modélisation géologique. Un prototype a été développé qui concerne la première étape de la chaîne de modélisation (interprétation séismique). Les expérimentations réalisées prouvent que, grâce à l'approche proposée, les experts peuvent, en utilisant le vocabulaire de leur domaine d'expertise, formuler des questions et obtenir des réponses appropriées.
33

Tang, My Thao. "Un système interactif et itératif extraction de connaissances exploitant l'analyse formelle de concepts". Thesis, Université de Lorraine, 2016. http://www.theses.fr/2016LORR0060/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Dans cette thèse, nous présentons notre méthodologie de la connaissance interactive et itérative pour une extraction des textes - le système KESAM: Un outil pour l'extraction des connaissances et le Management de l’Annotation Sémantique. Le KESAM est basé sur l'analyse formelle du concept pour l'extraction des connaissances à partir de ressources textuelles qui prend en charge l'interaction aux experts. Dans le système KESAM, l’extraction des connaissances et l'annotation sémantique sont unifiées en un seul processus pour bénéficier à la fois l'extraction des connaissances et l'annotation sémantique. Les annotations sémantiques sont utilisées pour formaliser la source de la connaissance dans les textes et garder la traçabilité entre le modèle de la connaissance et la source de la connaissance. Le modèle de connaissance est, en revanche, utilisé afin d’améliorer les annotations sémantiques. Le processus KESAM a été conçu pour préserver en permanence le lien entre les ressources (textes et annotations sémantiques) et le modèle de la connaissance. Le noyau du processus est l'Analyse Formelle de Concepts (AFC) qui construit le modèle de la connaissance, i.e. le treillis de concepts, et assure le lien entre le modèle et les annotations des connaissances. Afin d'obtenir le résultat du treillis aussi près que possible aux besoins des experts de ce domaine, nous introduisons un processus itératif qui permet une interaction des experts sur le treillis. Les experts sont invités à évaluer et à affiner le réseau; ils peuvent faire des changements dans le treillis jusqu'à ce qu'ils parviennent à un accord entre le modèle et leurs propres connaissances ou le besoin de l’application. Grâce au lien entre le modèle des connaissances et des annotations sémantiques, le modèle de la connaissance et les annotations sémantiques peuvent co-évoluer afin d'améliorer leur qualité par rapport aux exigences des experts du domaine. En outre, à l'aide de l’AFC de la construction des concepts avec les définitions des ensembles des objets et des ensembles d'attributs, le système KESAM est capable de prendre en compte les deux concepts atomiques et définis, à savoir les concepts qui sont définis par un ensemble des attributs. Afin de combler l'écart possible entre le modèle de représentation basé sur un treillis de concept et le modèle de représentation d'un expert du domaine, nous présentons ensuite une méthode formelle pour l'intégration des connaissances d’expert en treillis des concepts d'une manière telle que nous pouvons maintenir la structure des concepts du treillis. La connaissance d’expert est codée comme un ensemble de dépendance de l'attribut qui est aligné avec l'ensemble des implications fournies par le concept du treillis, ce qui conduit à des modifications dans le treillis d'origine. La méthode permet également aux experts de garder une trace des changements qui se produisent dans le treillis d'origine et la version finale contrainte, et d'accéder à la façon dont les concepts dans la pratique sont liés à des concepts émis automatiquement à partir des données. Nous pouvons construire les treillis contraints sans changer les données et fournir la trace des changements en utilisant des projections extensives sur treillis. À partir d'un treillis d'origine, deux projections différentes produisent deux treillis contraints différents, et, par conséquent, l'écart entre le modèle de représentation basée sur un treillis de réflexion et le modèle de représentation d'un expert du domaine est rempli avec des projections
In this thesis, we present a methodology for interactive and iterative extracting knowledge from texts - the KESAM system: A tool for Knowledge Extraction and Semantic Annotation Management. KESAM is based on Formal Concept Analysis for extracting knowledge from textual resources that supports expert interaction. In the KESAM system, knowledge extraction and semantic annotation are unified into one single process to benefit both knowledge extraction and semantic annotation. Semantic annotations are used for formalizing the source of knowledge in texts and keeping the traceability between the knowledge model and the source of knowledge. The knowledge model is, in return, used for improving semantic annotations. The KESAM process has been designed to permanently preserve the link between the resources (texts and semantic annotations) and the knowledge model. The core of the process is Formal Concept Analysis that builds the knowledge model, i.e. the concept lattice, and ensures the link between the knowledge model and annotations. In order to get the resulting lattice as close as possible to domain experts' requirements, we introduce an iterative process that enables expert interaction on the lattice. Experts are invited to evaluate and refine the lattice; they can make changes in the lattice until they reach an agreement between the model and their own knowledge or application's need. Thanks to the link between the knowledge model and semantic annotations, the knowledge model and semantic annotations can co-evolve in order to improve their quality with respect to domain experts' requirements. Moreover, by using FCA to build concepts with definitions of sets of objects and sets of attributes, the KESAM system is able to take into account both atomic and defined concepts, i.e. concepts that are defined by a set of attributes. In order to bridge the possible gap between the representation model based on a concept lattice and the representation model of a domain expert, we then introduce a formal method for integrating expert knowledge into concept lattices in such a way that we can maintain the lattice structure. The expert knowledge is encoded as a set of attribute dependencies which is aligned with the set of implications provided by the concept lattice, leading to modifications in the original lattice. The method also allows the experts to keep a trace of changes occurring in the original lattice and the final constrained version, and to access how concepts in practice are related to concepts automatically issued from data. The method uses extensional projections to build the constrained lattices without changing the original data and provide the trace of changes. From an original lattice, two different projections produce two different constrained lattices, and thus, the gap between the representation model based on a concept lattice and the representation model of a domain expert is filled with projections
34

Er, Ngurah Agus Sanjaya. "Techniques avancées pour l'extraction d'information par l'exemple". Electronic Thesis or Diss., Paris, ENST, 2018. http://www.theses.fr/2018ENST0060.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
La recherche d’information sur le Web requiert généralement la création d’une requête à partir d’un ensemble de mots-clés et de la soumettre à un moteur de recherche. Le résultat de la recherche, qui est une liste de pages Web, est trié en fonction de la pertinence de chaque page par rapport aux mots clés donnés. Cette méthode classique nécessite de l’utilisateur une connaissance relativement bonne du domaine de l’information ciblée afin de trouver les bons mots-clés. Étant donné une même requête, i.e. liste de mots-clés, les pages renvoyées par le moteur de recherche seraient classées différemment selon l’utilisateur. Sous un autre angle, la recherche d’informations trés précises telles qu’un pays et sa capitale obligerait, sans doute, l’utilisateur à parcourir tous les documents retournées et à lire chaque contenu manuellement. Cela prend non seulement du temps, mais exige également beaucoup d’efforts. Nous abordons dans cette thèse une méthode alternative de recherche d’informations, c’est-à-dire en donnant des exemples parmi les informations recherchées. Tout d’abord, nous essayons d’améliorer la précision de la recherche des méthodes existantes en étendant syntaxiquement les exemples donnés. Ensuite, nous utilisons le paradigme de découverte de la vérité pour classer les résultats renvoyés. Enfin, nous étudions la possibilité d’élargir les exemples sémantiquement en annotant (ou étiquetant) chaque groupe d’éléments des exemples
Searching for information on the Web is generally achieved by constructing a query from a set of keywords and firing it to a search engine. This traditional method requires the user to have a relatively good knowledge of the domain of the targeted information to come up with the correct keywords. The search results, in the form of Web pages, are ranked based on the relevancy of each Web page to the given keywords. For the same set of keywords, the Web pages returned by the search engine would be ranked differently depending on the user. Moreover, finding specific information such as a country and its capital city would require the user to browse through all the documents and reading its content manually. This is not only time consuming but also requires a great deal of effort. We address in this thesis an alternative method of searching for information, i.e. by giving examples of the information in question. First, we try to improve the accuracy of the search by example systems by expanding the given examples syntactically. Next, we use truth discovery paradigm to rank the returned query results. Finally, we investigate the possibility of expanding the examples semantically through labelling each group of elements of the examples
35

Khan, Imran. "Cloud-based cost-efficient application and service provisioning in virtualized wireless sensor networks". Thesis, Evry, Institut national des télécommunications, 2015. http://www.theses.fr/2015TELE0019/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Des Réseaux de Capteurs Sans Fil (RdCSF) deviennent omniprésents et sont utilisés dans diverses applications domaines. Ils sont les pierres angulaires de l'émergence de l'Internet des Objets (IdO) paradigme. Déploiements traditionnels de réseaux de capteurs sont spécifiques à un domaine, avec des applications généralement incrustés dans le RdCSF, excluant la ré-utilisation de l'infrastructure par d'autres applications. Maintenant, avec l'avènement de l'IdO, cette approche est de moins en moins viable. Une solution possible réside dans le partage d'une même RdCSF par de plusieurs applications et services, y compris même les applications et services qui ne sont pas envisagées lors du déploiement de RdCSF. Deux principaux développements majeurs ont conduit à cette solution potentielle. Premièrement, comme les nœuds de RdCSF sont de plus en plus puissants, il devient de plus en plus pertinent de rechercher comment pourrait plusieurs applications partager les mêmes déploiements WSN. La deuxième évolution est le Cloud Computing paradigme qui promeut des ressources et de la rentabilité en appliquant le concept de virtualisation les ressources physiques disponibles. Grâce à ces développements de cette thèse fait les contributions suivantes. Tout d'abord, un vaste état de la revue d'art est présenté qui présente les principes de base de RdCSF la virtualisation et sa pertinence avec précaution motive les scénarios sélectionnés. Les travaux existants sont présentés en détail et évaluées de manière critique en utilisant un ensemble d'exigences provenant du scénario. Cette contribution améliore sensiblement les critiques actuelles sur l'état de l'art en termes de portée, de la motivation, de détails, et les questions de recherche futures. La deuxième contribution se compose de deux parties: la première partie est une nouvelle architecture de virtualization RdCSF multicouche permet l'approvisionnement de plusieurs applications et services au cours du même déploiement de RdCSF. Il est mis en œuvre et évaluée en utilisant un prototype basé sur un scénario de preuve de concept en utilisant le kit Java SunSpot. La deuxième partie de cette contribution est l'architecture étendue qui permet à l’infrastructure virtualisée RdCSF d'interagir avec un RdCSF Platform-as-a-Service (PaaS) à un niveau d'abstraction plus élevé. Grâce à ces améliorations RdCSF PaaS peut provisionner des applications et des services RdCSF aux utilisateurs finaux que Software-as-a-Service (SaaS). Les premiers résultats sont présentés sur la base de l'implantation de l'architecture améliorée en utilisant le kit Java SunSpot. La troisième contribution est une nouvelle architecture d'annotation de données pour les applications sémantiques dans les environnements virtualisés les RdCSF. Il permet en réseau annotation de données et utilise des superpositions étant la pierre angulaire. Nous utilisons la base ontologie de domaine indépendant d'annoter les données du capteur. Un prototype de preuve de concept, basé sur un scénario, est développé et mis en œuvre en utilisant Java SunSpot, Kits AdvanticSys et Google App Engine. La quatrième et dernière contribution est l'amélioration à l'annotation de données proposée l'architecture sur deux fronts. L'un est l'extension à l'architecture proposée pour soutenir la création d'ontologie, de la distribution et la gestion. Le deuxième front est une heuristique génétique basée algorithme utilisé pour la sélection de noeuds capables de stocker l'ontologie de base. L'extension de la gestion d'ontologie est mise en oeuvre et évaluée à l'aide d'un prototype de validation de principe à l'aide de Java kit SunSpot, tandis que les résultats de la simulation de l'algorithme sont présentés
Wireless Sensor Networks (WSNs) are becoming ubiquitous and are used in diverse applications domains. Traditional deployments of WSNs are domain-specific, with applications usually embedded in the WSN, precluding the re-use of the infrastructure by other applications. This can lead to redundant deployments. Now with the advent of IoT, this approach is less and less viable. A potential solution lies in the sharing of a same WSN by multiple applications and services, to allow resource- and cost-efficiency. In this dissertation, three architectural solutions are proposed for this purpose. The first solution consists of two parts: the first part is a novel multilayer WSN virtualization architecture that allows the provisioning of multiple applications and services over the same WSN deployment. The second part of this contribution is the extended architecture that allows virtualized WSN infrastructure to interact with a WSN Platform-as-a-Service (PaaS) at a higher level of abstraction. Both these solutions are implemented and evaluated using two scenario-based proof-of-concept prototypes using Java SunSpot kit. The second architectural solution is a novel data annotation architecture for the provisioning of semantic applications in virtualized WSNs. It is capable of providing in-network, distributed, real-time annotation of raw sensor data and uses overlays as the cornerstone. This architecture is implemented and evaluated using Java SunSpot, AdvanticSys kits and Google App Engine. The third architectural solution is the enhancement to the data annotation architecture on two fronts. One is a heuristic-based genetic algorithm used for the selection of capable nodes for storing the base ontology. The second front is the extension to the proposed architecture to support ontology creation, distribution and management. The simulation results of the algorithm are presented and the ontology management extension is implemented and evaluated using a proof-of-concept prototype using Java SunSpot kit. As another contribution, an extensive state-of-the-art review is presented that introduces the basics of WSN virtualization and motivates its pertinence with carefully selected scenarios. This contribution substantially improves current state-of-the-art reviews in terms of the scope, motivation, details, and future research issues
36

Ben, Salamah Janan. "Extraction de connaissances dans des textes arabes et français par une méthode linguistico-computationnelle". Thesis, Paris 4, 2017. http://www.theses.fr/2017PA040137.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Dans le cadre de notre thèse, nous avons proposé une approche générique multilingue d'extraction automatique de connaissances. Nous avons validé l‟approche sur l'extraction des événements de variations des cours pétroliers et l‟extraction des expressions temporelles liées à des référentiels. Notre approche est basée sur la constitution de plusieurs cartes sémantiques par analyse des données non structurées afin de formaliser les traces linguistiques textuelles exprimées par des catégories d'un point de vue de fouille. Nous avons mis en place un système expert permettant d‟annoter la présence des catégories en utilisant des groupes de règles. Deux algorithmes d'annotation AnnotEV et AnnotEC ont été appliqués, dans la plateforme SemanTAS. Le rappel et précision de notre système d'annotation est autour de 80%. Nous avons présenté les résultats aussi sous forme des fiches de synthèses. Nous avons validé l'aspect Multilingue de l'approche sur la langue française et arabe, et l'aspect généricité et scalabilité en testant sur plusieurs corpus de taille confédérale
In this thesis, we proposed a multilingual generic approach for the automatic information extraction. Particularly, events extraction of price variation and temporal information extraction linked to temporal referential. Our approach is based on the constitution of several semantic maps by textual analysis in order to formalize the linguistic traces expressed by categories. We created a database for an expert system to identify and annotate information (categories and their characteristics) based on the contextual rule groups. Two algorithms AnnotEC and AnnotEV have been applied in the SemanTAS platform to validate our assumptions. We have obtained a satisfactory result; Accuracy and recall are around 80%. We presented extracted knowledge by a summary file. In order to approve the multilingual aspect of our approach, we have carried out experiments on French and Arabic. We confirmed the scalability level by the annotation of large corpus
37

Amardeilh, Florence. "Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation d'une plateforme logicielle". Phd thesis, Université de Nanterre - Paris X, 2007. http://tel.archives-ouvertes.fr/tel-00146213.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Cette thèse aborde les problématiques liées à l'annotation sémantique et au peuplement d'ontologies dans le cadre défini par le Web Sémantique. La représentation explicite des contenus des ressources du Web est possible grâce aux ontologies. Elles modélisent les concepts, leurs attributs et les relations utilisées pour annoter le contenu des documents. Et la base de connaissance, associée à cette ontologie, doit contenir les instances à utiliser pour l'annotation sémantique. L'idée proposée ici est de combiner les outils d'extraction d'information (EI) avec les outils de représentation des connaissances du WS pour les tâches d'annotation et de peuplement. Mais il existe actuellement un fossé entre les formats de représentation utilisés par chacun de ces outils. Cette thèse propose de combler ce fossé en concevant un médiateur capable de transformer les étiquettes générées par les outils d'EI en une représentation plus formelle, que ce soit sous la forme des annotations sémantiques ou des instances d'une ontologie.
38

Khan, Imran. "Cloud-based cost-efficient application and service provisioning in virtualized wireless sensor networks". Electronic Thesis or Diss., Evry, Institut national des télécommunications, 2015. http://www.theses.fr/2015TELE0019.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Des Réseaux de Capteurs Sans Fil (RdCSF) deviennent omniprésents et sont utilisés dans diverses applications domaines. Ils sont les pierres angulaires de l'émergence de l'Internet des Objets (IdO) paradigme. Déploiements traditionnels de réseaux de capteurs sont spécifiques à un domaine, avec des applications généralement incrustés dans le RdCSF, excluant la ré-utilisation de l'infrastructure par d'autres applications. Maintenant, avec l'avènement de l'IdO, cette approche est de moins en moins viable. Une solution possible réside dans le partage d'une même RdCSF par de plusieurs applications et services, y compris même les applications et services qui ne sont pas envisagées lors du déploiement de RdCSF. Deux principaux développements majeurs ont conduit à cette solution potentielle. Premièrement, comme les nœuds de RdCSF sont de plus en plus puissants, il devient de plus en plus pertinent de rechercher comment pourrait plusieurs applications partager les mêmes déploiements WSN. La deuxième évolution est le Cloud Computing paradigme qui promeut des ressources et de la rentabilité en appliquant le concept de virtualisation les ressources physiques disponibles. Grâce à ces développements de cette thèse fait les contributions suivantes. Tout d'abord, un vaste état de la revue d'art est présenté qui présente les principes de base de RdCSF la virtualisation et sa pertinence avec précaution motive les scénarios sélectionnés. Les travaux existants sont présentés en détail et évaluées de manière critique en utilisant un ensemble d'exigences provenant du scénario. Cette contribution améliore sensiblement les critiques actuelles sur l'état de l'art en termes de portée, de la motivation, de détails, et les questions de recherche futures. La deuxième contribution se compose de deux parties: la première partie est une nouvelle architecture de virtualization RdCSF multicouche permet l'approvisionnement de plusieurs applications et services au cours du même déploiement de RdCSF. Il est mis en œuvre et évaluée en utilisant un prototype basé sur un scénario de preuve de concept en utilisant le kit Java SunSpot. La deuxième partie de cette contribution est l'architecture étendue qui permet à l’infrastructure virtualisée RdCSF d'interagir avec un RdCSF Platform-as-a-Service (PaaS) à un niveau d'abstraction plus élevé. Grâce à ces améliorations RdCSF PaaS peut provisionner des applications et des services RdCSF aux utilisateurs finaux que Software-as-a-Service (SaaS). Les premiers résultats sont présentés sur la base de l'implantation de l'architecture améliorée en utilisant le kit Java SunSpot. La troisième contribution est une nouvelle architecture d'annotation de données pour les applications sémantiques dans les environnements virtualisés les RdCSF. Il permet en réseau annotation de données et utilise des superpositions étant la pierre angulaire. Nous utilisons la base ontologie de domaine indépendant d'annoter les données du capteur. Un prototype de preuve de concept, basé sur un scénario, est développé et mis en œuvre en utilisant Java SunSpot, Kits AdvanticSys et Google App Engine. La quatrième et dernière contribution est l'amélioration à l'annotation de données proposée l'architecture sur deux fronts. L'un est l'extension à l'architecture proposée pour soutenir la création d'ontologie, de la distribution et la gestion. Le deuxième front est une heuristique génétique basée algorithme utilisé pour la sélection de noeuds capables de stocker l'ontologie de base. L'extension de la gestion d'ontologie est mise en oeuvre et évaluée à l'aide d'un prototype de validation de principe à l'aide de Java kit SunSpot, tandis que les résultats de la simulation de l'algorithme sont présentés
Wireless Sensor Networks (WSNs) are becoming ubiquitous and are used in diverse applications domains. Traditional deployments of WSNs are domain-specific, with applications usually embedded in the WSN, precluding the re-use of the infrastructure by other applications. This can lead to redundant deployments. Now with the advent of IoT, this approach is less and less viable. A potential solution lies in the sharing of a same WSN by multiple applications and services, to allow resource- and cost-efficiency. In this dissertation, three architectural solutions are proposed for this purpose. The first solution consists of two parts: the first part is a novel multilayer WSN virtualization architecture that allows the provisioning of multiple applications and services over the same WSN deployment. The second part of this contribution is the extended architecture that allows virtualized WSN infrastructure to interact with a WSN Platform-as-a-Service (PaaS) at a higher level of abstraction. Both these solutions are implemented and evaluated using two scenario-based proof-of-concept prototypes using Java SunSpot kit. The second architectural solution is a novel data annotation architecture for the provisioning of semantic applications in virtualized WSNs. It is capable of providing in-network, distributed, real-time annotation of raw sensor data and uses overlays as the cornerstone. This architecture is implemented and evaluated using Java SunSpot, AdvanticSys kits and Google App Engine. The third architectural solution is the enhancement to the data annotation architecture on two fronts. One is a heuristic-based genetic algorithm used for the selection of capable nodes for storing the base ontology. The second front is the extension to the proposed architecture to support ontology creation, distribution and management. The simulation results of the algorithm are presented and the ontology management extension is implemented and evaluated using a proof-of-concept prototype using Java SunSpot kit. As another contribution, an extensive state-of-the-art review is presented that introduces the basics of WSN virtualization and motivates its pertinence with carefully selected scenarios. This contribution substantially improves current state-of-the-art reviews in terms of the scope, motivation, details, and future research issues
39

Yu, Mengyao. "Exploitation des données issues d'études d'association pangénomiques pour caractériser les voies biologiques associées au risque génétique du prolapsus de la valve mitrale GWAS-driven gene-set analyses, genetic and functional follow-up suggest GLIS1 as a susceptibility gene for mitral valve prolapse Up-dated genome-wide association study and functional annotation reveal new risk loci for mitral valve prolapse". Thesis, Sorbonne Paris Cité, 2019. https://wo.app.u-paris.fr/cgi-bin/WebObjects/TheseWeb.woa/wa/show?t=2203&f=17890.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Le prolapsus de la valve mitrale (MVP) est une valvulopathie fréquente qui touche près de 1 personne sur 40 dans la population générale. Il s'agit de la première indication de réparation et / ou de remplacement de la valve. De nombreux gènes comme FLNA, DCHS1 pour les formes familiales et TNS1 et LMCD1 pour les formes sporadiques ont récemment été décrit comme associés au MVP. Cependant, les défauts génétiques touchant ces gènes n'expliquent pas tous les cas du MVP. De plus, les mécanismes biologiques expliquant la susceptibilité génétique au MVP, notamment pour les formes sporadiques les plus fréquentes restent mal compris. Dans cette thèse, mon objectif était 1) de caractériser globalement les mécanismes biologiques impliqués dans le risque génétique du MVP dans le contexte des études d'association pangénomique (GWAS), et 2) d'améliorer la résolution du génotypage par l'imputation génétique et par l'addition d'une nouvelle étude cas témoins, (UKBioBank) afin de permettre la découverte de nouveaux loci de prédisposition. Dans la première partie, j'ai appliqué des outils d'enrichissement de voies biologiques ou sets de gènes (i-GSEA4GWAS, DEPICT) aux données GWAS. J'ai pu montrer que les gènes présents autour des loci GWAS sont impliqués dans l'organisation des filaments d'actine, l'organisation du cytosquelette et le développement cardiaque. Nous avons également décrits de nombreux régulateurs de la transcription impliqués le développement, la prolifération cellulaire et la migration, comme le gène GLIS1 qui joue un rôle dans les transitions morphologiques cellulaires (EndoMT, MET). Afin de confirmer le rôle de GLIS1 dans l'association avec le MVP, j'ai réalisé une analyse génétique dans UKBiobank et, en combinaison avec les données françaises, l'association a atteint le seuil de significativité génomique. Des expériences d'immunohistochimie ont indiqué que Glis1, la protéine orthologue de la souris est exprimée au cours du développement embryonnaire principalement dans les noyaux des cellules endothéliales et interstitielles des valves mitrales. D'autre part, l'inactivation de Glis1 à l'aide d'oligonucléotides de type Morpholinos ont été l'origine d'une régurgitation atrio-ventriculaire chez le poisson zèbre. Dans la deuxième partie, j'ai généré des données de génotypage plus dense à l'aide d'une imputation basée sur Haplotype Reference Consortium (HRC) et TOPMed. J'ai d'abord comparé la précision d'imputation entre les données utilisant les différents panels et constaté qu'aucun panel n'atteignait une précision optimale pour les variants rares (MAF <0,01) dans nos échantillons. La précision d'imputation s'améliorait pour les variants fréquents (MAF> 0,05), en particulier pour les cohortes dont le génotypage étaient réalisé avec des puces identiques. J'ai pu ainsi cartographier avec plus de précision les loci déjà confirmés (ex. Chr 2 autour de TNS1). J'ai également identifié 6 nouveaux loci associés au MVP prometteurs. Les nouveaux variants associés sont tous fréquents. L'annotation fonctionnelle fine à l'aide de données publiques a indiqué leurs rôles potentiels dans la régulation transcriptionnelle de plusieurs gènes candidats (ex. PDGFD et ACTN4). En résumé, mes travaux de thèse ont apporté des résultats génétiques originaux mettant en lumière de nouveaux mécanismes biologiques en rapport avec la biologie et le développement de la valve. Ces travaux ont fait appel à de nombreuses stratégies génétiques d'association et d'enrichissement, d'imputation haute densité et d'annotations fonctionnelles. Mes travaux ont également été renforcés par des validations dans des modèles animaux en collaboration. Il sera nécessaire toutefois de confirmer par réplication, et potentiellement par des expériences biologiques, les résultats nouveaux issus des travaux d'imputation haute densité afin de déclarer ces nouveaux gènes de prédispositions au MVP
Mitral valve prolapse (MVP) is a common heart valve disease affecting nearly 1 in 40 individuals in the general population. It is the first indication for valve repair and/or replacement and moreover, a risk factor for mitral regurgitation, an established cause of endocarditis and sudden death. MVP is characterized by excess extracellular matrix secretion and cellular disorganization which leads to bulky valves that are unable to coapt correctly during ventricular systole. Even though several genes including FLNA, DCHS1 TNS1, and LMCD1 were reported to be associated with MVP, these explain partially its heritability. However, understanding the biological mechanisms underlying the genetic susceptibility to MVP is necessary to characterize its triggering mechanisms. In this thesis, I aimed 1) to characterize globally the biological mechanisms involved in the genetic risk for MVP in the context of genome-wide association studies (GWAS), and 2) improve the genotyping resolution using genetic imputation, which allowed the discovery of additional risk genes for MVP. In the first part of my study, I applied pathway enrichment tools (i-GSEA4GWAS, DEPICT) to the GWAS data. I was able to show that genes at risk loci are involved in biological functions relevant to actin filament organization, cytoskeleton biology, and cardiac development. The enrichment for positive regulation of transcription, cell proliferation, and migration motivated the follow-up of GLIS1, a transcription factor that regulates Hedgehog signalling. I followed up the association with MVP in a dataset of cases and controls from the UK Biobank and, in combination with previously available data, I found a genome-wide significant association with MVP (OR=1.22, P=4.36 ×10-10). Through collaborative efforts, immunohistochemistry experiments in mouse indicated that Glis1 is expressed during embryonic development predominantly in nuclei of endothelial and interstitial cells of mitral valves, while Glis1 knockdown using morpholinos caused atrioventricular regurgitation in zebrafish. In the second part of my work, I generated larger genotyping datasets using a imputation based on Haplotyp Refernece Consortium and TOPMed, two large and highly dense imputation panels that were recently made available. I first compared the imputation accuracy between data using HRC and TopMED and found that both panels have low imputation accuracy for rare allele (MAF<0.01). However, the imputation accuracy increased with the input sample size for common variants (MAF>0.05), especially when genotyping platforms were harmonised. I was able to fine map established loci (e.g Chr 2) and also able to identify six novel and promising associated loci. All new loci are driven by common variants that I confirmed as high profile regulatory variants through an extensive computationally-based functional annotations at promising loci that pointed at several candidate genes for valve biology and development (e.g PDGFD and ACTN4). In summary, my PhD work applied up-to-data high throughput genetic association methods and functional enrichment and annotation to GWAS data. My results provide novel insights into the genetics, molecular and cellular basis of valve disease. Further genetic confirmation through replication, but also through biological experiments are expected to consolidate these statistically and computationally supported results
40

Nouvel, Damien. "Reconnaissance des entités nommées par exploration de règles d'annotation - Interpréter les marqueurs d'annotation comme instructions de structuration locale". Phd thesis, Université François Rabelais - Tours, 2012. http://tel.archives-ouvertes.fr/tel-00788630.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Ces dernières décennies, le développement considérable des technologies de l'information et de la communication a modifié en profondeur la manière dont nous avons accès aux connaissances. Face à l'afflux de données et à leur diversité, il est nécessaire de mettre au point des technologies performantes et robustes pour y rechercher des informations. Les entités nommées (personnes, lieux, organisations, dates, expressions numériques, marques, fonctions, etc.) sont sollicitées afin de catégoriser, indexer ou, plus généralement, manipuler des contenus. Notre travail porte sur leur reconnaissance et leur annotation au sein de transcriptions d'émissions radiodiffusées ou télévisuelles, dans le cadre des campagnes d'évaluation Ester2 et Etape. En première partie, nous abordons la problématique de la reconnaissance automatique des entités nommées. Nous y décrivons les analyses généralement conduites pour traiter le langage naturel, discutons diverses considérations à propos des entités nommées (rétrospective des notions couvertes, typologies, évaluation et annotation) et faisons un état de l'art des approches automatiques pour les reconnaître. A travers la caractérisation de leur nature linguistique et l'interprétation de l'annotation comme structuration locale, nous proposons une approche par instructions, fondée sur les marqueurs (balises) d'annotation, dont l'originalité consiste à considérer ces éléments isolément (début ou fin d'une annotation). En seconde partie, nous faisons état des travaux en fouille de données dont nous nous inspirons et présentons un cadre formel pour explorer les données. Les énoncés sont représentés comme séquences d'items enrichies (morpho-syntaxe, lexiques), tout en préservant les ambigüités à ce stade. Nous proposons une formulation alternative par segments, qui permet de limiter la combinatoire lors de l'exploration. Les motifs corrélés à un ou plusieurs marqueurs d'annotation sont extraits comme règles d'annotation. Celles-ci peuvent alors être utilisées par des modèles afin d'annoter des textes. La dernière partie décrit le cadre expérimental, quelques spécificités de l'implémentation du système (mXS) et les résultats obtenus. Nous montrons l'intérêt d'extraire largement les règles d'annotation, même celles qui présentent une moindre confiance. Nous expérimentons les motifs de segments, qui donnent de bonnes performances lorsqu'il s'agit de structurer les données en profondeur. Plus généralement, nous fournissons des résultats chiffrés relatifs aux performances du système à divers point de vue et dans diverses configurations. Ils montrent que l'approche que nous proposons est compétitive et qu'elle ouvre des perspectives dans le cadre de l'observation des langues naturelles et de l'annotation automatique à l'aide de techniques de fouille de données.
41

Casallas, Rubby. "Objets historiques et annotations pour les environnements logiciels". Phd thesis, 1996. http://tel.archives-ouvertes.fr/tel-00004982.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Dans un environnement guide par les procedes de fabrication de logiciel (EGPFL), la gestion de l'information est un probleme complexe qui doit concilier deux besoins : gerer le produit logiciel et gerer les procedes de fabrication. Outre la grande quantite d'entites diverses et fortement interdependantes, la gestion du produit doit prendre en compte l'aspect evolutif et les facteurs de variation du logiciel, ainsi que la nature cooperative des activites de fabrication des logiciels. La gestion des procedes recouvre la modelisation, l'execution, l'evaluation et la supervision des procedes. Diverses informations doivent alors etre prises en compte : la trace d'execution des procedes, les evenements survenus dans l'environnement et les mesures de qualite. Nous proposons les objets historiques annotes pour gerer l'information d'un EGPFL. L'objet historique constitue la notion de base d'un modele a objets historique permettant de representer a la fois les entites logicielles et leur evolution. La notion d'annotation vient, quant a elle, enrichir ce modele pour permettre d'introduire des informations qui denotent des faits (notes, mesures, observations, etc) pouvant etre ponctuellement associes aux entites de l'EGPFL. Un langage de requetes est defini afin d'acceder aux differentes informations. Grace a ce langage, l'EGPFL dispose d'un service puissant pour rassembler, a partir de la base d'objets, les diverses informations necessaires a l'evaluation et au controle des procedes de fabrication. Nous proposons egalement d'exploiter les possibilites offertes par notre modele pour definir des evenements et, eventuellement, en conserver un historique. Les evenements permettent d'identifier des situations liant des informations provenant aussi bien de l'etat courant que des etats passes de l'EGPFL. C'est pourquoi la definition d'un evenement peut comporter des conditions exprimees dans le langage de requetes. L'emploi d'annotations permet d'enregistrer les occurrences d'evenements, ainsi qu'une partie de l'etat du systeme. Une implantation du modele est proposee dans le systeme Adele.
42

Guyet, Thomas. "Interprétation collaborative de séries temporelles. Application à des données de réanimation médicale". Phd thesis, 2007. http://tel.archives-ouvertes.fr/tel-00264145.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Cette thèse propose une approche de la collaboration homme-machine, inspirée de la théorie de l'Enaction, dans le domaine de l'interprétation de données complexes. L'autonomie des deux partenaires vise à leur permettre de réaliser une interprétation en s'appuyant sur leurs compétences. Pour préserver leur autonomie, la communication du système avec son partenaire est réalisée au moyen d'annotations. Cette approche est appliquée à la conception d'un système multi-agents pour l'interprétation collaborative de signaux physiologiques de patients en réanimation médicale, i.e. des séries temporelles multivariées. Ce système est capable de construire une interprétation des séries temporelles par la construction (1) de modèles d'évènements et de scénarios (ensembles d'évènements reliés par des relations temporelles) et (2) d'annotations à partir de ces modèles. Les modèles qu'il construit évoluent au cours de l'interprétation pour prendre en compte les annotations du partenaire humain.
43

Diallo, Gayo. "Une Architecture à base d'Ontologies pour la Gestion Unifiées des Données Structurées et non Structurées". Phd thesis, 2006. http://tel.archives-ouvertes.fr/tel-00221392.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Les systèmes d'information des organisations contiennent des données de diverses natures, dispersées dans une grande variété de sources. La gestion unifiée permet d'offrir un accès uniforme et transparent à cet ensemble hétérogène de sources. Nous nous intéressons à l'intégration de données structurées (bases de données relationnelles) et de données non structurées (sources textuelles, pouvant être multilingues) et particulièrement à la prise en compte de sources textuelles dans une infrastructure de gestion unifiée. L'approche que nous proposons repose sur l'utilisation des technologies du Web sémantique et de différents types d'ontologies. Les ontologies servent d'une part à définir le schéma global d'intégration (ontologie globale) et les différentes sources à intégrer. Les ontologies qui représentent les sources à intégrer sont appelées schémas virtuels de sources ou ontologies locales (obtenues par un processus de rétroingénierie). D'autre part, les ontologies permettent d'effectuer une reprrésentation hybride de chaque source textuelle qui combine des informations de catalogage, les vecteurs de termes, les vecteurs de concepts et, de façon optionnelle, les entités nommées ; tous ces éléments étant identifiés dans chaque document de la source. Nous avons par ailleurs élaboré une approche de gestion conjointe de plusieurs ontologies à travers un serveur d'ontologies qui sert notamment de support à l'interrogation. Un premier domaine d'application de notre travail a été la gestion de données dans le domaine du cerveau. Nous avons construit ou enrichi des ontologies pour l'organisation des connaissances dans ce domaine, utilisées notamment pour la caractérisation sémantique de sources.
44

Kannan, Sivakumar. "Molecular protein function prediction using sequence similarity-based and similarity-free approaches". Thèse, 2007. http://hdl.handle.net/1866/15681.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
45

M'Begnan, Nagnan Arthur. "Développement d'outils web de détection d'annotations manuscrites dans les imprimés anciens". Thèse, 2021. http://depot-e.uqtr.ca/id/eprint/9663/1/eprint9663.pdf.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri

Vai alla bibliografia