Dissertations / Theses: 'Données sémantiques'

1

Ait, Oubelli Lynda. "Transformations sémantiques pour l'évolution des modèles de données." Thesis, Toulouse, INPT, 2020. http://www.theses.fr/2020INPT0040.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Lors du développement d’un système complexe, les modèles de données sont la clé d’un processus d’ingénierie réussi : ils contiennent et organisent toutes les informations manipulées par les différentes fonctions impliquées dans la conception du système. Le fait que les modèles de données évoluent tout au long de la conception soulève des problèmes de maintenance des données déjà produites. Notre travail aborde la problématique de l’évolution des modèles de données dans un environnement d’ingénierie dirigée par les modèles (IDM). Nous nous concentrons sur la minimisation de l’impact de l’évolution du modèle de données sur le processus de développement du système dans le domaine spécifique de l’ingénierie spatiale. Dans l’industrie spatiale, l’ingénierie dirigée par les modèles (IDM) est un domaine clé pour modéliser les échanges de données avec les satellites. Lors de la préparation d’une mission spatiale, les modèles de données doivent être comparés d’une version à l’autre. Ainsi, en raison de la croissance des changements en terme de type et de nombre, il devient difficile de les suivre. De nouvelles méthodes et techniques pour comprendre et représenter les différences et les points communs entre les différentes versions du modèle sont indispensables. Des recherches récentes traitent le processus d’évolution entre les deux couches architecturales (M2 / M1) de l’IDM. Dans cette thèse, nous avons exploré l’utilisation des couches (M1 / M0) de la même architecture afin de définir un ensemble d’opérateurs complexes et leur composition qui encapsulent à la fois l’évolution du modèle de données et la migration des données. L’utilisation de ces opérateurs améliore la qualité des résultats lors de la migration des données, en assurant la conservation complète de l’information contenue dans les données. Dans la première partie de cette thèse, nous sommes concentrés sur la façon de gérer les différences structurelles au cours du processus d’évolution. L’approche proposée repose sur la détection des différences et la construction d’opérateurs d’évolution. Après, nous avons étudié les performances de l’approche à base des modèles (MBD) sur deux missions spatiales, nommées PHARAO et MICROSCOPE. Ensuite, nous avons présenté une approche observationnelle sémantique pour traiter l’évolution des modèles de données au niveau M1. L’intérêt principal de l’approche proposée est la transposition du problème d’accessibilité de l’information dans un modèle de données, en un problème de chemin dans un graphe orienté et étiqueté. L’approche s’est révélée capable de capturer toutes les évolutions d’un modèle de données dans une liste d’opérateurs logique au lieu d’une liste non exhaustive d’opérateurs d’évolution. Elle est générique car peu importe le type de modèle de données en entrée, si le modèle de données est interprété correctement en ldg puis en le projette sur chaque concept, nous obtenons un ensemble de lts, on peut vérifier la conservation de l’information
When developing a complex system, data models are the key to a successful engineering process because they contain and organize all the information manipulated by the different functions involved in system design. The fact that the data models evolve throughout the design raises problems of maintenance of the data already produced. Our work addresses the issue of evolving data models in a model-driven engineering environment (IDM). We focus on minimizing the impact of the evolution of the data model on the system development process in the specific area of space engineering. In the space industry, model-driven engineering (MDI) is a key area for modeling data exchange with satellites. When preparing a space mission, the associated data models are often updated and must be compared from one version to another. Thus, because of the growth of the changes, it becomes difficult to follow them. New methods and techniques to understand and represent the differences and commonalities between different versions of the model are essential. Recent research deals with the evolution process between the two architectural layers (M2 / M1) of the IDM. In this thesis, we have explored the use of the (M1 / M0) layers of the same architecture to define a set of complex operators and their composition that encapsulate both the evolution of the data model and the data migration. The use of these operators improves the quality of results when migrating data, ensuring the complete preservation of the information contained in the data. In the first part of this thesis, we focused on how to deal with structural differences during the evolution process. The proposed approach is based on the detection of differences and the construction of evolution operators. Then, we studied the performance of the model-based approach (MBD) on two space missions, named PHARAO and MICROSCOPE. Then, we presented a semantic observational approach to deal with the evolution of data models at M1 level. The main interest of the proposed approach is the transposition of the problem of accessibility of the information in a data model, into a problem of path in a labeled directed graph. The approach proved to be able to capture all the evolutions of a data model in a logical operator list instead of a non-exhaustive list of evolution operators. It is generic because, regardless of the type of input data model, if the data model is correctly interpreted to ldg and then project it onto a set of lts, we can check the conservation of the information

2

Folch, Helka. "Articuler les classifications sémantiques induites d'un domaine." Paris 13, 2002. http://www.theses.fr/2002PA132015.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Nous montrons la nécessité d'une analyse sémantique endogène pour faciliter l'accès au volume croissant de documents disponibles suite au développement exponentiel d'Internet. Cet afflux de texte on line génère la constitution de corpus hétérogènes qui rendent complexe la conception de modèles d'accés sémantique aux documents. Dans de tels cas, la projection de structures sémantiques a priori n'est pas une démarche adaptée pour un accès efficace aux documents. De même la recherche plein texte par mots clés n'est pas appropriée lorsque ceux-ci sont polysémiques. Le sens des mots est souvent contextuel et leur ambigui͏̈té est plus problématique dans les corpus hétérogènes. Nous avons montré ensuite que cette approche requiert une modélisation particulière du corpus de documents permettant de classer les contextes en fonction de la répartition de leurs traits ou les traits en fonction des contextes partagés et qu'il est nécessaire d'apporter des raffinements à cette modélisation, notamment par le biais de modules d'inférence en amont. Comme exemple d'affinage de traits, nous avons montré que l'inférence de traits syntaxiques dans le cadre d'un langage de description logique (les quasi-arbres) permet de construire des classes basées sur des proximités de comportement fin entre les mots. Nous avons montré aussi que les contraintes imposées par cette approche induisent des besoins en terme d'architecture de corpus. L'architecture que nous avons bâtie permet : l'extraction, à partir des corpus hétérogènes, d'unités textuelles pertinentes, la représentation des corpus extraits permettant le retour au document d'origine et le suivi de leur historique de traitements et la projection sur la base de documents des classes sémantiques obtenues afin de permettre une navigation hypertextuelle dans la base. Nous avons montré les limites des langages hypertextuels comme dans HTML et la nécessité d'utiliser un langage (Topic Maps) qui permet d'associer une sémantique aux liens.

3

Aseervatham, Sujeevan. "Apprentissage à base de Noyaux Sémantiques pour le Traitement de Données Textuelles." Phd thesis, Université Paris-Nord - Paris XIII, 2007. http://tel.archives-ouvertes.fr/tel-00274627.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Depuis le début des années 80, les méthodes statistiques et, plus spécifiquement, les méthodes d'apprentissage appliquées au traitement de données textuelles connaissent un intérêt grandissant. Cette tendance est principalement due au fait que la taille des corpus est en perpétuelle croissance. Ainsi, les méthodes utilisant le travail d'experts sont devenues des processus coûteux perdant peu à peu de leur popularité au profit des systèmes d'apprentissage.
Dans le cadre de cette thèse, nous nous intéressons principalement à deux axes.
Le premier axe porte sur l'étude des problématiques liées au traitement de données textuelles structurées par des approches à base de noyaux. Nous présentons, dans ce contexte, un noyau sémantique pour les documents structurés en sections notamment sous le format XML. Le noyau tire ses informations sémantiques à partir d'une source de connaissances externe, à savoir un thésaurus. Notre noyau a été testé sur un corpus de documents médicaux avec le thésaurus médical UMLS. Il a été classé, lors d'un challenge international de catégorisation de documents médicaux, parmi les 10 méthodes les plus performantes sur 44.
Le second axe porte sur l'étude des concepts latents extraits par des méthodes statistiques telles que l'analyse sémantique latente (LSA). Nous présentons, dans une première partie, des noyaux exploitant des concepts linguistiques provenant d'une source externe et des concepts statistiques issus de la LSA. Nous montrons qu'un noyau intégrant les deux types de concepts permet d'améliorer les performances. Puis, dans un deuxième temps, nous présentons un noyau utilisant des LSA locaux afin d'extraire des concepts latents permettant d'obtenir une représentation plus fine des documents.

4

Aseervatham, Sujeevan. "Apprentissage à base de noyaux sémantiques pour le traitement de données textuelles." Paris 13, 2007. https://theses.hal.science/tel-00274627.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Apprentissage à base de Noyaux Sémantiques pour le Traitement de données Textuelles. Depuis le début des années 80, les méthodes statistiques et, plus spécifiquement, les méthodes d’apprentissage appliquées au traitement de données textuelles connaissent un intérêt grandissant. Cette tendance est principalement due au fait que la taille des corpus est en perpétuelle croissance. Ainsi, les méthodes utilisant le travail d’experts sont devenues des processus coûteux perdant peu à peu de leur popularité au profit des systèmes d’apprentissage. Dans le cadre de cette thèse, nous nous intéressons principalement à deux axes. Le remier axe porte sur l’étude des problématiques liées autraitement de données textuelles structurées par des approches à base de noyaux. Nous présentons, dans ce contexte, un noyau sémantique pour les documents structurés en sections notamment sous le format XML. Le noyau tire ses informations sémantiques à partir d’une source de connaissances externe, à savoir un thésaurus. Notre noyau a été testé sur un corpus de documents médicaux avec le thésaurus médical UMLS. Il a été classé,lors d’un challenge international de catégorisation de documents médicaux, parmi les 10 méthodes les plus performantes sur 44. Le second axe porte sur l’étude des concepts latents extraits par des méthodes statistiques telles que l’analyse sémantique latente (LSA). Nous présentons, dans une première partie, des noyaux exploitant des concepts linguistiques provenant d’une source externe et des concept statistiques issus de la LSA. Nous montrons qu’un noyauinté grant les deux types de concepts permet d’améliorer les performances. Puis, dans un deuxième temps, nous présentons un noyau utilisant des LSA locaux afin d’extraire des concepts latents permettant d’obtenir une représentation plus fine des documents
Semantic Kernel-based Machine Learning for Textual Data Processing. Since the early eighties, statistical methods and, more specifically, the machine learning for textual data processing have known a considerable growth of interest. This is mainly due to the fact that the number of documents to process is growing exponentially. Hus, expert-based methods have become too costly, losing the research focus to the profit of machine learning-based methods. In this thesis, we focus on two main issues. The first one is the processing of semi-structured textual data with kernel-based methods. We present,in this context,as emantic kernel for documents structured by sections under the XML format. This kernel captures these manticin formation with theuse of anexternal source of knowledge e. G. ,at hesaurus. Our kernel was evaluated on a medical document corpus with the UMLS thesaurus. It was ranked in the top ten of the best methods, according to the F1-score, among 44 algorithms at the 2007 CMC Medical NLP International Challenge. The second issue is the study of the use of latent concepts extracted by statistical methods such as the Latent Semantic Analysis (LSA). We present, in a first part, kernels based on linguistic concepts from external sources and on latent concepts of the LSA. We show that a kernel integrating both kinds of concepts improves the text categorization performances. Then, in a second part, we present a kernel that uses local LSAs to extract latent concepts. Local latent concepts are used to have a more finer representation of the documents

5

Castagliola, Carole. "Héritage et valuation dans les réseaux sémantiques pour les bases de données objets." Compiègne, 1991. http://www.theses.fr/1991COMPD363.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les bases de données objets s'articulent autour de trois pôles : les langages à objets, l'intelligence artificielle et les techniques de bases de données. Dans les produits ou systèmes existants, ces pôles sont réunis deux à deux. G-BASE TM, la base de données objets de GRAPHAEL TM, regroupe à la fois les techniques d'IA et celles des bases de données. Nous décrivons la solution adoptée afin d'y intégrer les mécanismes des langages à objets, faisant ainsi cohabiter les trois aspects dans un même environnement. L'extension des mécanismes de représentation de la connaissance dans le modèle de G-BASE est étudiée. Une solution est notamment proposée pour l'implantation des prototypes dans le modèle de G-BASE. Une étude portant sur les assertions et sur leur représentation par des méthodes déclaratives ou procédurales est menée. Toutefois, aucune solution satisfaisante n'a pu être dégagée. Il apparaît que la logique soit beaucoup plus adaptée au traitement des assertions que ne le sont les réseaux sémantiques. La dernière partie du travail est consacrée à la valuation des réseaux sémantiques. Les applications sont passées en revue et certains problèmes non résolus sont mis en lumière. La valuation des réseaux sémantiques est une solution élégante à un certain nombre de difficultés. Citons, par exemple, la représentation d'informations complexes et nuancées, la détermination de la granularité, le traitement des exceptions ou encore la réorganisation d'un réseau en fonction des contextes etc. Une telle notion est cependant source de problèmes non résolus. A savoir l'attribution initiale des distances et leur ajustement par des techniques d'apprentissage, la non-transitivité des arcs qui est un obstacle a la généralisation de la valuation et enfin la sémantique des valeurs attribuées.

6

Pedraza, Linares Esperanza. "SGBD sémantiques pour un environnement bureautique : intégrité et gestion de transactions." Grenoble 1, 1988. http://tel.archives-ouvertes.fr/tel-00009437.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Ce travail traite deux problèmes rencontrés dans les environnements où l'on utitlise un SGBD de haut niveau sémantique et où les traitements réalisés sont peu structurés et évolutifs et se font sur des objets complexes et volumineux. II s"appui sur l'expérience acquise dans la réalisation des projets TIGRE ET DOEOIS. Le premier aspect porte sur la cohérence sémantique, ce qui concerne plus particulièrement les contraintes implicitement établies lors de la définition du schéma conceptuel de la base. La sémantique introduite dans les modèles que nous avons utilisés, est réalisée en intégrant des concepts déjà existants comme celui d'agrégation et de spécialisation qui se traduisent au niveau du schéma conceptuel par des dépendances existentielles entre les entités. Nous proposons pour les opérations de mise à jour, un ensemble de règles de propagations pour assurer que la base de données soit cohérente par rapport à son propre schéma conceptuel. Le deuxième aspect prend en compte l'exécution des opérations elles mêmes. Fournir la notion de transaction, c'est donner au programmeur d'application le moyen de définir' une séquence d'opérations comme étant un tout qui permet à la base de données d'évoluer entre deux états cohérents. Le problème que nous nous posons est de fournir un support pour l'exécution des applications qui assure le maintien de la cohérence, compte tenu des données et des caractéristiques des traitements faits aux données dans l'activité bureautique. Cet étude a abouti à la réalisation d'un mécanisme transactionnel simple et fléxible

7

Coquil, David. "Conception et Mise en Oeuvre de Proxies Sémantiques et Coopératifs." Lyon, INSA, 2006. http://theses.insa-lyon.fr/publication/2006ISAL0020/these.pdf.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L'un des problèmes importants posé par le déploiement à large échelle de systèmes d'information distribués comme le web est l'accès efficace aux données, pour lequel les caches sont une solution possible. Les caches Web existent au niveau des clients, des serveurs, et de serveurs intermédiaires, les proxies. La conception et la mise en œuvre de proxies performants est l'objet principal de la thèse. Trois directions d'amélioration des performances sont étudiées : politiques de remplacement, de pré-chargement, et de coopération. Contrairement aux propositions antérieures qui utilisent des paramètres de bas niveau, nous appliquons des techniques de cache sémantique basées sur l'indexation des documents et l'évaluation des intérêts des utilisateurs. Une mesure de l'intérêt d'un document pour un cache est définie, la température, qui est utilisée pour définir des politiques de remplacement et de pré-chargement. Une application de ce modèle à la gestion de cache d'un serveur vidéo est présentée. Une architecture de coopération entre proxies basée sur l'échange de documents et d'informations sur la tendance des requêtes est définie. L'intégration de techniques de recherche par le contenu dans un système d'information distribué fait l'objet d'une étude. L'étude s'appuie sur des travaux antérieurs intégrant à la recherche par le contenu à une base de données qui sont étendus par la définition d'une architecture coopérative pour les requêtes distribuées basées sur le contenu utilisant des proxies et des caches sémantiques permettant des accès efficaces. Une application de la température à la gestion d'index de caches pour les communautés virtuelles est enfin proposée
One major issue related to the large-scale deployment of distributed information systems such as the Web is that of the efficient access to data for which caches are a possible solution. Web caches exist at the client level, at the server level, and on intermediate servers, the proxies. The conception and the implementation of efficient Web caches and especially proxies is the main focus of the thesis. Three performance improvement techniques are studied: replacement, prefetching and cooperation policies. Contrarily to traditional approaches that mainly us low-level parameters, we apply semantic catching techniques based on the indexing of documents and on analysis of user access patterns. Algorithms for the measurement of the usefulness of a document for a cache are detailed. This value called temperature is used to define a replacement policy and a prefetching heuristics. These techniques are used in a video server cache management application. A cooperative architecture based on the exchange of documents and of temperature monitoring results is defined. Another application of proxies and semantic catching is also presented in the context of content-based multimedia queries. Using previous research focused on integrating content-based queries with classical databases, we define a cooperative architecture dedicated to distributed content-based multimedia queries which basic components are cooperative proxies and semantic caches. Finally an application of temperature for the management of cache index for the members of theme-based virtual communities

8

Mokhtari, Noureddine. "Extraction et exploitation d'annotations sémantiques contextuelles à partir de texte." Nice, 2010. http://www.theses.fr/2010NICE4045.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse rentre dans le cadre du projet européen SevenPro (Environnement d’ingénierie virtuel sémantique pour la conception des produits) dont le but est d'améliorer le processus d'ingénierie de production dans les entreprises de fabrication, au moyen de l’acquisition, de la formalisation et de l'exploitation des connaissances. Nous proposons une approche méthodologique et logicielle pour générer des annotations sémantiques contextuelles à partir de texte. Notre approche est basée sur des ontologies et sur les technologies du Web sémantique. Dans une première partie, nous proposons une modélisation de la notion de « contexte » pour le texte. Cette modélisation peut être perçue comme une projection des différents aspects du «contexte» abordés par ses définitions dans la littérature. Nous proposons également une modélisation des annotations sémantiques contextuelles, avec la définition des différents types de relations contextuelles pouvant exister dans le texte. Ensuite, nous proposons une méthodologie générique pour la génération d’annotations sémantiques contextuelles basées sur une ontologie du domaine qui exploite au mieux les connaissances contenues dans les textes. L’originalité de la méthodologie est qu’elle utilise des techniques de traitement automatique de la langue ainsi que des grammaires d’extraction (engendrées automatiquement) de relations de domaine, de concepts et de valeurs de propriété afin de produire des annotations sémantiques reliées avec des relations contextuelles. De plus, nous prenons en compte le contexte d’apparition des annotations sémantiques pendant leur génération. Un système supportant cette méthodologie a été implémenté et évalué
This thesis falls within the framework of the European project SevenPro (Semantic Virtual Engineering Environment for Product Design) whose aim is to improve the engineering process of production in manufacturing companies, through acquisition, formalization and exploitation of knowledge. We propose a methodological approach and software for generating contextual semantic annotations from text. Our approach is based on ontologies and Semantic Web technologies. In the first part, we propose a model of the concept of "context" for the text. This modeling can be seen as a projection of various aspects of "context" covered by the definitions in literature. We also propose a model of contextual semantic annotations, with the definition of different types of contextual relationships that may exist in the text. Then, we propose a generic methodology for the generation of contextual semantic annotations based on domain ontology that operates at best with the knowledge contained in texts. The novelty in the methodology is that it uses language automatic processing techniques and grammar extraction (automatically generated) field relations, concepts and values of property in order to produce semantic annotations associated with contextual relations. In addition, we take into account the context of occurrence of semantic annotations for their generation. A system that supports this methodology has been implemented and evaluated

9

Lechervy, Alexis. "Apprentissage interactif et multi-classes pour la détection de concepts sémantiques dans les données multimédia." Phd thesis, Université de Cergy Pontoise, 2012. http://tel.archives-ouvertes.fr/tel-00781763.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Récemment les techniques d'apprentissage automatique ont montré leurs capacité à identifier des catégories d'images à partir de descripteurs extrait de caractéristiques visuels des images. Face à la croissance du nombre d'images et du nombre de catégories à traiter, plusieurs techniques ont été proposées pour réduire à la fois le coût calculatoire des méthodes et l'investissement humain en terme de supervision. Dans cette thèse nous proposons deux méthodes qui ont pour objectif de traiter un grand nombre d'images et de catégories. Nous proposons tout d'abord une solution reposant sur le concepts de recherche interactive. Le protocole de recherche interactive propose d'établir un " dialogue " entre le système d'apprentissage et l'utilisateur afin de minimiser l'effort d'annotation. Nous avons voulu dans ces travaux proposer une solution de recherche interactive adaptée aux méthodes de boosting . Ces méthodes combinent des classifieurs faibles pour produire un classifieur plus fort. Nous avons proposé une méthode de boosting interactif pour la recherche dans les images qui fit l'objet de deux articles (RFIA 2010, ICPR 2010). Ces méthodes proposent notamment une nouvelle manière de construire l'ensemble des classifieurs faibles sélectionnables par le boosting. Dans un second temps nous nous sommes consacré plus particulièrement aux méthodes à noyaux dans un contexte d'apprentissage plus classique. Ces méthodes ont montré de très bon résultats mais le choix de la fonction noyau et son réglage reste un enjeux important. Dans ces travaux, nous avons mis en place une nouvelle méthode d'apprentissage de fonction noyau multi-classes pour la classification de grande base d'images. Nous avons choisie d'utiliser un frameworks inspiré des méthodes de boosting pour créer un noyau fort à partir d'une combinaison de noyau plus faible. Nous utilisons la dualité entre fonction noyau et espace induit pour construit un nouvelle espace de représentation des données plus adapté à la catégorisation. L'idée de notre méthode est de construire de manière optimale ce nouvel espace de représentation afin qu'il permette l'apprentissage d'un nouveau classifieur plus rapide et de meilleures qualités. Chaque donnée multimédia sera alors représentée dans cette espace sémantique en lieu et place de sa représentation visuelle. Pour reproduire une approche similaire à une méthode de boosting, nous utilisons une construction incrémentale où des noyaux faibles sont entraînés dans une direction déterminée par les erreurs de l'itération précédente. Ces noyaux sont combinés à un facteur de pondération près, calculé grâce à la résolution analytique d'un problème d'optimisation. Ces travaux se basent sur des fondements mathématiques et font l'objet d'expériences montrant son intérêt pratique par comparaison avec les méthodes les plus récentes de la littérature. Ceux-ci sont présentés dans deux articles à Esann 2012 et ICIP 2012 ainsi que dans une soumission à MTAP.

10

Francis, Danny. "Représentations sémantiques d'images et de vidéos." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS605.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Des travaux de recherche récents en apprentissage profond ont permis d’améliorer significativement les performances des modèles multimédias : avec la création de grands jeux de données d’images ou de vidéos annotées, les réseaux de neurones profonds ont surpassé les modèles précédemment utilisés dans la plupart des cas. Dans cette thèse, nous avons développé de nouveaux modèles neuronaux profonds permettant de générer des représentations sémantiques d’images et de vidéos. Nous nous sommes intéressés à deux tâches principales : l’appariement d’images ou de vidéos et de textes, et la génération automatique de légendes. La tâche d’appariement peut être réalisée par le biais d’un espace multimodal commun permettant de comparer images ou vidéos et textes. Nous avons pour cela défini deux types de modèles d’appariement en nous inspirant des travaux récents sur les réseaux de capsules. La génération automatique de légendes textuelles est une tâche ardue, puisqu’elle demande à analyser un objet visuel, et à le transcrire en une description en langage naturel. Pour cela, nous proposons deux méthodes d’apprentissage par curriculum. Par ailleurs, nous avons défini une méthode permettant à un modèle de génération de légendes de vidéos de combiner des informations spatiales et temporelles. Des expériences ont permis de prouver l’intérêt de nos propositions par rapport aux travaux existants
Recent research in Deep Learning has sent the quality of results in multimedia tasks rocketing: thanks to new big datasets of annotated images and videos, Deep Neural Networks (DNN) have outperformed other models in most cases. In this thesis, we aim at developing DNN models for automatically deriving semantic representations of images and videos. In particular we focus on two main tasks : vision-text matching and image/video automatic captioning. Addressing the matching task can be done by comparing visual objects and texts in a visual space, a textual space or a multimodal space. Based on recent works on capsule networks, we define two novel models to address the vision-text matching problem: Recurrent Capsule Networks and Gated Recurrent Capsules. In image and video captioning, we have to tackle a challenging task where a visual object has to be analyzed, and translated into a textual description in natural language. For that purpose, we propose two novel curriculum learning methods. Moreover regarding video captioning, analyzing videos requires not only to parse still images, but also to draw correspondences through time. We propose a novel Learned Spatio-Temporal Adaptive Pooling method for video captioning that combines spatial and temporal analysis. Extensive experiments on standard datasets assess the interest of our models and methods with respect to existing works

11

Cailhol, Simon. "Planification interactive de trajectoire en Réalité Virtuelle sur la base de données géométriques, topologiques et sémantiques." Thesis, Toulouse, INPT, 2015. http://www.theses.fr/2015INPT0058/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Pour limiter le temps et le coût de développement de nouveaux produits, l’industrie a besoin d’outils pour concevoir, tester et valider le produit avec des prototypes virtuels. Ces prototypes virtuels doivent permettre de tester le produit à toutes les étapes du Product Lifecycle Management (PLM). Beaucoup d’opérations du cycle de vie du produit impliquent la manipulation par un humain des composants du produit (montage, démontage ou maintenance du produit). Du fait de l’intégration croissante des produits industriels, ces manipulations sont réalisées dans un environnement encombré. La Réalité Virtuelle (RV) permet à des opérateurs réels d’exécuter ces opérations avec des prototypes virtuels. Ce travail de recherche introduit une nouvelle architecture de planification de trajectoire permettant la collaboration d’un utilisateur de RV et d’un système de planification de trajectoire automatique. Cette architecture s’appuie sur un modèle d’environnement original comprenant des informations sémantiques, topologiques et géométriques. Le processus de planification automatique de trajectoire est scindé en deux phases. Une planification grossière d’abord exploitant les données sémantique et topologiques. Cette phase permet de définir un chemin topologique. Une planification fine ensuite exploitant les données sémantiques et géométriques détermine un trajectoire géométrique dans le chemin topologique défini lors de la planification grossière. La collaboration entre le système de planification automatique et l’utilisateur de RV s’articule autour de deux modes : en premier lieu, l’utilisateur est guidé sur une trajectoire pré-calculée à travers une interface haptique ; en second lieu, l’utilisateur peut quitter la solution proposée et déclencher ainsi une re-planification. L’efficacité et l’ergonomie des ces deux modes d’interaction est enrichie grâce à des méthodes de partage de contrôle : tout d’abord, l’autorité du système automatique est modulée afin de fournir à la fois un guidage prégnant lorsque l’utilisateur le suit, et plus de liberté à l’utilisateur (un guidage atténué) lorsque celui-ci explore des chemins alternatifs potentiellement meilleurs. Ensuite, lorsque l’utilisateur explore des chemins alternatifs, ses intentions sont prédites (grâce aux données géométriques associées aux éléments topologiques) et intégrées dans le processus de re-planification pour guider la planification grossière. Ce mémoire est organisé en cinq chapitres. Le premier expose le contexte industriel ayant motivé ces travaux. Après une description des outils de modélisation de l’environnement, le deuxième chapitre introduit le modèle multi-niveaux de l’environnement proposé. Le troisième chapitre présente les techniques de planification de trajectoire issues de la robotique et détaille le processus original de planification de trajectoire en deux phases développé. Le quatrième introduit les travaux précurseurs de planification interactive de trajectoire et les techniques de partage de contrôle existantes avant de décrire les modes d’interaction et les techniques de partage de contrôle mises en œuvre dans notre planificateur interactif de trajectoire. Enfin le dernier chapitre présente les expérimentations menées avec le planificateur de trajectoire et en analyse leurs résultats
To save time and money while designing new products, industry needs tools to design, test and validate the product using virtual prototypes. These virtual prototypes must enable to test the product at all Product Lifecycle Management (PLM) stages. Many operations in product’s lifecycle involve human manipulation of product components (product assembly, disassembly or maintenance). Cue to the increasing integration of industrial products, these manipulations are performed in cluttered environment. Virtual Reality (VR) enables real operators to perform these operations with virtual prototypes. This research work introduces a novel path planning architecture allowing collaboration between a VR user and an automatic path planning system. This architecture is based on an original environment model including semantic, topological and geometric information. The automatic path planning process split in two phases. First, coarse planning uses semantic and topological information. This phase defines a topological path. Then, fine planning uses semantic and geometric information to define a geometrical trajectory within the topological path defined by the coarse planning. The collaboration between VR user and automatic path planner is made of two modes: on one hand, the user is guided along a pre-computed path through a haptic device, on the other hand, the user can go away from the proposed solution and doing it, he starts a re-planning process. Efficiency and ergonomics of both interaction modes is improved thanks to control sharing methods. First, the authority of the automatic system is modulated to provide the user with a sensitive guidance while he follows it and to free the user (weakened guidance) when he explores possible better ways. Second, when the user explores possible better ways, his intents are predicted (thanks to geometrical data associated to topological elements) and integrated in the re-planning process to guide the coarse planning. This thesis is divided in five chapters. The first one exposes the industrial context that motivated this work. Following a description of environment modeling tools, the second chapter introduces the multi-layer environment model proposed. The third chapter presents the path planning techniques from robotics research and details the two phases path planning process developed. The fourth introduce previous work on interactive path planning and control sharing techniques before to describe the interaction modes and control sharing techniques involved in our interactive path planner. Finally, last chapter introduces the experimentations performed with our path planner and analyses their results

12

Belghaouti, Fethi. "Interopérabilité des systèmes distribués produisant des flux de données sémantiques au profit de l'aide à la prise de décision." Electronic Thesis or Diss., Université Paris-Saclay (ComUE), 2017. http://www.theses.fr/2017SACLL003.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Internet est une source infinie de données émanant de sources telles que les réseaux sociaux ou les capteurs (domotique, ville intelligente, véhicule autonome, etc.). Ces données hétérogènes et de plus en plus volumineuses, peuvent être gérées grâce au web sémantique, qui propose de les homogénéiser et de les lier et de raisonner dessus, et aux systèmes de gestion de flux de données, qui abordent essentiellement les problèmes liés au volume, à la volatilité et à l’interrogation continue. L’alliance de ces deux disciplines a vu l’essor des systèmes de gestion de flux de données sémantiques RSP (RDF Stream Processing systems). L’objectif de cette thèse est de permettre à ces systèmes, via de nouvelles approches et algorithmes à faible coût, de rester opérationnels, voire plus performants, même en cas de gros volumes de données en entrée et/ou de ressources système limitées.Pour atteindre cet objectif, notre thèse s’articule principalement autour de la problématique du : "Traitement de flux de données sémantiques dans un contexte de systèmes informatiques à ressources limitées". Elle adresse les questions de recherche suivantes : (i) Comment représenter un flux de données sémantiques ? Et (ii) Comment traiter les flux de données sémantiques entrants, lorsque leurs débits et/ou volumes dépassent les capacités du système cible ?Nous proposons comme première contribution une analyse des données circulant dans les flux de données sémantiques pour considérer non pas une succession de triplets indépendants mais plutôt une succession de graphes en étoiles, préservant ainsi les liens entre les triplets. En utilisant cette approche, nous avons amélioré significativement la qualité des réponses de quelques algorithmes d’échantillonnage bien connus dans la littérature pour le délestage des flux. L’analyse de la requête continue permet d’optimiser cette solution en repèrant les données non pertinentes pour être délestées les premières. Dans la deuxième contribution, nous proposons un algorithme de détection de motifs fréquents de graphes RDF dans les flux de données RDF, appelé FreGraPaD (Frequent RDF Graph Patterns Detection). C’est un algorithme en une passe, orienté mémoire et peu coûteux. Il utilise deux structures de données principales un vecteur de bits pour construire et identifier le motif de graphe RDF assurant une optimisation de l’espace mémoire et une table de hachage pour le stockage de ces derniers. La troisième contribution de notre thèse consiste en une solution déterministe de réduction de charge des systèmes RSP appelée POL (Pattern Oriented Load-shedding for RDF Stream Processing systems). Elle utilise des opérateurs booléens très peu coûteux, qu’elle applique aux deux motifs binaires construits de la donnée et de la requête continue pour déterminer et éjecter celle qui est non-pertinente. Elle garantit un rappel de 100%, réduit la charge du système et améliore son temps de réponse. Enfin, notre quatrième contribution est un outil de compression en ligne de flux RDF, appelé Patorc (Pattern Oriented Compression for RSP systems). Il se base sur les motifs fréquents présents dans les flux qu’il factorise. C’est une solution de compression sans perte de données dont l’interrogation sans décompression est très envisageable. Les solutions apportées par cette thèse permettent l’extension des systèmes RSP existants en leur permettant le passage à l’échelle dans un contexte de Bigdata. Elles leur permettent ainsi de manipuler un ou plusieurs flux arrivant à différentes vitesses, sans perdre de leur qualité de réponse et tout en garantissant leur disponibilité au-delà même de leurs limites physiques. Les résultats des expérimentations menées montrent que l’extension des systèmes existants par nos solutions améliore leurs performances. Elles illustrent la diminution considérable de leur temps de réponse, l’augmentation de leur seuil de débit de traitement en entrée tout en optimisant l’utilisation de leurs ressources systèmes
Internet is an infinite source of data coming from sources such as social networks or sensors (home automation, smart city, autonomous vehicle, etc.). These heterogeneous and increasingly large data can be managed through semantic web technologies, which propose to homogenize, link these data and reason above them, and data flow management systems, which mainly address the problems related to volume, volatility and continuous querying. The alliance of these two disciplines has seen the growth of semantic data stream management systems also called RSP (RDF Stream Processing Systems). The objective of this thesis is to allow these systems, via new approaches and "low cost" algorithms, to remain operational, even more efficient, even for large input data volumes and/or with limited system resources.To reach this goal, our thesis is mainly focused on the issue of "Processing semantic data streamsin a context of computer systems with limited resources". It directly contributes to answer the following research questions : (i) How to represent semantic data stream ? And (ii) How to deal with input semantic data when their rates and/or volumes exceed the capabilities of the target system ?As first contribution, we propose an analysis of the data in the semantic data streams in order to consider a succession of star graphs instead of just a success of andependent triples, thus preserving the links between the triples. By using this approach, we significantly impoved the quality of responses of some well known sampling algoithms for load-shedding. The analysis of the continuous query allows the optimisation of this solution by selection the irrelevant data to be load-shedded first. In the second contribution, we propose an algorithm for detecting frequent RDF graph patterns in semantic data streams.We called it FreGraPaD for Frequent RDF Graph Patterns Detection. It is a one pass algorithm, memory oriented and "low-cost". It uses two main data structures : A bit-vector to build and identify the RDF graph pattern, providing thus memory space optimization ; and a hash-table for storing the patterns.The third contribution of our thesis consists of a deterministic load-shedding solution for RSP systems, called POL (Pattern Oriented Load-shedding for RDF Stream Processing systems). It uses very low-cost boolean operators, that we apply on the built binary patterns of the data and the continuous query inorder to determine which data is not relevant to be ejected upstream of the system. It guarantees a recall of 100%, reduces the system load and improves response time. Finally, in the fourth contribution, we propose Patorc (Pattern Oriented Compression for RSP systems). Patorc is an online compression toolfor RDF streams. It is based on the frequent patterns present in RDF data streams that factorizes. It is a data lossless compression solution whith very possible querying without any need to decompression.This thesis provides solutions that allow the extension of existing RSP systems and makes them able to scale in a bigdata context. Thus, these solutions allow the RSP systems to deal with one or more semantic data streams arriving at different speeds, without loosing their response quality while ensuring their availability, even beyond their physical limitations. The conducted experiments, supported by the obtained results show that the extension of existing systems with the new solutions improves their performance. They illustrate the considerable decrease in their engine’s response time, increasing their processing rate threshold while optimizing the use of their system resources

13

El, Haddadi Anass. "Fouille multidimensionnelle sur les données textuelles visant à extraire les réseaux sociaux et sémantiques pour leur exploitation via la téléphonie mobile." Toulouse 3, 2011. http://thesesups.ups-tlse.fr/1378/.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La concurrence est un concept fondamental de la tradition libérale et des sciences économiques qui oblige les entreprises à pratiquer l'Intelligence Economique (IE) pour bien se positionner sur le marché ou tout simplement pour survivre. Mais souvent, ce n'est pas le plus fort qui survit, ni le plus intelligent, mais celui qui est le plus sensible au changement, facteur dominant dans la société actuelle. Les changements proviennent de l'extérieur ou naissent au sein même de l'entreprise et peuvent l'affecter plus ou moins durablement. Dès lors, les entreprises sont appelées à rester constamment en veille pour guetter le moindre changement en vue d'y apporter la solution adéquate en temps réel. Cependant, pour une veille réussie, on ne doit pas se contenter uniquement de surveiller les opportunités, mais avant tout, d'anticiper les menaces. Malheureusement, cette veille se déroule en oubliant l'indispensable volet sécurité de l'IE à savoir la sécurité des données manipulées et celle des procédés suivis pour atteindre les objectifs de l'IE. Nos travaux de recherche consistent à proposer un Système d'Intelligence Economique (SIE) Généraliste et Mobile. Ce SIE intègre une approche de modélisation du contrôle d'accès aux données et aux traitements pour sécuriser toutes les informations et les flux d'interaction durant son cycle de vie. Le besoin en matière de sécurité dans un SIE provient du fait que les informations manipulées sont d'ordre stratégique ayant une valeur assez importante. Une telle sécurité ne doit pas être considérée comme une option supplémentaire qu'offre un SIE pour se distinguer d'un autre. D'autant plus que la fuite de ces informations n'est pas le fait de faiblesses inhérentes aux systèmes informatiques des entreprises, mais c'est avant tout une question organisationnelle. La mobilité présente un choix stratégique pour notre SIE ''XPlor EveryWhere'', dont le but est de permettre aux utilisateurs de nos solutions de veille de continuer à rechercher, surveiller, valider et rediffuser des informations stratégiques au cours de leurs déplacements. Ils n'ont ainsi plus besoin d'être assis face à leur ordinateur pour accéder à des données utiles dans l'instant (préparation d'une réunion, nouvel ordre du jour, information sur un interlocuteur, une technologie, un marché, demande urgente d'une analyse ou d'un focus spécifique). Il leur suffit simplement d'utiliser discrètement, et en tout sécurité, leur appareil mobile. Grâce à XPlor EveryWhere, ils sont en permanence au cœur de l'information pertinente
Competition is a fundamental concept of the liberal economy tradition that requires companies to resort to Competitive Intelligence (CI) in order to be advantageously positioned on the market, or simply to survive. Nevertheless, it is well known that it is not the strongest of the organizations that survives, nor the most intelligent, but rather, the one most adaptable to change, the dominant factor in society today. Therefore, companies are required to remain constantly on a wakeful state to watch for any change in order to make appropriate solutions in real time. However, for a successful vigil, we should not be satisfied merely to monitor the opportunities, but before all, to anticipate risks. The external risk factors have never been so many: extremely dynamic and unpredictable markets, new entrants, mergers and acquisitions, sharp price reduction, rapid changes in consumption patterns and values, fragility of brands and their reputation. To face all these challenges, our research consists in proposing a Competitive Intelligence System (CIS) designed to provide online services. Through descriptive and statistics exploratory methods of data, Xplor EveryWhere display, in a very short time, new strategic knowledge such as: the profile of the actors, their reputation, their relationships, their sites of action, their mobility, emerging issues and concepts, terminology, promising fields etc. The need for security in XPlor EveryWhere arises out of the strategic nature of information conveyed with quite a substantial value. Such security should not be considered as an additional option that a CIS can provide just in order to be distinguished from one another. Especially as the leak of this information is not the result of inherent weaknesses in corporate computer systems, but above all it is an organizational issue. With Xplor EveryWhere we completed the reporting service, especially the aspect of mobility. Lastly with this system, it's possible to: View updated information as we have access to our strategic database server in real-time, itself fed daily by watchmen. They can enter information at trade shows, customer visits or after meetings

14

Belghaouti, Fethi. "Interopérabilité des systèmes distribués produisant des flux de données sémantiques au profit de l'aide à la prise de décision." Thesis, Université Paris-Saclay (ComUE), 2017. http://www.theses.fr/2017SACLL003.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Internet est une source infinie de données émanant de sources telles que les réseaux sociaux ou les capteurs (domotique, ville intelligente, véhicule autonome, etc.). Ces données hétérogènes et de plus en plus volumineuses, peuvent être gérées grâce au web sémantique, qui propose de les homogénéiser et de les lier et de raisonner dessus, et aux systèmes de gestion de flux de données, qui abordent essentiellement les problèmes liés au volume, à la volatilité et à l’interrogation continue. L’alliance de ces deux disciplines a vu l’essor des systèmes de gestion de flux de données sémantiques RSP (RDF Stream Processing systems). L’objectif de cette thèse est de permettre à ces systèmes, via de nouvelles approches et algorithmes à faible coût, de rester opérationnels, voire plus performants, même en cas de gros volumes de données en entrée et/ou de ressources système limitées.Pour atteindre cet objectif, notre thèse s’articule principalement autour de la problématique du : "Traitement de flux de données sémantiques dans un contexte de systèmes informatiques à ressources limitées". Elle adresse les questions de recherche suivantes : (i) Comment représenter un flux de données sémantiques ? Et (ii) Comment traiter les flux de données sémantiques entrants, lorsque leurs débits et/ou volumes dépassent les capacités du système cible ?Nous proposons comme première contribution une analyse des données circulant dans les flux de données sémantiques pour considérer non pas une succession de triplets indépendants mais plutôt une succession de graphes en étoiles, préservant ainsi les liens entre les triplets. En utilisant cette approche, nous avons amélioré significativement la qualité des réponses de quelques algorithmes d’échantillonnage bien connus dans la littérature pour le délestage des flux. L’analyse de la requête continue permet d’optimiser cette solution en repèrant les données non pertinentes pour être délestées les premières. Dans la deuxième contribution, nous proposons un algorithme de détection de motifs fréquents de graphes RDF dans les flux de données RDF, appelé FreGraPaD (Frequent RDF Graph Patterns Detection). C’est un algorithme en une passe, orienté mémoire et peu coûteux. Il utilise deux structures de données principales un vecteur de bits pour construire et identifier le motif de graphe RDF assurant une optimisation de l’espace mémoire et une table de hachage pour le stockage de ces derniers. La troisième contribution de notre thèse consiste en une solution déterministe de réduction de charge des systèmes RSP appelée POL (Pattern Oriented Load-shedding for RDF Stream Processing systems). Elle utilise des opérateurs booléens très peu coûteux, qu’elle applique aux deux motifs binaires construits de la donnée et de la requête continue pour déterminer et éjecter celle qui est non-pertinente. Elle garantit un rappel de 100%, réduit la charge du système et améliore son temps de réponse. Enfin, notre quatrième contribution est un outil de compression en ligne de flux RDF, appelé Patorc (Pattern Oriented Compression for RSP systems). Il se base sur les motifs fréquents présents dans les flux qu’il factorise. C’est une solution de compression sans perte de données dont l’interrogation sans décompression est très envisageable. Les solutions apportées par cette thèse permettent l’extension des systèmes RSP existants en leur permettant le passage à l’échelle dans un contexte de Bigdata. Elles leur permettent ainsi de manipuler un ou plusieurs flux arrivant à différentes vitesses, sans perdre de leur qualité de réponse et tout en garantissant leur disponibilité au-delà même de leurs limites physiques. Les résultats des expérimentations menées montrent que l’extension des systèmes existants par nos solutions améliore leurs performances. Elles illustrent la diminution considérable de leur temps de réponse, l’augmentation de leur seuil de débit de traitement en entrée tout en optimisant l’utilisation de leurs ressources systèmes
Internet is an infinite source of data coming from sources such as social networks or sensors (home automation, smart city, autonomous vehicle, etc.). These heterogeneous and increasingly large data can be managed through semantic web technologies, which propose to homogenize, link these data and reason above them, and data flow management systems, which mainly address the problems related to volume, volatility and continuous querying. The alliance of these two disciplines has seen the growth of semantic data stream management systems also called RSP (RDF Stream Processing Systems). The objective of this thesis is to allow these systems, via new approaches and "low cost" algorithms, to remain operational, even more efficient, even for large input data volumes and/or with limited system resources.To reach this goal, our thesis is mainly focused on the issue of "Processing semantic data streamsin a context of computer systems with limited resources". It directly contributes to answer the following research questions : (i) How to represent semantic data stream ? And (ii) How to deal with input semantic data when their rates and/or volumes exceed the capabilities of the target system ?As first contribution, we propose an analysis of the data in the semantic data streams in order to consider a succession of star graphs instead of just a success of andependent triples, thus preserving the links between the triples. By using this approach, we significantly impoved the quality of responses of some well known sampling algoithms for load-shedding. The analysis of the continuous query allows the optimisation of this solution by selection the irrelevant data to be load-shedded first. In the second contribution, we propose an algorithm for detecting frequent RDF graph patterns in semantic data streams.We called it FreGraPaD for Frequent RDF Graph Patterns Detection. It is a one pass algorithm, memory oriented and "low-cost". It uses two main data structures : A bit-vector to build and identify the RDF graph pattern, providing thus memory space optimization ; and a hash-table for storing the patterns.The third contribution of our thesis consists of a deterministic load-shedding solution for RSP systems, called POL (Pattern Oriented Load-shedding for RDF Stream Processing systems). It uses very low-cost boolean operators, that we apply on the built binary patterns of the data and the continuous query inorder to determine which data is not relevant to be ejected upstream of the system. It guarantees a recall of 100%, reduces the system load and improves response time. Finally, in the fourth contribution, we propose Patorc (Pattern Oriented Compression for RSP systems). Patorc is an online compression toolfor RDF streams. It is based on the frequent patterns present in RDF data streams that factorizes. It is a data lossless compression solution whith very possible querying without any need to decompression.This thesis provides solutions that allow the extension of existing RSP systems and makes them able to scale in a bigdata context. Thus, these solutions allow the RSP systems to deal with one or more semantic data streams arriving at different speeds, without loosing their response quality while ensuring their availability, even beyond their physical limitations. The conducted experiments, supported by the obtained results show that the extension of existing systems with the new solutions improves their performance. They illustrate the considerable decrease in their engine’s response time, increasing their processing rate threshold while optimizing the use of their system resources

15

Bernard, Luc. "Développement d'un jeu de structures de données et de contraintes sémantiques pour la compilation(séparée) du langage ADA." Doctoral thesis, Universite Libre de Bruxelles, 1985. http://hdl.handle.net/2013/ULB-DIPOT:oai:dipot.ulb.ac.be:2013/213624.

Full text

APA, Harvard, Vancouver, ISO, and other styles

16

Puget, Dominique. "Aspects sémantiques dans les Systèmes de Recherche d'Informations." Toulouse 3, 1993. http://www.theses.fr/1993TOU30139.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les travaux de recherche exposes dans ce memoire relevent du domaine de l'informatique documentaire, et se situent plus particulierement parmi les travaux sur les systemes intelligents en recherche d'informations. Notre etude s'inscrit dans le prolongement du projet infodiab, qui est un systeme de recherche d'informations utilisant le langage courant comme source d'informations et comme moyen d'interrogation. Ce systeme est destine a faciliter la prise en charge d'une maladie grave et contraignante: le diabete. Notre premiere contribution a permis le couplage de infodiab avec le systeme dialog (une messagerie et un forum) que nous avons developpe dans le but de favoriser le dialogue entre les patients diabetiques et leur medecin generaliste, mais egalement afin de pouvoir mettre a jour le fonds documentaire du systeme de recherche d'informations, et ceci principalement en fonction des besoins en informations des utilisateurs. Notre deuxieme contribution a pour but la realisation d'un systeme de recherche d'informations base sur un modele de representation qui s'inspire de la theorie des graphes conceptuels en reprenant les grands principes. La structure utilisee pour representer la connaissance est un graphe oriente assimilable a un graphe conceptuel que nous avons appele graphe syntaxique. L'interet de notre approche est de gerer la syntaxe et la semantique utiles et representatives dans le domaine de l'application pour la representation des documents et l'evaluation des requetes, et ceci afin d'obtenir un modele de representation suffisamment simple pour permettre une manipulation efficace. Par rapport aux systemes de recherche classiques, notre systeme offre tout d'abord une meilleure comprehension des documents et des requetes. Ceci se traduit par une reconnaissance des relations syntaxiques et semantiques entre les termes d'un document ou d'une requete. De plus, notre systeme permet une comparaison intelligente entre un document et une requete, ce qui signifie en fait l'utilisation des connaissances syntaxiques et semantiques entre les differents termes durant l'evaluation d'une requete. Ainsi, cela contribue a ameliorer le taux de rappel et le taux de precision du systeme

17

Zaidi, Houda. "Amélioration de la qualité des données : correction sémantique des anomalies inter-colonnes." Thesis, Paris, CNAM, 2017. http://www.theses.fr/2017CNAM1094/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La qualité des données présente un grand enjeu au sein d'une organisation et influe énormément sur la qualité de ses services et sur sa rentabilité. La présence de données erronées engendre donc des préoccupations importantes autour de cette qualité. Ce rapport traite la problématique de l'amélioration de la qualité des données dans les grosses masses de données. Notre approche consiste à aider l'utilisateur afin de mieux comprendre les schémas des données manipulées, mais aussi définir les actions à réaliser sur celles-ci. Nous abordons plusieurs concepts tels que les anomalies des données au sein d'une même colonne, et les anomalies entre les colonnes relatives aux dépendances fonctionnelles. Nous proposons dans ce contexte plusieurs moyens de pallier ces défauts en nous intéressons à la performance des traitements ainsi opérés
Data quality represents a major challenge because the cost of anomalies can be very high especially for large databases in enterprises that need to exchange information between systems and integrate large amounts of data. Decision making using erroneous data has a bad influence on the activities of organizations. Quantity of data continues to increase as well as the risks of anomalies. The automatic correction of these anomalies is a topic that is becoming more important both in business and in the academic world. In this report, we propose an approach to better understand the semantics and the structure of the data. Our approach helps to correct automatically the intra-column anomalies and the inter-columns ones. We aim to improve the quality of data by processing the null values and the semantic dependencies between columns

18

Mecharnia, Thamer. "Approches sémantiques pour la prédiction de présence d'amiante dans les bâtiments : une approche probabiliste et une approche à base de règles." Electronic Thesis or Diss., université Paris-Saclay, 2022. http://www.theses.fr/2022UPASG036.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

De nos jours, les Graphes de Connaissances sont utilisés pour représenter toutes sortes de données et ils constituent des ressources évolutives, interopérables et exploitables par des outils d’aide à la décision. Le Centre Scientifique et Technique du Bâtiment (CSTB) a été sollicité pour développer un outil d'aide à l'identification des matériaux contenant de l'amiante dans les bâtiments. Dans ce contexte, nous avons créé et peuplé l'ontologie ASBESTOS qui permet la représentation des données des bâtiments et les résultats des diagnostics réalisés en vue de détecter la présence d’amiante dans les produits utilisés. Nous nous sommes ensuite basés sur ce graphe de connaissance pour développer deux approches qui permettent de prédire la présence d’amiante dans les produits en l’absence de la référence du produit commercialisé effectivement utilisé.La première approche, nommée approche hybride, se base sur des ressources externes décrivant les périodes où les produits commercialisés sont amiantés pour calculer une probabilité d’existence d’amiante dans un composant du bâtiment. Cette approche traite les conflits entre les ressources externes, et l’incomplétude des données répertoriées en appliquant une approche de fusion pessimiste qui ajuste les probabilités calculées en utilisant un sous-ensemble de diagnostiques.La deuxième approche, nommée CRA-Miner, s’inspire de méthodes de programmation logique inductive (PLI) pour découvrir des règles à partir du graphe de connaissances décrivant les bâtiments et les diagnostics d'amiante. La référence des produits spécifiques utilisés lors de la construction n'étant jamais spécifiée, CRA-Miner considère les données temporelles, la sémantique de l'ontologie ASBESTOS, les types de produits et les informations contextuelles telles que les relations partie-tout pour découvrir un ensemble de règles qui pourront être utilisées pour prédire la présence d'amiante dans les éléments de construction.L’évaluation des deux approches menées sur l'ontologie ASBESTOS peuplée avec les données fournies par le CSTB montrent que les résultats obtenus, en particulier quand les deux approches sont combinées, sont tout à fait prometteurs
Nowadays, Knowledge Graphs are used to represent all kinds of data and they constitute scalable and interoperable resources that can be used by decision support tools. The Scientific and Technical Center for Building (CSTB) was asked to develop a tool to help identify materials containing asbestos in buildings. In this context, we have created and populated the ASBESTOS ontology which allows the representation of building data and the results of diagnostics carried out in order to detect the presence of asbestos in the used products. We then relied on this knowledge graph to develop two approaches which make it possible to predict the presence of asbestos in products in the absence of the reference of the marketed product actually used.The first approach, called the hybrid approach, is based on external resources describing the periods when the marketed products are asbestos-containing to calculate the probability of the existence of asbestos in a building component. This approach addresses conflicts between external resources, and incompleteness of listed data by applying a pessimistic fusion approach that adjusts the calculated probabilities using a subset of diagnostics.The second approach, called CRA-Miner, is inspired by inductive logic programming (ILP) methods to discover rules from the knowledge graph describing buildings and asbestos diagnoses. Since the reference of specific products used during construction is never specified, CRA-Miner considers temporal data, ASBESTOS ontology semantics, product types and contextual information such as part-of relations to discover a set of rules that can be used to predict the presence of asbestos in construction elements.The evaluation of the two approaches carried out on the ASBESTOS ontology populated with the data provided by the CSTB show that the results obtained, in particular when the two approaches are combined, are quite promising

19

Zaidi, Houda. "Amélioration de la qualité des données : correction sémantique des anomalies inter-colonnes." Electronic Thesis or Diss., Paris, CNAM, 2017. http://www.theses.fr/2017CNAM1094.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La qualité des données présente un grand enjeu au sein d'une organisation et influe énormément sur la qualité de ses services et sur sa rentabilité. La présence de données erronées engendre donc des préoccupations importantes autour de cette qualité. Ce rapport traite la problématique de l'amélioration de la qualité des données dans les grosses masses de données. Notre approche consiste à aider l'utilisateur afin de mieux comprendre les schémas des données manipulées, mais aussi définir les actions à réaliser sur celles-ci. Nous abordons plusieurs concepts tels que les anomalies des données au sein d'une même colonne, et les anomalies entre les colonnes relatives aux dépendances fonctionnelles. Nous proposons dans ce contexte plusieurs moyens de pallier ces défauts en nous intéressons à la performance des traitements ainsi opérés
Data quality represents a major challenge because the cost of anomalies can be very high especially for large databases in enterprises that need to exchange information between systems and integrate large amounts of data. Decision making using erroneous data has a bad influence on the activities of organizations. Quantity of data continues to increase as well as the risks of anomalies. The automatic correction of these anomalies is a topic that is becoming more important both in business and in the academic world. In this report, we propose an approach to better understand the semantics and the structure of the data. Our approach helps to correct automatically the intra-column anomalies and the inter-columns ones. We aim to improve the quality of data by processing the null values and the semantic dependencies between columns

20

Belaid, Nabil. "Modélisation de services et de workflows sémantiques à base d'ontologies de services et d'indexations." Phd thesis, Chasseneuil-du-Poitou, Ecole nationale supérieure de mécanique et d'aérotechnique, 2011. https://tel.archives-ouvertes.fr/tel-00605153.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les services et les workflows informatiques permettent le traitement ou l'échange d'informations. Toutefois, seules des informations utiles à leur gestion informatique (stockage, exécution, etc. ) sont spécifiées dans les langages de description syntaxique tels que WSDL, BPEL ou XPDL. En effet, ces descriptions ne permettent pas de lier explicitement les services et les workflows informatiques aux fonctions et aux processus implémentés. Pour remédier à ces limitations, nous proposons une approche basée sur la définition d'ontologies de services (conceptualisations partagées) et d'indexations sémantiques. Notre proposition s'appuie sur des bases de données à base ontologique pour stocker et indexer les différents services et workflows. La mise en oeuvre de notre approche consiste en un prototype logiciel permettant de stocker, de rechercher, de remplacer, de réutiliser les services et les workflows informatiques existant et d'en construire de nouveaux de manière incrémentale. Ces travaux sont validés en étant appliqués au domaine de la modélisation géologique
Services and workflows allow computer processing and information exchange. However, only information relevant to their computer management (storage, delivery, etc. ) is specified in the syntactic description languages such as WSDL, BPEL or XPDL. Indeed, these descriptions do not explicitly link the services and workflows to the implemented functions. To overcome these limitations, we propose an approach based on the definition of ontology of services (shared conceptualizations) and semantic indexations. Our proposal in ontology based databases to store and index the different services and workflows. The implementation of our approach is a prototype that enables to store, search, replace, reuse existing IT services and workflows and build new ones incrementally. This work is validated by being applied to the geological modeling field

21

Cayèré, Cécile. "Modélisation de trajectoires sémantiques et calcul de similarité intégrés à un ETL." Electronic Thesis or Diss., La Rochelle, 2022. http://www.theses.fr/2022LAROS042.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette dernière décennie, nous avons pu constater une montée en popularité des applications mobiles basées sur la localisation des téléphones. Ces applications collectent des traces de mobilité qui retracent le déplacement des utilisateurs au cours du temps. Dans le projet régional DA3T, nous faisons l’hypothèse que l’analyse des traces de mobilité de touristes peut aider les aménageurs dans la gestion et la valorisation des territoires touristiques. L’objectif est de concevoir des méthodes et des outils d’aide à l’analyse de ces traces. Cette thèse s’intéresse au traitement des traces de mobilité et propose une plateforme modulaire permettant de créer et d’exécuter des chaînes de traitement sur ces données. Au fil des modules d’une chaîne de traitement, la trace de mobilité brute évolue en trajectoires sémantiques. Les contributions de cette thèse sont : (i) un modèle de trajectoire sémantique multi-niveau et multi-aspect et (ii) deux mesures calculant la similarité entre deux trajectoires sémantiques s’intéressant aux dimensions spatiales, temporelle et thématique. Notre modèle (i) est utilisé comme modèle de transition entre les modules d’une chaîne de traitement. Nous l’avons mis à l’épreuve en instanciant des trajectoires sémantiques issues de différents jeux de données de domaines variés. Nos deux mesures (ii) sont intégrées à notre plateforme comme modules de traitement. Ces mesures présentent des originalités : l’une est la combinaison de sous-mesures, chacune permettant d’évaluer la similarité des trajectoires sur les trois dimensions et selon trois niveaux de granularité différents, l’autre est la combinaison de deux sous-mesures bidimensionnelles centrées autour d’une dimension en particulier. Nous avons évalué nos deux mesures en les comparant à d’autres mesures et à l’avis de géographes
Over the last decade, we have seen a rise in popularity of mobile applications based on phone location. These applications collect mobility tracks which describe the movement of users overtime. In the DA3T regional project, we hypothesise that the analysis of tourists’ mobility tracks can help planners in the management and enhancement of tourist areas. The objective is to design methods and tools to help analyse these tracks. This thesis focuses on the processing of mobility tracks and proposes a modular platform for creating and executing processing chains on these data. Throughout the modules of a processing chain, the raw mobility track evolves into semantic trajectories. The contributions of this thesis are: (i) a multi-level and multi-aspect semantic trajectory model and (ii) two measures that compute the similarity between two semantic trajectories along spatial, temporal and thematic dimensions. Our model (i) is used as a transition model between modules of a processing chain. We tested it by instantiating semantic trajectories from different datasets of various domains. Our two measures (ii) are integrated in our platform as processing modules. These measures present originalities: one is the combination of sub-measures, each allowing to evaluate the similarity of trajectories on the three dimensions and according to three different levels of granularity, the other is the combination of two bidimensional sub-measures centred around a particular dimension. We evaluated our two measures by comparing them to other measures and to the opinion of geographers

22

Savonnet, Marinette. "Systèmes d'Information Scientifique : des modèles conceptuels aux annotations sémantiques Application au domaine de l'archéologie et des sciences du vivant." Habilitation à diriger des recherches, Université de Bourgogne, 2013. http://tel.archives-ouvertes.fr/tel-00917782.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les Systèmes d'Information Scientifique (SIS) sont des Systèmes d'Information (SI) dont le but est de produire de la connaissance et non pas de gérer ou contrôler une activité de production de biens ou de services comme les SI d'entreprise. Les SIS se caractérisent par des domaines de recherche fortement collaboratifs impliquant des équipes pluridisciplinaires et le plus souvent géographiquement éloignées, ils manipulent des données aux structures très variables dans le temps qui vont au-delà de la simple hétérogénéité : nuages de points issus de scanner 3D, modèles numériques de terrain, cartographie, publications, données issues de spectromètre de masse ou de technique de thermoluminescence, données attributaires en très grand volume, etc. Ainsi, contrairement aux bases de données d'entreprise qui sont modélisées avec des structures établies par l'activité qu'elles supportent, les données scientifiques ne peuvent pas se contenter de schémas de données pré-definis puisque la structure des données évolue rapidement de concert avec l'évolution de la connaissance. La gestion de données scientifiques nécessite une architecture de SIS ayant un niveau d'extensibilité plus élevé que dans un SI d'entreprise. Afin de supporter l'extensibilité tout en contrôlant la qualité des données mais aussi l'interopérabilité, nous proposons une architecture de SIS reposant sur : - des données référentielles fortement structurées, identifiables lors de la phase d'analyse et amenées à évoluer rarement ; - des données complémentaires multi-modèles (matricielles, cartographiques, nuages de points 3D, documentaires, etc.). Pour établir les liens entre les données complémentaires et les données référentielles, nous avons utilisé un unique paradigme, l'annotation sémantique. Nous avons proposé un modèle formel d'annotation à base ontologique pour construire des annotations sémantiques dont la cohérence et la consistance peuvent être contrôlées par une ontologie et des règles. Dans ce cadre, les annotations offrent ainsi une contextualisation des données qui permet de vérifier leur cohérence, par rapport à la connaissance du domaine. Nous avons dressé les grandes lignes d'une sémantique du processus d'annotation par analogie avec la sémantique des langages de programmation. Nous avons validé notre proposition, à travers deux collaborations pluridisciplinaires : - le projet ANR CARE (Corpus Architecturae Religiosae Europeae - IV-X saec. ANR-07- CORP-011) dans le domaine de l'archéologie. Son objectif était de développer un corpus numérique de documents multimédia sur l'évolution des monuments religieux du IVe au XIe siècle (http://care.tge-adonis.fr). Un assistant d'annotation a été développé pour assurer la qualité des annotations par rapport à la connaissance représentée dans l'ontologie. Ce projet a donné lieu au développement d'une extension sémantique pour MediaWiki ; - le projet eClims dans le domaine de la protéomique clinique. eClims est un composant clinique d'un LIMS (Laboratory Information Management System) développé pour la plate-forme de protéomique CLIPP. eClims met en oeuvre un outil d'intégration basé sur le couplage entre des modèles représentant les sources et le système protéomique, et des ontologies utilisées comme médiatrices entre ces derniers. Les différents contrôles que nous mettons en place garantissent la validité des domaines de valeurs, la complétude, la consistance des données et leur cohérence. Le stockage des annotations est assuré par une Base de Données orientées colonnes associée à une Base de Données relationnelles.

23

Ghederim, Alexandra. "Une extension des modèles sémantiques par un ordre sur les attributs : application à la migration de schémas relationnels vers des schémas orientés objet." Lyon 1, 1996. http://www.theses.fr/1996LYO10303.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La modelisation des systemes d'information et les applications de bases de donnees deviennent de plus en plus complexes. Dans ce contexte ou la quantite d'information augmente et se diversifie, ou les approches utilisateurs divergent et se multiplient et ou des nouvelles technologies s'imposent, le processus de conception de schemas de bases de donnees est de plus en plus difficile et laborieux. La demande des utilisateurs s'oriente de plus en plus vers des systemes capables de leur offrir une modelisation fidele a leur univers et des meilleures performances par rapport aux fonctions qu'ils doivent remplir. Pour une meilleure modelisation de schemas de bases de donnees orientes objet nous proposons dans cette these une extension du modele semantique graphe semantique normalise (pich90) qui est le graphe semantique normalise avec ordre (gsno). Ce modele ajoute un complement de specification formelle en privilegiant un sous-ensemble d'attributs et l'ordonnant. Il modelise mieux les relations entre les informations et permet de mieux repondre au contexte de l'utilisateur. Un autre aspect tres actuel dans le domaine des bases de donnees est la recuperation des anciennes bases relationnelles et leur migration vers les nouveaux systemes a objets. Ce processus passe inexorablement par une transformation conceptuelle entre ces deux modeles logiques, transformation qui a souvent besoin d'un complement d'information. Utilisant ce modele semantique etendu (gsno), comme modele conceptuel intermediaire, nous avons concu un outil automatique de conception de schemas statiques de bases de donnees orientees objet et de migration de schemas de bases de donnees relationnels vers des schemas de bases de donnees orientes objet

24

Périnet, Amandine. "Analyse distributionnelle appliquée aux textes de spécialité : réduction de la dispersion des données par abstraction des contextes." Thesis, Sorbonne Paris Cité, 2015. http://www.theses.fr/2015USPCD056/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Dans les domaines de spécialité, les applications telles que la recherche d’information ou la traduction automatique, s’appuient sur des ressources terminologiques pour prendre en compte les termes, les relations sémantiques ou les regroupements de termes. Pour faire face au coût de la constitution de ces ressources, des méthodes automatiques ont été proposées. Parmi celles-ci, l’analyse distributionnelle s’appuie sur la redondance d’informations se trouvant dans le contexte des termes pour établir une relation. Alors que cette hypothèse est habituellement mise en oeuvre grâce à des modèles vectoriels, ceux-ci souffrent du nombre de dimensions considérable et de la dispersion des données dans la matrice des vecteurs de contexte. En corpus de spécialité, ces informations contextuelles redondantes sont d’autant plus dispersées et plus rares que les corpus ont des tailles beaucoup plus petites. De même, les termes complexes sont généralement ignorés étant donné leur faible nombre d’occurrence. Dans cette thèse, nous nous intéressons au problème de la limitation de la dispersion des données sur des corpus de spécialité et nous proposons une méthode permettant de densifier la matrice des contextes en réalisant une abstraction des contextes distributionnels. Des relations sémantiques acquises en corpus sont utilisées pour généraliser et normaliser ces contextes. Nous avons évalué la robustesse de notre méthode sur quatre corpus de tailles, de langues et de domaines différents. L’analyse des résultats montre que, tout en permettant de prendre en compte les termes complexes dans l’analyse distributionnelle, l’abstraction des contextes distributionnels permet d’obtenir des groupements sémantiques de meilleure qualité mais aussi plus cohérents et homogènes
In specialised domains, the applications such as information retrieval for machine translation rely on terminological resources for taking into account terms or semantic relations between terms or groupings of terms. In order to face up to the cost of building these resources, automatic methods have been proposed. Among those methods, the distributional analysis uses the repeated information in the contexts of the terms to detect a relation between these terms. While this hypothesis is usually implemented with vector space models, those models suﬀer from a high number of dimensions and data sparsity in the matrix of contexts. In specialised corpora, this contextual information is even sparser and less frequent because of the smaller size of the corpora. Likewise, complex terms are usually ignored because of their very low number of occurrences. In this thesis, we tackle the problem of data sparsity on specialised texts. We propose a method that allows making the context matrix denser, by performing an abstraction of distributional contexts. Semantic relations acquired from corpora are used to generalise and normalise those contexts. We evaluated the method robustness on four corpora of diﬀerent sizes, diﬀerent languages and diﬀerent domains. The analysis of the results shows that, while taking into account complex terms in distributional analysis, the abstraction of distributional contexts leads to deﬁning semantic clusters of better quality, that are also more consistent and more homogeneous

25

Fauconnier, Jean-Philippe. "Acquisition de liens sémantiques à partir d'éléments de mise en forme des textes : exploitation des structures énumératives." Thesis, Toulouse 3, 2016. http://www.theses.fr/2016TOU30023.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Ces dernières années de nombreux progrès ont été faits dans le domaine de l'extraction de relations à partir de textes, facilitant ainsi la construction de ressources lexicales ou sémantiques. Cependant, les méthodes proposées (apprentissage supervisé, méthodes à noyaux, apprentissage distant, etc.) n'exploitent pas tout le potentiel des textes : elles ont généralement été appliquées à un niveau phrastique, sans tenir compte des éléments de mise en forme. Dans ce contexte, l'objectif de cette thèse est d'adapter ces méthodes à l'extraction de relations exprimées au-delà des frontières de la phrase. Pour cela, nous nous appuyons sur la sémantique véhiculée par les indices typographiques (puces, emphases, etc.) et dispositionnels (indentations visuelles, retours à la ligne, etc.), qui complètent des formulations strictement discursives. En particulier, nous étudions les structures énumératives verticales qui, bien qu'affichant des discontinuités entre leurs différents composants, présentent un tout sur le plan sémantique. Ces structures textuelles sont souvent révélatrices de relations hiérarchiques. Notre travail est divisé en deux parties. (i) La première partie décrit un modèle pour représenter la structure hiérarchique des documents. Ce modèle se positionne dans la suite des modèles théoriques proposés pour rendre compte de l'architecture textuelle : une abstraction de la mise en forme et une connexion forte avec la structure rhétorique sont faites. Toutefois, notre modèle se démarque par une perspective d'analyse automatique des textes. Nous en proposons une implémentation efficace sous la forme d'une méthode ascendante et nous l'évaluons sur un corpus de documents PDF.(ii) La seconde partie porte sur l'intégration de ce modèle dans le processus d'extraction de relations. Plus particulièrement, nous nous sommes focalisés sur les structures énumératives verticales. Un corpus a été annoté selon une typologie multi-dimensionnelle permettant de caractériser et de cibler les structures énumératives verticales porteuses de relations utiles à la création de ressources. Les observations faites en corpus ont conduit à procéder en deux étapes par apprentissage supervisé pour analyser ces structures : qualifier la relation puis en extraire les arguments. L'évaluation de cette méthode montre que l'exploitation de la mise en forme, combinée à un faisceau d'indices lexico-syntaxiques, améliore les résultats
The past decade witnessed significant advances in the field of relation extraction from text, facilitating the building of lexical or semantic resources. However, the methods proposed so far (supervised learning, kernel methods, distant supervision, etc.) don't fully exploit the texts : they are usually applied at the sentential level and they don't take into account the layout and the formatting of texts. In such a context, this thesis aims at expanding those methods and makes them layout-aware for extracting relations expressed beyond sentence boundaries. For this purpose, we rely on the semantics conveyed by typographical (bullets, emphasis, etc.) and dispositional (visual indentations, carriage returns, etc.) features. Those features often substitute purely discursive formulations. In particular, the study reported here is dealing with the relations carried by the vertical enumerative structures. Although they display discontinuities between their various components, the enumerative structures can be dealt as a whole at the semantic level. They form textual structures prone to hierarchical relations. This study was divided into two parts. (i) The first part describes a model representing the hierarchical structure of documents. This model is falling within the theoretical framework representing the textual architecture : an abstraction of the layout and the formatting, as well as a strong connection with the rhetorical structure are achieved. However, our model focuses primarily on the efficiency of the analysis process rather than on the expressiveness of the representation. A bottom-up method intended for building automatically this model is presented and evaluated on a corpus of PDF documents. (ii) The second part aims at integrating this model into the process of relation extraction. In particular, we focused on vertical enumerative structures. A multidimensional typology intended for characterizing those structures was established and used into an annotation task. Thanks to corpus-based observations, we proposed a two-step method, by supervised learning, for qualifying the nature of the relation and identifying its arguments. The evaluation of our method showed that exploiting the formatting and the layout of documents, in combination with standard lexico-syntactic features, improves those two tasks

26

Belabbess, Badre. "Automatisation de détections d'anomalies en temps réel par combinaison de traitements numériques et sémantiques." Thesis, Paris Est, 2018. http://www.theses.fr/2018PESC2180/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les systèmes informatiques impliquant la détection d’anomalies émergent aussi bien dans le domaine de la recherche que dans l'industrie. Ainsi, des domaines aussi variés que la médecine (identification de tumeurs malignes), la finance (détection de transactions frauduleuses), les technologies de l’information (détection d’intrusion réseau) et l'environnement (détection de situation de pollution) sont largement impactés. L’apprentissage automatique propose un ensemble puissant d'approches qui peuvent aider à résoudre ces cas d'utilisation de manière efficace. Cependant, il représente un processus lourd avec des règles strictes qui supposent une longue liste de tâches telles que l'analyse et le nettoyage de données, la réduction des dimensions, l'échantillonnage, la sélection des algorithmes, l'optimisation des hyper-paramètres, etc. Il implique également plusieurs experts qui travailleront ensemble pour trouver les bonnes approches. De plus, les possibilités ouvertes aujourd'hui par le monde de la sémantique montrent qu'il est possible de tirer parti des technologies du web afin de raisonner intelligemment sur les données brutes pour en extraire de l'information à forte valeur ajoutée. L'absence de systèmes combinant les approches numériques d'apprentissage automatique et les techniques sémantiques du web des données constitue la motivation principale derrière les différents travaux proposés dans cette thèse. Enfin, les anomalies détectées ne signifient pas nécessairement des situations de réalité anormales. En effet, la présence d'informations externes pourrait aider à la prise de décision en contextualisant l'environnement dans sa globalité. Exploiter le domaine spatial et les réseaux sociaux permet de construire des contextes enrichis sur les données des capteurs. Ces contextes spatio-temporels deviennent ainsi une partie intégrante de la détection des anomalies et doivent être traités en utilisant une approche Big Data. Dans cette thèse, nous présentons trois systèmes aux architectures variées, chacun ayant porté sur un élément essentiel des écosystèmes big data, temps-réel, web sémantique et apprentissage automatique : WAVES : Plateforme Big Data d'analyse en temps réel des flux de données RDF capturées à partir de réseaux denses de capteurs IoT. Son originalité tient dans sa capacité à raisonner intelligemment sur des données brutes afin d'inférer des informations implicites à partir d'informations explicites et d'aider dans la prise de décision. Cette plateforme a été développée dans le cadre d'un projet FUI dont le principal cas d'usage est la détection d'anomalies dans un réseau d'eau potable. RAMSSES : Système hybride d'apprentissage automatique dont l'originalité est de combiner des approches numériques avancées ainsi que des techniques sémantiques éprouvées. Il a été spécifiquement conçu pour supprimer le lourd fardeau de l'apprentissage automatique qui est chronophage, complexe, source d'erreurs et impose souvent de disposer d'une équipe pluridisciplinaire. SCOUTER : Système intelligent de "scrapping web" permettant la contextualisation des singularités liées à l'Internet des Objets en exploitant aussi bien des informations spatiales que le web des données
Computer systems involving anomaly detection are emerging in both research and industry. Thus, fields as varied as medicine (identification of malignant tumors), finance (detection of fraudulent transactions), information technologies (network intrusion detection) and environment (pollution situation detection) are widely impacted. Machine learning offers a powerful set of approaches that can help solve these use cases effectively. However, it is a cumbersome process with strict rules that involve a long list of tasks such as data analysis and cleaning, dimension reduction, sampling, algorithm selection, optimization of hyper-parameters. etc. It also involves several experts who will work together to find the right approaches. In addition, the possibilities opened today by the world of semantics show that it is possible to take advantage of web technologies to reason intelligently on raw data to extract information with high added value. The lack of systems combining numeric approaches to machine learning and semantic techniques of the web of data is the main motivation behind the various works proposed in this thesis. Finally, the anomalies detected do not necessarily mean abnormal situations in reality. Indeed, the presence of external information could help decision-making by contextualizing the environment as a whole. Exploiting the space domain and social networks makes it possible to build contexts enriched with sensor data. These spatio-temporal contexts thus become an integral part of anomaly detection and must be processed using a Big Data approach.In this thesis, we present three systems with different architectures, each focused on an essential element of big data, real-time, semantic web and machine learning ecosystems:WAVES: Big Data platform for real-time analysis of RDF data streams captured from dense networks of IoT sensors. Its originality lies in its ability to reason intelligently on raw data in order to infer implicit information from explicit information and assist in decision-making. This platform was developed as part of a FUI project whose main use case is the detection of anomalies in a drinking water network. RAMSSES: Hybrid machine learning system whose originality is to combine advanced numerical approaches as well as proven semantic techniques. It has been specifically designed to remove the heavy burden of machine learning that is time-consuming, complex, error-prone, and often requires a multi-disciplinary team. SCOUTER: Intelligent system of "web scrapping" allowing the contextualization of singularities related to the Internet of Things by exploiting both spatial information and the web of data

27

Lefrançois, Maxime. "Représentation des connaissances sémantiques lexicales de la Théorie Sens-Texte : conceptualisation, représentation, et opérationnalisation des définitions lexicographiques." Phd thesis, Université Nice Sophia Antipolis, 2014. http://tel.archives-ouvertes.fr/tel-01071945.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Nous présentons une recherche en ingénierie des connaissances appliquée aux prédicats linguistiques et aux définitions lexicographiques de la théorie Sens-Texte (TST). Notre méthodologie comporte trois étapes. 1. Nous montrons en quoi la conceptualisation de la TST devrait être étendue pour faciliter sa formalisation. Nous justifions la nécessité de définir un niveau sémantique profond (SemP) à base de graphes. Nous y définissons la notion de type d'unité sémantique profonde et sa structure actancielle, de sorte que leur organisation hiérarchique puisse correspondre à une hiérarchie de sens au sein de laquelle ces structures actancielles sont héritées et spécialisées. Nous reconceptualisons les définitions lexicographiques au niveau SemP, et au niveau du dictionnaire. Finalement, nous présentons un prototype d'éditeur de définitions basé sur la manipulation directe de graphes. 2. Nous proposons un formalisme de représentation des connaissances adapté à cette conceptualisation. Nous démontrons que les logiques de description et le formalisme des Graphes Conceptuels ne sont pas adaptés, et nous construisons alors un nouveau formalisme, dit des Graphes d'Unités. 3. Nous étudions l'opérationnalisation du formalisme des Graphes d'Unités. Nous lui associons une sémantique formelle basée sur la théorie des modèles et l'algèbre relationnelle, et montrons que les conditions de décidabilité du raisonnement logique correspondent aux intuitions des lexicographes. Nous proposons également une implémentation du formalisme avec les standards du web sémantique, ce qui permet de profiter des architectures existantes pour l'interopérationnalisation sur le web des données lexicales liées.

28

Ania, Briseño Ignacio de Jesús. "Bases d'objets : une infrastructure de représentation de connaissances pour la gestion de données en CAO." Grenoble INPG, 1988. http://tel.archives-ouvertes.fr/tel-00326591.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Présentation d'une infrastructure de représentation de connaissances centrée objet, développée pour la conception, la manipulation et le contrôle de l'intégrité des bases de données des environnements de conception assistée par ordinateur. Cette infrastructure intégré des concepts et des techniques développées dans les domaines des bases de données, de l'intelligence artificielle et des langages de programmation, tels que l'héritage de propriétés , l'attachement procédural et l'emploi de mécanismes d'abstraction

29

Yahaya, Alassan Mahaman Sanoussi. "Amélioration du système de recueils d'information de l'entreprise Semantic Group Company grâce à la constitution de ressources sémantiques." Thesis, Paris 10, 2017. http://www.theses.fr/2017PA100086/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Prendre en compte l'aspect sémantique des données textuelles lors de la tâche de classification s'est imposé comme un réel défi ces dix dernières années. Cette difficulté vient s'ajouter au fait que la plupart des données disponibles sur les réseaux sociaux sont des textes courts, ce qui a notamment pour conséquence de rendre les méthodes basées sur la représentation "bag of words" peu efficientes. L'approche proposée dans ce projet de recherche est différente des approches proposées dans les travaux antérieurs sur l'enrichissement des messages courts et ce pour trois raisons. Tout d'abord, nous n'utilisons pas des bases de connaissances externes comme Wikipedia parce que généralement les messages courts qui sont traités par l'entreprise proveniennent des domaines spécifiques. Deuxièment, les données à traiter ne sont pas utilisées pour la constitution de ressources à cause du fonctionnement de l'outil. Troisièment, à notre connaissance il n'existe pas des travaux d'une part qui exploitent des données structurées comme celles de l'entreprise pour constituer des ressources sémantiques, et d'autre part qui mesurent l'impact de l'enrichissement sur un système interactif de regroupement de flux de textes. Dans cette thèse, nous proposons la création de ressources permettant d'enrichir les messages courts afin d'améliorer la performance de l'outil du regroupement sémantique de l'entreprise Succeed Together. Ce dernier implémente des méthodes de classification supervisée et non supervisée. Pour constituer ces ressources, nous utilisons des techniques de fouille de données séquentielles
Taking into account the semantic aspect of the textual data during the classification task has become a real challenge in the last ten years. This difficulty is in addition to the fact that most of the data available on social networks are short texts, which in particular results in making methods based on the "bag of words" representation inefficient. The approach proposed in this research project is different from the approaches proposed in previous work on the enrichment of short messages for three reasons. First, we do not use external knowledge like Wikipedia because typically short messages that are processed by the company come from specific domains. Secondly, the data to be processed are not used for the creation of resources because of the operation of the tool. Thirdly, to our knowledge there is no work on the one hand, which uses structured data such as the company's data to constitute semantic resources, and on the other hand, which measure the impact of enrichment on a system Interactive grouping of text flows. In this thesis, we propose the creation of resources enabling to enrich the short messages in order to improve the performance of the tool of the semantic grouping of the company Succeed Together. The tool implements supervised and unsupervised classification methods. To build these resources, we use sequential data mining techniques

30

Pierens, Matthieu. "Les sentiments négatifs à travers les siècles : l'évolution des champs sémantiques de la colère, de la peur et de la douleur en français dans la base textuelle FRANTEXT (1500-2000)." Paris 7, 2014. http://www.theses.fr/2014PA070015.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse a pour objet l'évolution des champs sémantiques de la colère, de la peur et de la douleur dans l'ensemble de la base textuelle FRANTEXT entre le XVIème siècle et la fin du XXème siècle. Pour cela, nous avons mené une étude diachronique portant sur les lexèmes appartenant à ces champs, puis sur les trois champs considérés dans leur entier en adoptant une périodisation d'un demi-siècle. Pour chacun des 39 lexèmes considérés, nous avons exposé l'évolution de sa fréquence, la perception de l'affect par les contemporains, la nature de l'expérienceur, des causes de l'affect, de ses symptômes et de ses métaphores les plus saillantes en nous appuyant sur l'étude des collocations et des cooccurrences les plus significatives. Nous avons pu montrer l'importance de la variabilité dans l'expression des affects en fonction de l'époque et du genre littéraire, qu'il s'agisse des symptômes émotionnels ou des métaphores et métonymies exprimant l'intensité, l'aspect ou le contrôle. Nous avons expliqué cette variabilité par les évolutions socio-culturelles qui nous semblent les plus à même d'expliquer la reconfiguration permanente du système des affects. Par ailleurs, notre étude a aussi souligné la valeur heuristique des champs sémantiques et mis à jour une grande variabilité de leur fréquence et de leurs relations mutuelles. Enfin, s'agissant du changement de sens, nous avons proposé un modèle descriptif rendant compte des évolutions de la combinatoire d'un mot (emplois prototypiques vs. Périphérie) selon que sa fréquence globale dans le corpus augmente ou diminue dans le cadre des grands rythmes historiques caractérisant l'évolution des champs en question
This thesis deals with the evolution of semantic fields of anger, fear and pain throughout the whole FRANTEXT textual database from the 16th to the end of the 20th century. To do so, we have conducted a diachronic study of lexemes in these fields and the three fields considered in their entirety by adopting a periodization of half a century. For each of the 39 lexemes, we have presented the evolution of its frequency, the perception of affect by language users, the nature of the experiencer, of the causes, the symptoms and the most salient metaphors, relying on the study of collocations and the most significant co-occurrences. We have shown that the range of lexemes vaiy greatly according to the era and the genre whenever it concerns emotional symptoms or metaphors / metonymies expressing intensity, appearance or control. This variability can be explained by socio-cultural changes that seem most likely to account for the ongoing reconfiguration of the system of affects. In addition, our study has also emphasized the heuristic value of semantic fields and highlighted the large variability in their frequency and their mutual relations. Finally, regarding meaning change, we have proposed a descriptive model reflecting the changes in the combinatorial of the word (prototypical vs. Peripherical uses) depending on whether its overall frequency in the corpus increases or decreases in the context of ma:or historical 'aces characterizing the evolution of the field in question

31

Abergel, Violette. "Relevé numérique d’art pariétal : définition d’une approche innovante combinant propriétés géométriques, visuelles et sémantiques au sein d’un environnement de réalité mixte." Thesis, Paris, HESAM, 2020. http://www.theses.fr/2020HESAE021.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les progrès de ces dernières décennies dans les domaines de l’informatique et de la métrologie ont favorisé l’essor d’outils numériques de mesure de l’existant. Si le numérique n’a pas fondamentalement remis en question les principes de la mesure, l’amélioration de leur précision, de l’automatisation, et de la capacité de mémorisation ont, en revanche, constitué une évolution décisive dans de nombreuses disciplines. Dans le domaine du relevé d’art pariétal, leur introduction a rendu possible la collecte massive de données 2D et 3D en réponse à des besoins variés d’étude, de suivi, de documentation, d’archivage, ou encore de valorisation. Ces données constituent autant de nouveaux supports précieux pour la compréhension des objets d’étude, en particulier en ce qui concerne leur caractérisation morphologique. Cependant, malgré leurs nombreux potentiels, elles demeurent souvent sous-exploitées par manque d’outils facilitant leur manipulation, leur analyse, et leur enrichissement sémantique dans des contextes d’études pluridisciplinaires. En outre, ces méthodes tendent à reléguer l’engagement cognitif et analytique de l’observateur derrière son instrument de mesure, causant une rupture profonde entre les moments d’étude sur site et l’ensemble des traitements réalisés hors site, ou autrement dit, entre les environnements de travail réels et virtuels.Cette thèse propose de répondre à ces problèmes par la définition d’une approche intégrée permettant la fusion des aspects géométriques, visuels et sémantiques du relevé au sein d’un environnement de réalité mixte multimodal. En nous plaçant à la croisée des domaines des systèmes d’informations patrimoniaux et de la réalité mixte, notre objectif est de garantir la continuité des travaux menés in situ et ex situ. Ce travail a abouti au développement d’une preuve de concept fonctionnelle permettant la consultation de données numériques 2D et 3D issues de relevé et leur annotation sémantique en réalité augmentée via une interface web
The advances of the last decades in the fields of computer science and metrology have led to the development of efficient measurement tools allowing the digitization of the environment. Although digital technology has not fundamentally overhauled the principles of metric measurement, the improvement of their accuracy, automation and storage capacity has, on the other hand, been a decisive development in many fields. In the case of rock art surveying, their introduction has allowed a massive gathering of 2D and 3D data, meeting various needs for study, monitoring, documentation, archiving, or dissemination. These data provide new and valuable supports for the understanding of the objects of study, in particular concerning their morphological characterization. However, in spite of their great potentials, they often remain under-exploited due to the lack of tools facilitating their manipulation, analysis, and semantic enrichment in multidisciplinary study contexts. Moreover, these methods tend to relegate the cognitive and analytical engagement of the observer behind the measurement tool, causing a deep break between on-site study moments and all off-site processing, or in other words, between real and virtual work environments.This thesis proposes to address these problems by defining an integrated approach allowing the fusion of the geometric, visual and semantic aspects of surveying within a single multimodal mixed reality environment. At the crossroads of the fields of heritage information systems and mixed reality, our goal is to ensure an informational continuity between in situ and ex situ analysis activities. This study led to the development of a functional proof of concept allowing the visualization of 2D and 3D digital data from surveys and their semantic annotation in augmented reality through a web interface

32

Mazoyer, Béatrice. "Social Media Stories. Event detection in heterogeneous streams of documents applied to the study of information spreading across social and news media." Thesis, université Paris-Saclay, 2020. http://www.theses.fr/2020UPASC009.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les réseaux sociaux, et Twitter en particulier, sont devenus une source d'information privilégiée pour les journalistes ces dernières années. Beaucoup effectuent une veille sur Twitter, à la recherche de sujets qui puissent être repris dans les médias. Cette thèse vise à étudier et à quantifier l'effet de ce changement technologique sur les décisions prises par les rédactions. La popularité d’un événement sur les réseaux sociaux affecte-t-elle sa couverture par les médias traditionnels, indépendamment de son intérêt intrinsèque ?Pour mettre en évidence cette relation, nous adoptons une approche pluridisciplinaire, à la rencontre de l'informatique et de l'économie : tout d’abord, nous concevons une approche inédite pour collecter un échantillon représentatif de 70% de tous les tweets en français émis pendant un an. Par la suite, nous étudions différents types d'algorithmes pour découvrir automatiquement les tweets qui se rapportent aux mêmes événements. Nous testons différentes représentation vectorielles de tweets, en nous intéressants aux représentations vectorielles de texte, et aux représentations texte-image. Troisièmement, nous concevons une nouvelle méthode pour regrouper les événements Twitter et les événements médiatiques. Enfin, nous concevons un instrument économétrique pour identifier un effet causal de la popularité d'un événement sur Twitter sur sa couverture par les médias traditionnels. Nous montrons que la popularité d’un événement sur Twitter a un effet sur le nombre d'articles qui lui sont consacrés dans les médias traditionnels, avec une augmentation d'environ 1 article pour 1000 tweets supplémentaires
Social Media, and Twitter in particular, has become a privileged source of information for journalists in recent years. Most of them monitor Twitter, in the search for newsworthy stories. This thesis aims to investigate and to quantify the effect of this technological change on editorial decisions. Does the popularity of a story affects the way it is covered by traditional news media, regardless of its intrinsic interest?To highlight this relationship, we take a multidisciplinary approach at the crossroads of computer science and economics: first, we design a novel approach to collect a representative sample of 70% of all French tweets emitted during an entire year. Second, we study different types of algorithms to automatically discover tweets that relate to the same stories. We test several vector representations of tweets, looking at both text and text-image representations, Third, we design a new method to group together Twitter events and media events. Finally, we design an econometric instrument to identify a causal effect of the popularity of an event on Twitter on its coverage by traditional media. We show that the popularity of a story on Twitter does have an effect on the number of articles devoted to it by traditional media, with an increase of about 1 article per 1000 additional tweets

33

Triperina, Evangelia. "Visual interactive knowledge management for multicriteria decision making and ranking in linked open data environments." Thesis, Limoges, 2020. http://www.theses.fr/2020LIMO0010.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Le doctorat impliqués la recherche dans le domaine des représentations visuelles assistées par des technologies sémantiques et des ontologies afin de soutenir les décisions et les procédures d'élaboration des politiques, dans le cadre de la recherche et des systèmes d'information académique. Les visualisations seront également prises en charge par l'exploration de données et les processus d'extraction de connaissances dans l'environnement de données liées. Pour élaborer, les techniques d'analyse visuelle seront utilisées pour l'organisation des visualisations afin de présenter l'information de manière à utiliser les capacités perceptuelles humaines et aideront éventuellement les procédures de prise de décision et de prise de décision. En outre, la représentation visuelle et, par conséquent, les processus décisionnels et décisionnels seront améliorés au moyen des technologies sémantiques basées sur des modèles conceptuels sous forme d'ontologies. Ainsi, l'objectif principal de la thèse de doctorat proposée consiste en la combinaison des technologies sémantiques clés et des techniques de visualisation interactive basées principalement sur la perception du graphique afin de rendre les systèmes de prise de décision plus efficaces. Le domaine de la demande sera le système de recherche et d'information académique
The dissertation herein involves research in the field of the visual representations aided by semantic technologies and ontologies in order to support decisions and policy making procedures, in the framework of research and academic information systems. The visualizations will be also supported by data mining and knowledge extraction processes in the linked data environment. To elaborate, visual analytics’ techniques will be employed for the organization of the visualizations in order to present the information in such a way that will utilize the human perceptual abilities and that will eventually assist the decision support and policy making procedures. Furthermore, the visual representation and consequently the decision and policy making processes will be ameliorated by the means of the semantic technologies based on conceptual models in the form of ontologies. Thus, the main objective of the proposed doctoral thesis consists the combination of the key semantic technologies with interactive visualisations techniques based mainly on graph’s perception in order to make decision support systems more effective. The application field will be the research and academic information systems

34

Sy, Mohameth François. "Utilisation d'ontologies comme support à la recherche et à la navigation dans une collection de documents." Thesis, Montpellier 2, 2012. http://www.theses.fr/2012MON20211/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les ontologies offrent une modélisation des connaissances d'un domaine basée sur une hiérarchie des concepts clefs de ce domaine. Leur utilisation dans le cadre des Systèmes de Recherche d'Information (SRI), tant pour indexer les documents que pour exprimer une requête, permet notamment d'éviter les ambiguïtés du langage naturel qui pénalisent les SRI classiques. Les travaux de cette thèse portent essentiellement sur l'utilisation d'ontologies lors du processus d'appariement durant lequel les SRI ordonnent les documents d'une collection en fonction de leur pertinence par rapport à une requête utilisateur. Nous proposons de calculer cette pertinence à l'aide d'une stratégie d'agrégation de scores élémentaires entre chaque document et chaque concept de la requête. Cette agrégation, simple et intuitive, intègre un modèle de préférences dépendant de l'utilisateur et une mesure de similarité sémantique associée à l'ontologie. L'intérêt majeur de cette approche est qu'elle permet d'expliquer à l'utilisateur pourquoi notre SRI, OBIRS, estime que les documents qu'il a sélectionnés sont pertinents. Nous proposons de renforcer cette justification grâce à une visualisation originale où les résultats sont représentés par des pictogrammes, résumant leurs pertinences élémentaires, puis disposés sur une carte sémantique en fonction de leur pertinence globale. La Recherche d'Information étant un processus itératif, il est nécessaire de permettre à l'utilisateur d'interagir avec le SRI, de comprendre et d'évaluer les résultats et de le guider dans sa reformulation de requête. Nous proposons une stratégie de reformulation de requêtes conceptuelles basée sur la transposition d'une méthode éprouvée dans le cadre de SRI vectoriels. La reformulation devient alors un problème d'optimisation utilisant les retours faits par l'utilisateur sur les premiers résultats proposés comme base d'apprentissage. Nous avons développé une heuristique permettant de s'approcher d'une requête optimale en ne testant qu'un sous-espace des requêtes conceptuelles possibles. Nous montrons que l'identification efficace des concepts de ce sous-espace découle de deux propriétés qu'une grande partie des mesures de similarité sémantique vérifient, et qui suffisent à garantir la connexité du voisinage sémantique d'un concept.Les modèles que nous proposons sont validés tant sur la base de performances obtenues sur des jeux de tests standards, que sur la base de cas d'études impliquant des experts biologistes
Domain ontologies provide a knowledge model where the main concepts of a domain are organized through hierarchical relationships. In conceptual Information Retrieval Systems (IRS), where they are used to index documents as well as to formulate a query, their use allows to overcome some ambiguities of classical IRSs based on natural language processes.One of the contributions of this study consists in the use of ontologies within IRSs, in particular to assess the relevance of documents with respect to a given query. For this matching process, a simple and intuitive aggregation approach is proposed, that incorporates user dependent preferences model on one hand, and semantic similarity measures attached to a domain ontology on the other hand. This matching strategy allows justifying the relevance of the results to the user. To complete this explanation, semantic maps are built, to help the user to grasp the results at a glance. Documents are displayed as icons that detail their elementary scores. They are organized so that their graphical distance on the map reflects their relevance to a query represented as a probe. As Information Retrieval is an iterative process, it is necessary to involve the users in the control loop of the results relevancy in order to better specify their information needs. Inspired by experienced strategies in vector models, we propose, in the context of conceptual IRS, to formalize ontology based relevance feedback. This strategy consists in searching a conceptual query that optimizes a tradeoff between relevant documents closeness and irrelevant documents remoteness, modeled through an objective function. From a set of concepts of interest, a heuristic is proposed that efficiently builds a near optimal query. This heuristic relies on two simple properties of semantic similarities that are proved to ensure semantic neighborhood connectivity. Hence, only an excerpt of the ontology dag structure is explored during query reformulation.These approaches have been implemented in OBIRS, our ontological based IRS and validated in two ways: automatic assessment based on standard collections of tests, and case studies involving experts from biomedical domain

35

Gaignard, Alban. "Partage et production de connaissances distribuées dans des plateformes scientifiques collaboratives." Phd thesis, Université de Nice Sophia-Antipolis, 2013. http://tel.archives-ouvertes.fr/tel-00827926.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse s'intéresse à la production et au partage cohérent de connaissances distribuées dans le domaine des sciences de la vie. Malgré l'augmentation constante des capacités de stockage et de calcul des infrastructures informatiques, les approches centralisées pour la gestion de grandes masses de données scientifiques multi-sources deviennent inadaptées pour plusieurs raisons: (i) elles ne garantissent pas l'autonomie des fournisseurs de données qui doivent conserver un certain contrôle sur les don- nées hébergées pour des raisons éthiques et/ou juridiques, (ii) elles ne permettent pas d'envisager le passage à l'échelle des plateformes en sciences computationnelles qui sont la source de productions massives de données scientifiques. Nous nous intéressons, dans le contexte des plateformes collaboratives en sci- ences de la vie NeuroLOG et VIP, d'une part, aux problématiques de distribution et d'hétérogénéité sous-jacentes au partage de ressources, potentiellement sensibles ; et d'autre part, à la production automatique de connaissances au cours de l'usage de ces plateformes, afin de faciliter l'exploitation de la masse de données produites. Nous nous appuyons sur une approche ontologique pour la modélisation des connaissances et pro- posons à partir des technologies du web sémantique (i) d'étendre ces plateformes avec des stratégies efficaces, statiques et dynamiques, d'interrogations sémantiques fédérées et (ii) d'étendre leur environnent de traitement de données pour automatiser l'annotation sémantique des résultats d'expérience "in silico", à partir de la capture d'informations de provenance à l'exécution et de règles d'inférence spécifiques au domaine. Les résultats de cette thèse, évalués sur l'infrastructure distribuée et contrôlée Grid'5000, apportent des éléments de réponse à trois enjeux majeurs des plateformes collaboratives en sciences computationnelles : (i) un modèle de collaborations sécurisées et une stratégie de contrôle d'accès distribué pour permettre la mise en place d'études multi-centriques dans un environnement compétitif, (ii) des résumés sémantiques d'expérience qui font sens pour l'utilisateur pour faciliter la navigation dans la masse de données produites lors de campagnes expérimentales, et (iii) des stratégies efficaces d'interrogation et de raisonnement fédérés, via les standards du Web Sémantique, pour partager les connaissances capitalisées dans ces plateformes et les ouvrir potentiellement sur le Web de données.

36

Midouni, Sid Ahmed Djallal. "Une approche orientée service pour la recherche sémantique de contenus multimédias." Thesis, Lyon, 2017. http://www.theses.fr/2017LYSEI056/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les sources de données multimédias provenant de divers domaines (médical, tourisme, commerce, art et culture, etc.) sont devenues incontournables sur le web. L’accès à ces sources multimédias dans les systèmes distribués pose de nouveaux problèmes en raison de nombreux paramètres : volumétrie, diversité des interfaces, format de représentation, localisation, etc. En outre, l’exigence de plus en plus forte des utilisateurs et des applications à vouloir intégrer la sémantique dans la recherche d’information pose de nouvelles questions à résoudre. Pour prendre en compte cette nouvelle complexité, nous nous intéressons dans notre travail de recherche aux solutions d’intégration de données basées sur les services web. Dans cette thèse, nous proposons une approche orientée service pour la recherche sémantique de contenus multimédia. Nous avons appelé cette approche SeSaM (Semantic Search of Multimedia content). SeSaM repose sur la définition d’un nouveau type de services accédant aux contenus multimédias, qui est les services MaaS (Multimedia as a Services). Elle est basée sur un processus en deux phases : description et découverte des services MaaS. En ce qui concerne la description de services MaaS, nous avons défini le langage SA4MaaS (Semantic Annotation for MaaS services), qui est une extension de SAWSDL (recommandation W3C). L’idée principale de ce langage est l’intégration, en plus de la sémantique métier, de la sémantique de l’information multimédia dans la description des services MaaS. En ce qui concerne la découverte de services MaaS, nous avons proposé un nouveau matchmaker MaaS-MX (MaaS services Matchmaker) adapté au modèle de description des MaaS. MaaS-MX est composé de deux étapes primordiales : appariement métier et appariement multimédia. L’appariement métier consiste à comparer la description métier des services et de la requête, tandis que l’appariement multimédia compare la description multimédia des services et de la requête. L’approche a été prototypée et évaluée dans deux domaines différents : médical et tourisme. Les résultats indiquent que l’utilisation de l’appariement métier et l’appariement multimédia a considérablement amélioré les performances des systèmes de recherche de données multimédias
Multimedia data sources from various fields (medical, tourism, trade, art and culture, etc.) became essential on the web. Accessing to multimedia data in distributed systems poses new challenges due to many system parameters: volume, diversity of interfaces, representation format, location, etc. In addition, the growing needs of users and applications to incorporate semantics in the information retrieval pose new issues. To take into account this new complexity, we are interested in our research of data integration solutions based on web services. In this thesis, we propose an approach-oriented service for the semantic search of multimedia content. We called this approach SeSaM (Semantic Search of Multimedia content). SeSaM is based on the definition of a new pattern of services to access multimedia content, which is the MaaS services (Multimedia as a Services). It is based on a two-phase process: description and discovery of MaaS services. As for the MaaS services description, we have defined the SA4MaaS language (Semantic Annotation for MaaS services), which is an extension of SAWSDL (W3C recommendation). The main idea of this language is the integration, in addition to business domain semantic, of multimedia information semantics in the MaaS services description. As for the MaaS service discovery, we have proposed a new matchmaker MaaS-MX (MaaS services Matchmaker) adapted to the MaaS services description model. MaaS-MX is composed of two essential steps: domain matching and multimedia matching. Domain matching consists in comparing the business domain description of MaaS services and the query, whereas multimedia matching compares the multimedia description of MaaS services and the query. The approach has been implemented and evaluated in two different domains: medical and tourism. The results indicate that using both domain and multimedia matching considerably improves the performance of multimedia data retrieving systems

37

Lebboss, Georges. "Contribution à l’analyse sémantique des textes arabes." Thesis, Paris 8, 2016. http://www.theses.fr/2016PA080046/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La langue arabe est pauvre en ressources sémantiques électroniques. Il y a bien la ressource Arabic WordNet, mais il est pauvre en mots et en relations. Cette thèse porte sur l’enrichissement d’Arabic WordNet par des synsets (un synset est un ensemble de mots synonymes) à partir d’un corpus général de grande taille. Ce type de corpus n’existe pas en arabe, il a donc fallu le construire, avant de lui faire subir un certain nombre de prétraitements.Nous avons élaboré, Gilles Bernard et moi-même, une méthode de vectorisation des mots, GraPaVec, qui puisse servir ici. J’ai donc construit un système incluant un module Add2Corpus, des prétraitements, une vectorisation des mots à l’aide de patterns fréquentiels générés automatiquement, qui aboutit à une matrice de données avec en ligne les mots et en colonne les patterns, chaque composante représente la fréquence du mot dans le pattern.Les vecteurs de mots sont soumis au modèle neuronal Self Organizing Map SOM ; la classification produite par SOM construit des synsets. Pour validation, il a fallu créer un corpus de référence (il n’en existe pas en arabe pour ce domaine) à partir d’Arabic WordNet, puis comparer la méthode GraPaVec avec Word2Vec et Glove. Le résultat montre que GraPaVec donne pour ce problème les meilleurs résultats avec une F-mesure supérieure de 25 % aux deux autres. Les classes produites seront utilisées pour créer de nouveaux synsets intégrés à Arabic WordNet
The Arabic language is poor in electronic semantic resources. Among those resources there is Arabic WordNet which is also poor in words and relationships.This thesis focuses on enriching Arabic WordNet by synsets (a synset is a set of synonymous words) taken from a large general corpus. This type of corpus does not exist in Arabic, so we had to build it, before subjecting it to a number of pretreatments.We developed, Gilles Bernard and myself, a method of word vectorization called GraPaVec which can be used here. I built a system which includes a module Add2Corpus, pretreatments, word vectorization using automatically generated frequency patterns, which yields a data matrix whose rows are the words and columns the patterns, each component representing the frequency of a word in a pattern.The word vectors are fed to the neural model Self Organizing Map (SOM) ;the classification produced constructs synsets. In order to validate the method, we had to create a gold standard corpus (there are none in Arabic for this area) from Arabic WordNet, and then compare the GraPaVec method with Word2Vec and Glove ones. The result shows that GraPaVec gives for this problem the best results with a F-measure 25 % higher than the others. The generated classes will be used to create new synsets to be included in Arabic WordNet

38

Valceschini-Deza, Nathalie. "Accès sémantique aux bases de données textuelles." Nancy 2, 1999. http://www.theses.fr/1999NAN21021.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les besoins justifiant cette recherche sont ceux de l'analyse du contenu textuel, les banques de données textuelles étant de plus en plus nombreuses et volumineuses. Ce travail est une contribution au problème de l'accès sémantique aux bases de données électroniques. Les données à notre disposition sont une base de données à dominante sciences humaines comportant environ 3000 oeuvres : FRANTEXT. Pour utiliser cette base et les bases de données littéraires en général nous proposons un outil basé sur le test statistique de l'écart réduit. Ce type de méthode prend en entrée un mot (ou une expression, un chapitre, un roman) et fournit comme une liste de mots-résultats qui sont corrélés statistiquement au premier mot (ou mot-pôle). La sémantique différentielle sert d'appui théorique à ce travail. Ce choix est motivé par les raisons suivantes : - elle pose comme postulat que les structures textuelles varient en fonction des genres ; - elle propose des unités de sens au palier inférieur au mot : les sèmes. Ces sèmes permettent d'expliquer la cohérence textuelle et de lier les différents niveaux : de l'en-deça du mot au texte : - elle interprète les unités en contexte. Cela permet d'expliquer les variations de sens d'un mot. De par sa nature, elle est compatible avec le test de l'écart réduit. A l'aide de ces trois composantes (données, outil et théorie sémantique), nous avons défini des méthodologies d'interrogation des bases de données littéraires. Nous nous sommes surtout intéressé à la thématique des textes. Mais l'étude de phénomènes connexes a été abordée, par exemple la stéréotypie. L'utilisation des statistiques a été illustrée et accompagnée de méthodologies constituant des aides à l'interprétation. D'autres procédés et méthodologies ont été proposées en amont et en aval des tests statistiques notamment l'utilisation de patrons morpho-syntaxiques pour obtenir des sous-corpus cohérents d'un point de vue sémantique et aptes à subir un traitement statistique. Les applications de ce type de recherches sont les suivantes : - l'étude des oeuvres par le biais de vérifications d'hypothèses et d'intuitions ; - le développement de stratégies d'interrogations fiables, testables par des élèves dans un cadre d'enseignement ; - l'étude des comportements socio-culturels dans les différents genres textuels ; - la recherche d'informations sur les régularités et les différences des textes en vue de la réalisation d'une typologie des genres textuels.

39

Assele, Kama Ariane. "Interopérabilité sémantique et entreposage de données cliniques." Paris 6, 2013. http://www.theses.fr/2013PA066359.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

En médecine, les entrepôts de données permettent d’intégrer diverses sources de données à des fins d'analyses décisionnelles. Les données intégrées proviennent de sources souvent réparties et hétérogènes, dans le but de fournir une vue globale de l’information aux analystes et aux décideurs. L’entreposage de données en santé à des fins d’analyses décisionnelles pose la problématique de représentation des connaissances médicales en constante évolution, nécessitant l’utilisation de nouvelles méthodologies pour intégrer la dimension sémantique du domaine à analyser. La difficulté d’entreposage est liée à la complexité du domaine à décrire et à modéliser, mais surtout, au besoin d’associer la connaissance du domaine aux données. De ce fait, une des problématiques de recherche dans le domaine des entrepôts de données concerne la cohabitation de la connaissance et des données, et le rôle des ontologies dans la modélisation d'un entrepôt de données, l’intégration et l'exploitation des données. Ce travail de thèse, réalisé dans un laboratoire de recherche INSERM spécialisé en ingénierie des connaissances en santé (UMRS 872 EQ20), s’inscrit dans la problématique de modélisation, de partage et d’exploitation de données cliniques au sein d’une plateforme d’interopérabilité sémantique. Pour répondre à cette problématique, nous soutenons la thèse que : (i) l’intégration d’un modèle d’information normalisé avec un modèle de connaissance permet de mettre en oeuvre des entrepôts de données sémantiques dans le but d’optimiser l’exploitation des données; (ii) l’utilisation de ressources terminologiques et ontologiques aide à l’interconnexion de ressources distribuées et hétérogènes; (iii) la représentation des données impacte son exploitation et contribue à l’optimisation des systèmes décisionnels (ex. Outils de monitoring). En utilisant des méthodes et des outils innovants issus du Web Sémantique, nous avons optimisé l’intégration et l’exploitation de données cliniques pour la mise en œuvre d’un système de monitoring pour l’évaluation de l’évolution de la résistance bactérienne aux antibiotiques en Europe. Dans un premier temps, nous avons défini le modèle multidimensionnel d’un entrepôt de données sémantique, basé sur les standards existants tels que HL7. Nous avons par la suite, articulé ces données avec les connaissances du domaine des maladies infectieuses. Pour cela, nous avons représenté les données à travers leur structure, leur vocabulaire et leur sémantique, dans une ontologie dite « ontologie de définition de données », pour les aligner à l’ontologie de domaine via des règles de mapping. Nous avons proposé une méthode de génération semi-automatique de « l’ontologie de définition de données », à partir du schéma de la base de données, en nous appuyant sur des outils et résultats de projets existants. Enfin, l’entrepôt de données et les ressources sémantiques sont accessibles et exploités via un système d’interopérabilité sémantique développé dans le cadre du projet européen DebugIT et que nous avons expérimenté au sein de l'Hôpital européen Georges Pompidou
In medicine, data warehouses allow to integrate various data sources for decisional analysis. The integrated data often come from distributed and heterogeneous sources, in order to provide an overview of information to analysts and deciders. The clinical data warehousing raises the issue of medical knowledge representation constantly evolving, requiring the use of new methodologies to integrate the semantic dimension of the study domain. The storage problem is related to the complexity of the field to describe and model, but more importantly, to the need to combine domain knowledge with data. Therefore, one of the research topics in the field of data warehouses is about the cohabitation of knowledge and data, and the role of ontologies in data warehouse modeling, data integration and data mining. This work, carried out in an INSERM research laboratory specialized in knowledge health engineering (UMRS 872 EQ20), is part of issue on modeling, sharing and clinical data use, within a semantic interoperability platform. To address this issue, we support the thesis that: (i) the integration of a standardized information model with a knowledge model allows to implement semantic data warehouses in order to optimize the data use; (ii) the use of terminological and ontological resources aids the interconnection of distributed and heterogeneous resources; (iii) data representation impact its exploitation and helps to optimization of decision support systems (e. G. Monitoring tools). Using innovative methods and Semantic Web tools, we have optimized the integration and exploitation of clinical data for the implementation of a monitoring system to assess the evolution of bacterial resistance to antibiotics in Europe. As a first step, we defined the multidimensional model of a semantic data warehouse based on existing standards such as HL7. We subsequently articulated these data with domain knowledge of infectious diseases. For this, we have represented the data across their structure, vocabulary and semantics in an ontology called « data definition ontology », to map data to the domain ontology via mapping rules. We proposed a method for semi-automatic generation of « data definition ontology » from a database schema, using existing tools and projects results. Finally, the data warehouse and semantic resources are accessed and used via a semantic interoperability system developed in the framework of the DebugIT European project (Detecting and Eliminating Bacteria UsinG Information Technology), that we have experimented within the G. Pompidou university hospital (HEGP, France)

40

Assouroko, Ibrahim. "Gestion de données et dynamiques des connaissances en ingénierie numérique : contribution à l'intégration de l'ingénierie des exigences, de la conception mécanique et de la simulation numérique." Compiègne, 2012. http://www.theses.fr/2012COMP2030.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les profonds changements observés, ces vingt dernières années dans le domaine du développement de produits, ont entraîné un changement méthodologique propre au domaine de la conception, et ont bénéficié d'un développement considérable des Technologies de l'Information et de la Communication (à l'instar des systèmes PLM pour la gestion de cycle de vie de produits), et des approches d'ingénierie collaborative pour l'amélioration du processus de développement de produits (PDP). Dans le contexte actuel, les solutions PLM du marché présentent de fortes hétérogénéités et restent centrés sur des technologies et formats propriétaires, n'offre pas suffisamment de capacités de communication et de partage entre logiciels contribuant au PDP. Cette thèse s'inscrit dans le cadre du PDP, et contribue à l'amélioration de la gestion intégrée de données (hétérogènes) de conception mécanique et de simulation numérique dans un contexte PLM. La contribution apportée se focalise sur la mise en œuvre d'une approche de dynamique des connaissances d'ingénierie basée sur une gestion des relations sémantiques du produit et s'articulant autour des points suivants : (1) une approche de structuration de données, portée par des entités de type semi-structuré avec une structuration évolutive, (2) un modèle conceptuel décrivant les concepts fondamentaux pilotant l'approche proposée, (3) une méthodologie simple pour faciliter et améliorer la gestion et réutilisation des connaissances d'ingénierie dans le projet de conception, et enfin (4) une approche de capitalisation des connaissances du produit par la gestion des relations sémantiques entre entités d'ingénierie en début de cycle de vie de produits
Over the last twenty years, the deep changes noticed in the field of product development, led to methodological change in the field of design. These changes have, in fact, benefited from the significant development of Information and Communication Technologies (ICT) (such as PLM systems dedicated to the product lifecycle management), and from collaborative engineering approaches, playing key role in the improvement of product development process (PDP). In the current PLM market, PLM solutions from different vendors still present strong heterogeneities, and remain on proprietary technologies and formats for competitiveness and profitability reasons, what does not ease communication and sharing between various ICTs contributing to the PDP. Our research work focuses on PDP, and aims to contribute to the improvement of the integrated management of mechanical design and numerical simulation data in a PLM context. The research contribution proposes an engineering knowledge capitalization solution based on a product semantic relationship management approach, organized as follows : (1) a data structuring approach driven by so called semi-structured entities with a structure able to evolve along the PDP, (2) a conceptual model describing the fundamental concepts of the proposed approach, (3) a methodology that facilitates and improves the management and reuse of engineering knowledge within design project, and (4) a knowledge capitalization approach based on the management of semantic relationships that exist or may exist between engineering entities within the product development process

41

Bennara, Mahdi. "Linked service integration on the semantic web." Thesis, Lyon, 2019. http://www.theses.fr/2019LYSEI055.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L'informatique orientée services facilite l'interopérabilité entre les systèmes distribues. Depuis quelques années, l'émergence du Web sémantique a pose de nouveaux défis pour la communauté de recherche dans les calculs et la compatibilité sémantique des données. L'approche « services » et le Web sémantique constituent une piste prometteuse pour remédier aux problèmes qui entravent les deux domaines. D'une part l'orientation services permet d'assurer l'interopérabilité des données et des traitements au niveau sémantique, et d'autre part le Web sémantique permet d'automatiser les taches de manipulation de services à un haut niveau. Dans le cadre de notre travail de recherche, nous avons détaillé les défis que rencontre la communauté de chercheurs dans l'intégration des pratiques de l'orientation services dans le Web sémantique, et plus particulièrement l'intégration des services REST dans l'implémentation du Web qui repose sur les principes du « Linked Data » pour constituer ce que l'on appelle les « RESTful Linked Services ». Les défis en question sont : La description, la découverte, la sélection et la composition. Nous avons proposé une solution pour chacun de ces défis. Les contributions que nous avons proposées sont : la structure de descripteur, un algorithme de découverte sémantique, un algorithme de sélection base sur Skyline et les répertoires de composition. Nous pensons que l'ensemble de contributions que nous avons proposées peut être adopte par les fournisseurs de services sur le Web afin de faciliter l'intégration des pratiques du sémantique Web avec les technologies des services et de REST en particulier. Ceci permettra donc d'automatiser les taches de manipulation de services a un haut niveau, tel que la découverte sur la base de concepts sémantiques, la sélection sur la base de propriétés non-fonctionnelles et de qualité de services et la composition de plusieurs services hétérogènes, sur le plan des données ainsi que sur le plan des traitements, afin d'obtenir des services composites avec de la valeur ajoutée
Service Oriented Computing allows interoperability between distributed systems. In the last years, the emergence of the semantic Web opened new challenges for the research community regarding semantic interoperability on the data and processing levels. The convergence of service orientation and the semantic Web together is a promising effort to solve the problems that hampered both research fields. On the one hand, service orientation allows interoperability on the data and processing levels, and on the other hand, semantic Web allows the automation of high-level service manipulation tasks. In our research, we detail the challenges encountered by the research community to integrate the service orientation practices with the semanticWeb, more precisely, integrating REST-based services with the semantic Web implementation based on Linked Data principles to obtain RESTful Linked Services. The challenges in question are : description, discovery, selection and composition. We proposed a solution for each of these challenges. The contributions we proposed are : The descriptor structure, a semantically-enabled discovery algorithm, a Skyline-based selection algorithm and composition directories. We think that these contributions can be adopted by service providers on the Web in order to allow a seamless integration of semantic Web practices with the service technologies and REST in particular. This allows the automation of high-level service manipulation tasks, such as semantically-enabled discovery, QoS-based selection and the composition of heterogeneous services, be it on the data or processing level, in order to create value-added composite services

42

Khammaci, Tahar. "Contribution à l'étude du processus de développement de logiciels : assistance à base de connaissance et modélisation des objets logiciels." Nancy 1, 1991. http://www.theses.fr/1991NAN10287.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Le travail présenté dans cette thèse s'inscrit dans le cadre de l'étude du processus de développement de logiciels selon deux aspects: 1) l'un concerne l'assistance a base de connaissance au développement. Une telle assistance repose sur une modélisation du processus de développement de logiciels. Le système UPSSA (using pre-postconditions for simulating software assistant) est une proposition d'intégration d'un outil d'assistance intelligente fonde sur les principes des systèmes à base de connaissances dans un environnement de génie logiciel. En outre, ce système s'appuie sur le paradigme des générateurs de plans d'actions pour déclencher, durant une session de travail d'un développeur, une séquence d'actions permettant de maintenir le logiciel en cours de développement dans un état cohérent; 2) l'autre est relatif à la modélisation des objets logiciels. Contrairement aux applications classiques, les données manipulées dans un projet de génie logiciel sont de type variés et inhabituels. Pour prendre en compte les besoins de structuration des objets dans un environnement de génie logiciel, nous proposons un modèle, appelé modèle objet-relation (MOR), qui combine des caractéristiques des modèles orientes objets et des modèles de données sémantiques. Nous présentons ses aspects formels et un langage de spécification d'un schéma objet-relation ainsi que quelques indications pour guider un utilisateur dans la conception d'un tel schéma. Puis, nous décrivons la représentation du concept de relation dans le système à objets ceyxle-lisp

43

Choquet, Rémy. "Partage de données biomédicales : modèles, sémantique et qualité." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2011. http://tel.archives-ouvertes.fr/tel-00824931.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Le volume de données disponibles dans les systèmes d'information est de plus en plus important et pour autant, nous n'avons jamais autant essayer d'interconnecter cette information pour en extraire de la connaissance sans véritable succès généralisable. L'origine du problème est multiple. Tout d'abord, l'information est représentée dans des structures différentes. Ensuite, les vocabulaires utilisés pour exprimer les données sont hétérogènes. Enfin, la qualité de l'information est souvent trop mauvaise pour utiliser une information et en déduire des connaissances. Ce diagnostic est d'autant plus vrai dans le cadre du partage d'information dans le domaine biomédical où il reste difficile de s'entendre sur des représentations (structures et vocabulaires) pivots d'un domaine de la médecine, et donc où il apparaît difficile de résoudre le problème du partage d'information par l'imposition de standard de codage et de structuration de l'information. Plus récemment, l'introduction de la sémantique dans des processus de partage d'information, nous offre la possibilité de mettre en oeuvre des représentations pivots indépendantes de la structuration ou du nommage d'une donnée. Cette thèse s'inscrit dans cette problématique de partage de données biomédicales dans le cadre de l'évaluation de l'évolution de la résistance des bactéries aux antibiotiques en Europe. L'hypothèse générale de travail que nous proposons est la suivante: comment partager de l'information biomédicale de manière non ambigüe, en temps réel, et à la demande en Europe. Cette hypothèse pose diverses problématiques que nous abordons dans ce mémoire. La problématique de la qualité des données. Celle de la représentation des données à travers leur structure, leur vocabulaire et de leur sémantique. Nous aborderons aussi les problèmes d'alignement de données aux ontologies de domaine et de la fédération de données aidée d'ontologie. Enfin, nous présenterons un système d'interopérabilité sémantique basé sur des règles qui aborde le problème d'alignement sémantique de systèmes hétérogènes appliqué à notre domaine. Nous discuterons finalement de l'apport de la sémantique pour le partage d'information et des limites des outils et méthodes actuels.

44

Saïs, Fatiha. "Intégration sémantique de données guidée par une ontologie." Paris 11, 2007. http://www.theses.fr/2007PA112300.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Dans cette thèse, nous traitons du problème d'intégration sémantique de données. L’objectif est de pouvoir combiner des sources de données autonomes et hétérogènes. Pour y parvenir, toutes les données doivent être représentées selon un même schéma et selon une sémantique unifiée. Cette thèse est articulée en deux parties relativement indépendantes. La première présente une méthode automatique et flexible de réconciliation de données avec une ontologie dans le cas où les données sont représentées dans des tableaux. Pour représenter le résultat de la réconciliation, nous avons défini le format SML dont l’originalité est de permettre de représenter tous les appariements trouvés mais également les informations imparfaitement identifiées. La seconde partie présente deux méthodes de réconciliation de références décrites relativement à un même schéma. Il s’agit de décider si des descriptions différentes se réfèrent à la même entité du monde réel. La première méthode, nommée L2R, est logique. La sémantique des données et du schéma y est traduite par un ensemble de règles de (non) réconciliation permettant d’inférer des décisions de (non) réconciliation certaines. La seconde, nommée N2R, est numérique. Dans cette méthode, la sémantique du schéma est traduite par une mesure de similarité informée utilisée pour calculer la similarité des paires de références. Ce calcul est exprimé dans un système d’équations non linéaire résolu par une méthode itérative. Ces méthodes obtiennent des résultats satisfaisants sur des données réelles, ce qui montre la faisabilité d’approches complètement automatiques et guidées uniquement par une ontologie pour ces deux problèmes de réconciliation
This thesis deals with semantic data integration guided by an ontology. Data integration aims at combining autonomous and heterogonous data sources. To this end, all the data should be represented according to the same schema and according to a unified semantics. This thesis is divided into two parts. In the first one, we present an automatic and flexible method for data reconciliation with an ontology. We consider the case where data are represented in tables. The reconciliation result is represented in the SML format which we have defined. Its originality stems from the fact that it allows representing all the established mappings but also information that is imperfectly identified. In the second part, we present two methods of reference reconciliation. This problem consists in deciding whether different data descriptions refer to the same real world entity. We have considered this problem when data is described according to the same schema. The first method, called L2R, is logical: it translates the schema and the data semantics into a set of logical rules which allow inferring correct decisions both of reconciliation and no reconciliation. The second method, called N2R, is numerical. It translates the schema semantics into an informed similarity measure used by a numerical computation of the similarity of the reference pairs. This computation is expressed in a non linear equation system solved by using an iterative method. Our experiments on real datasets demonstrated the robustness and the feasibility of our approaches. The solutions that we bring to the two problems of reconciliation are completely automatic and guided only by an ontology

45

Pantin, Jérémie. "Détection et caractérisation sémantique de données textuelles aberrantes." Electronic Thesis or Diss., Sorbonne université, 2023. https://accesdistant.sorbonne-universite.fr/login?url=https://theses-intra.sorbonne-universite.fr/2023SORUS347.pdf.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L'apprentissage automatique répond au problème du traitement de tâches spécifiques pour une grande variété de données. Ces algorithmes peuvent être simples ou difficiles à mettre en place, et c'est par ailleurs le même constat qui peut être fait pour les données. Les données de faible dimension (2 ou 3 dimensions) avec une représentation intuitive (ex. moyenne du prix des baguette par années) sont plus faciles à interpréter/expliquer pour un humain que les données avec des milliers de dimensions. Pour les données à faible dimension, une donnée aberrantes conduit souvent à un décalage conséquent par rapport aux données normales, mais pour le cas des données à haute dimension, c'est différent. La détection des données aberrantes (ou détection d'anomalie, ou détection de nouveauté) est l'étude des observations singulières pour détecter ce qui est normal et anormal. Différentes familles d'approches peuvent être trouvées dans la littérature sur la détection des aberrations. Elles effectuent une analyse des valeurs aberrantes en détectant les comportements principaux de la majorité des observations. Ainsi, les données qui diffèrent de la distribution normale sont considérées comme bruit ou aberration. Nous nous intéressons à l'application de cette tâche au texte. Malgré les progrès récents dans le traitement du langage naturel il est difficile pour une machine de traiter certains contextes. Par exemple, la phrase "Un sourire est une courbe qui redresse tout" a plusieurs niveaux de compréhension, et une machine peut rencontrer des difficultés pour choisir le bon niveau de lecture. Cette thèse présente l'analyse des valeurs aberrantes de haute dimension, appliquée au texte. Peu de travaux s'intéressent à ce contexte précis et nous introduisons un formalisme dédié. Nous abordons également les méthodes d'ensemble qui sont quasiment inexistantes dans la littérature pour notre contexte. Enfin, nous pouvons voir que l'application de la détection de valeurs aberrantes amène des améliorations sur le résumé de texte automatique par abstraction. Dans nos travaux, nous proposons GenTO, une méthode qui prépare et génère un fractionnement des données dans lequel sont insérées des anomalies et des valeurs aberrantes. Sur la base de cette méthode, nous proposons une évaluation et un benchmark des approches de détection de valeurs aberrantes avec des documents. En outre, l'apprentissage sans supervision conduit souvent les modèles à se fier à certains hyperparamètres. À cet égard, nous explorons l'influence de ce genre de paramètre pour les données textuelles. Alors que le choix d'un seul modèle peut entraîner un biais évident par rapport aux données du monde réel, les méthodes d'ensemble permettent d'atténuer ce problème. Elles sont particulièrement efficaces pour l'analyse des valeurs aberrantes. En effet, la sélection de plusieurs valeurs pour un hyperparamètre peut aider à détecter des valeurs aberrantes fortes. L'importance est alors abordée et peut aider un humain à comprendre la sortie d'un modèle boîte noire. Ainsi, l'interprétabilité des modèles de détection de valeurs aberrantes est remise en question. L'association de modèles complets et de modèles restreints permet d'atténuer l'effet boîte noire de certaines approches. Dans certains cas, la détection des aberrations fait référence à la suppression du bruit ou à la détection des anomalies. Certaines applications peuvent bénéficier de la caractéristique d'une telle tâche. La détection des spams et des fake news en est un exemple, mais nous proposons d'utiliser les approches de détection des aberrations pour l'exploration des signaux faibles dans un projet de marketing (par exemple). Ainsi, nous observons que les modèles de la littérature aident à améliorer les approches de résumé de texte par abstraction, sans supervision. Ceux-ci permettent également de trouver les signaux faibles dans le texte
Machine learning answers to the problem of handling dedicated tasks with a wide variety of data. Such algorithms can be either simple or difficult to handle depending of the data. Low dimensional data (2-dimension or 3-dimension) with an intuitive representation (average of baguette price by years) are easier to interpret/explain for a human than data with thousands of dimensions. For low dimensional data, the error leads to a significant shift against normal data, but for the case of high dimensional data it is different. Outlier detection (or anomaly detection, or novelty detection) is the study of outlying observations for detecting what is normal and abnormal. Methods that perform such task are algorithms, methods or models that are based on data distributions. Different families of approaches can be found in the literature of outlier detection, and they are mainly independent of ground truth. They perform outlier analysis by detecting the principal behaviors of majority of observations. Thus, data that differ from normal distribution are considered noise or outlier. We detail the application of outlier detection with text. Despite recent progress in natural language processing, computer still lack profound understanding of human language in absence of information. For instance, the sentence "A smile is a curve that set everything straight" has several levels of understanding and a machine can encounter hardship to chose the right level of lecture. This thesis presents the analysis of high-dimensional outliers, applied to text. Recent advances in anomaly detection and outlier detection are not significantly represented with text data and we propose to highlight the main differences with high-dimensional outliers. We also approach ensemble methods that are nearly nonexistent in the literature for our context. Finally, an application of outlier detection for elevate results on abstractive summarization is conducted. We propose GenTO, a method that prepares and generates split of data in which anomalies and outliers are inserted. Based on this method, evaluation and benchmark of outlier detection approaches is proposed with documents. The proposed taxonomy allow to identify difficult and hierarchised outliers that the literature tackles without knowing. Also, learning without supervision often leads models to rely in some hyperparameter. For instance, Local Outlier Factor relies to the k-nearest neighbors for computing the local density. Thus, choosing the right value for k is crucial. In this regard, we explore the influence of such parameter for text data. While choosing one model can leads to obvious bias against real-world data, ensemble methods allow to mitigate such problem. They are particularly efficient with outlier analysis. Indeed, the selection of several values for one hyperparameter can help to detect strong outliers.Importance is then tackled and can help a human to understand the output of black box model. Thus, the interpretability of outlier detection models is questioned. We find that for numerous dataset, a low number of features can be selected as oracle. The association of complete models and restrained models helps to mitigate the black-box effect of some approaches. In some cases, outlier detection refers to noise removal or anomaly detection. Some applications can benefit from the characteristic of such task. Mail spam detection and fake news detection are one example, but we propose to use outlier detection approaches for weak signal exploration in marketing project. Thus, we find that the model of the literature help to improve unsupervised abstractive summarization, and also to find weak signals in text

46

Ben, salem Aïcha. "Qualité contextuelle des données : détection et nettoyage guidés par la sémantique des données." Thesis, Sorbonne Paris Cité, 2015. http://www.theses.fr/2015USPCD054/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

De nos jours, les applications complexes telles que l'extraction de connaissances, la fouille de données, le E-learning ou les applications web utilisent des données hétérogènes et distribuées. Dans ce contexte, la qualité de toute décision dépend de la qualité des données utilisées. En effet, avec l'absence de données riches, précises et fiables, une organisation peut prendre potentiellement de mauvaises décisions. L'objectif de cette thèse consiste à assister l'utilisateur dans sa démarche qualité. Il s'agit de mieux extraire, mélanger, interpréter et réutiliser les données. Pour cela, il faut rattacher aux données leurs sens sémantiques, leurs types, leurs contraintes et leurs commentaires. La première partie s'intéresse à la reconnaissance sémantique du schéma d'une source de données. Elle permet d'extraire la sémantique des données à partir de toutes les informations disponibles, incluant les données et les métadonnées. Elle consiste, d'une part, à classifier les données en leur attribuant une catégorie et éventuellement une sous-catégorie, et d'autre part, à établir des relations inter colonnes et de découvrir éventuellement la sémantique de la source de données manipulée. Ces liens inter colonnes une fois détectés offrent une meilleure compréhension de la source ainsi que des alternatives de correction des données. En effet, cette approche permet de détecter de manière automatique un grand nombre d'anomalies syntaxiques et sémantiques. La deuxième partie consiste à nettoyer les données en utilisant les rapports d'anomalies fournis par la première partie. Elle permet une correction intra colonne (homogénéisation des données), inter colonnes (dépendances sémantique) et inter lignes (élimination des doublons et similaire). Tout au long de ce processus, des recommandations ainsi que des analyses sont proposées à l'utilisateur
Nowadays, complex applications such as knowledge extraction, data mining, e-learning or web applications use heterogeneous and distributed data. The quality of any decision depends on the quality of the used data. The absence of rich, accurate and reliable data can potentially lead an organization to make bad decisions.The subject covered in this thesis aims at assisting the user in its quality ap-proach. The goal is to better extract, mix, interpret and reuse data. For this, the data must be related to its semantic meaning, data types, constraints and comments.The ﬁrst part deals with the semantic schema recognition of a data source. This enables the extraction of data semantics from all the available information, inculding the data and the metadata. Firstly, it consists of categorizing the data by assigning it to a category and possibly a sub-category, and secondly, of establishing relations between columns and possibly discovering the semantics of the manipulated data source. These links detected between columns oﬀer a better understanding of the source and the alternatives for correcting data. This approach allows automatic detection of a large number of syntactic and semantic anomalies.The second part is the data cleansing using the reports on anomalies returned by the ﬁrst part. It allows corrections to be made within a column itself (data homogeni-zation), between columns (semantic dependencies), and between lines (eliminating duplicates and similar data). Throughout all this process, recommendations and analyses are provided to the user

47

Tran, Ba-Huy. "Une approche sémantique pour l’exploitation de données environnementales : application aux données d’un observatoire." Thesis, La Rochelle, 2017. http://www.theses.fr/2017LAROS025.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La nécessité de collecter des observations sur une longue durée pour la recherche sur des questions environnementales a entrainé la mise en place de Zones Ateliers par le CNRS. Ainsi, depuis plusieurs années, de nombreuses bases de données à caractère spatio-temporel sont collectées par différentes équipes de chercheurs. Afin de faciliter les analyses transversales entre différentes observations, il est souhaitable de croiser les informations provenant de ces sources de données. Néanmoins, chacune de ces sources est souvent construite de manière indépendante de l'une à l'autre, ce qui pose des problèmes dans l'analyse et l'exploitation. De ce fait, cette thèse se propose d'étudier les potentialités des ontologies à la fois comme objets de modélisation, d'inférence, et d'interopérabilité. L'objectif est de fournir aux experts du domaine une méthode adaptée permettant d'exploiter l'ensemble de données collectées. Étant appliquées dans le domaine environnemental, les ontologies doivent prendre en compte des caractéristiques spatio-temporelles de ces données. Vu le besoin d'une modélisation des concepts et des opérateurs spatiaux et temporaux, nous nous appuyons sur la solution de réutilisation des ontologies de temps et de l'espace. Ensuite, une approche d'intégration de données spatio-temporelles accompagnée d'un mécanisme de raisonnement sur leurs relations a été introduite. Enfin, les méthodes de fouille de données ont été adoptées aux données spatio-temporelles sémantiques pour découvrir de nouvelles connaissances à partir de la base de connaissances. L'approche a ensuite été mise en application au sein du prototype Geminat qui a pour but d'aider à comprendre les pratiques agricoles et leurs relations avec la biodiversité dans la zone atelier Plaine et Val de Sèvre. De l'intégration de données à l'analyse de connaissances, celui-ci offre les éléments nécessaires pour exploiter des données spatio-temporelles hétérogènes ainsi qu'en extraire de nouvelles connaissances
The need to collect long-term observations for research on environmental issues led to the establishment of "Zones Ateliers" by the CNRS. Thus, for several years, many databases of a spatio-temporal nature are collected by different teams of researchers. To facilitate transversal analysis of different observations, it is desirable to cross-reference information from these data sources. Nevertheless, these sources are constructed independently of each other, which raise problems of data heterogeneity in the analysis.Therefore, this thesis proposes to study the potentialities of ontologies as both objects of modeling, inference, and interoperability. The aim is to provide experts in the field with a suitable method for exploiting heterogeneous data. Being applied in the environmental domain, ontologies must take into account the spatio-temporal characteristics of these data. As the need for modeling concepts and spatial and temporal operators, we rely on the solution of reusing the ontologies of time and space. Then, a spatial-temporal data integration approach with a reasoning mechanism on the relations of these data has been introduced. Finally, data mining methods have been adapted to spatio-temporal RDF data to discover new knowledge from the knowledge-base. The approach was then applied within the Geminat prototype, which aims to help understand farming practices and their relationships with the biodiversity in the "zone atelier Plaine and Val de Sèvre". From data integration to knowledge analysis, it provides the necessary elements to exploit heterogeneous spatio-temporal data as well as to discover new knowledge

48

Nachabe, Ismail Lina. "Automatic sensor discovery and management to implement effective mechanism for data fusion and data aggregation." Thesis, Evry, Institut national des télécommunications, 2015. http://www.theses.fr/2015TELE0021/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Actuellement, des descriptions basées sur de simples schémas XML sont utilisées pour décrire un capteur/actuateur et les données qu’il mesure et fournit. Ces schémas sont généralement formalisés en utilisant le langage SensorML (Sensor Model Language), ne permettant qu’une description hiérarchique basique des attributs des objets sans aucune notion de liens sémantiques, de concepts et de relations entre concepts. Nous pensons au contraire que des descriptions sémantiques des capteurs/actuateurs sont nécessaires au design et à la mise en œuvre de mécanismes efficaces d’inférence, de fusion et de composition de données. Cette ontologie sémantique permettra de masquer l’hétérogénéité des données collectées et facilitera leur fusion et leur composition au sein d’un environnement de gestion de capteur similaire à celui d’une architecture ouverte orientée services. La première partie des travaux de cette thèse porte donc sur la conception et la validation d’une ontologie sémantique légère, extensible et générique de description des données fournies par un capteur/actuateur. Cette description ontologique de données brutes devra être conçue : • d’une manière extensible et légère afin d’être applicable à des équipements embarqués hétérogènes, • comme sous élément d’une ontologie de plus haut niveau (upper level ontology) utilisée pour modéliser les capteurs et actuateurs (en tant qu’équipements et non plus de données fournies), ainsi que les informations mesurées (information veut dire ici donnée de plus haut niveau issue du traitement et de la fusion des données brutes). La seconde partie des travaux de cette thèse portera sur la spécification et la qualification : • d’une architecture générique orientée service (SOA) permettant la découverte et la gestion d’un capteur/actuateur, et des données qu’il fournit (incluant leurs agrégation et fusion en s’appuyant sur les mécanismes de composition de services de l’architecture SOA), à l’identique d’un service composite de plus haut niveau, • d’un mécanisme amélioré de collecte de données à grande échelle, au dessus de cette ontologie descriptive. L’objectif des travaux de la thèse est de fournir des facilitateurs permettant une mise en œuvre de mécanismes efficaces de collecte, de fusion et d’agrégation de données, et par extension de prise de décisions. L’ontologie de haut niveau proposée sera quant à elle pourvue de tous les attributs permettant une représentation, une gestion et une composition des ‘capteurs, actuateurs et objets’ basées sur des architectures orientées services (Service Oriented Architecture ou SOA). Cette ontologie devrait aussi permettre la prise en compte de l’information transporter (sémantique) dans les mécanismes de routage (i.e. routage basé information). Les aspects liés à l’optimisation et à la modélisation constitueront aussi une des composantes fortes de cette thèse. Les problématiques à résoudre pourraient être notamment : • La proposition du langage de description le mieux adapté (compromis entre richesse, complexité et flexibilité), • La définition de la structure optimum de l’architecture de découverte et de gestion d’un capteur/actuateur, • L’identification d’une solution optimum au problème de la collecte à grande échelle des données de capteurs/actuateurs
The constant evolution of technology in terms of inexpensive and embedded wireless interfaces and powerful chipsets has leads to the massive usage and development of wireless sensor networks (WSNs). This potentially affects all aspects of our lives ranging from home automation (e.g. Smart Buildings), passing through e-Health applications, environmental observations and broadcasting, food sustainability, energy management and Smart Grids, military services to many other applications. WSNs are formed of an increasing number of sensor/actuator/relay/sink devices, generally self-organized in clusters and domain dedicated, that are provided by an increasing number of manufacturers, which leads to interoperability problems (e.g., heterogeneous interfaces and/or grounding, heterogeneous descriptions, profiles, models …). Moreover, these networks are generally implemented as vertical solutions not able to interoperate with each other. The data provided by these WSNs are also very heterogeneous because they are coming from sensing nodes with various abilities (e.g., different sensing ranges, formats, coding schemes …). To tackle this heterogeneity and interoperability problems, these WSNs’ nodes, as well as the data sensed and/or transmitted, need to be consistently and formally represented and managed through suitable abstraction techniques and generic information models. Therefore, an explicit semantic to every terminology should be assigned and an open data model dedicated for WSNs should be introduced. SensorML, proposed by OGC in 2010, has been considered an essential step toward data modeling specification in WSNs. Nevertheless, it is based on XML schema only permitting basic hierarchical description of the data, hence neglecting any semantic representation. Furthermore, most of the researches that have used semantic techniques for developing their data models are only focused on modeling merely sensors and actuators (this is e.g. the case of SSN-XG). Other researches dealt with data provided by WSNs, but without modelling the data type, quality and states (like e.g. OntoSensor). That is why the main aim of this thesis is to specify and formalize an open data model for WSNs in order to mask the aforementioned heterogeneity and interoperability between different systems and applications. This model will also facilitate the data fusion and aggregation through an open management architecture like environment as, for example, a service oriented one. This thesis can thus be split into two main objectives: 1)To formalize a semantic open data model for generically describing a WSN, sensors/actuators and their corresponding data. This model should be light enough to respect the low power and thus low energy limitation of such network, generic for enabling the description of the wide variety of WSNs, and extensible in a way that it can be modified and adapted based on the application. 2)To propose an upper service model and standardized enablers for enhancing sensor/actuator discovery, data fusion, data aggregation and WSN control and management. These service layer enablers will be used for improving the data collection in a large scale network and will facilitate the implementation of more efficient routing protocols, as well as decision making mechanisms in WSNs

49

Nguyen, Thanh Binh. "L'interrogation du web de données garantissant des réponses valides par rapport à des critères donnés." Thesis, Orléans, 2018. http://www.theses.fr/2018ORLE2053/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Le terme Linked Open Data (LOD) (ou données ouvertes liées) a été introduit pour la première fois par Tim Berners-Lee en 2006. Depuis, les LOD ont connu une importante évolution. Aujourd’hui,nous pouvons constater les milliers de jeux de données présents sur le Web de données. De ce fait, la communauté de recherche s’est confrontée à un certain nombre de défis concernant la récupération et le traitement de données liées.Dans cette thèse, nous nous intéressons au problème de la qualité des données extraites de diverses sources du LOD et nous proposons un système d’interrogation contextuelle qui garantit la qualité des réponses par rapport à un contexte spécifié par l’utilisateur. Nous définissons un cadre d’expression de contraintes et proposons deux approches : l’une naïve et l’autre de réécriture, permettant de filtrer dynamiquement les réponses valides obtenues à partir des sources éventuellement non-valides, ceci au moment de la requête et non pas en cherchant à les valider dans les sources des données. L’approche naïve exécute le processus de validation en générant et en évaluant des sous-requêtes pour chaque réponse candidate en fonction de chaque contrainte. Alors que l’approche de réécriture utilise les contraintes comme des règles de réécriture pour reformuler la requête en un ensemble de requêtes auxiliaires, de sorte que les réponses à ces requêtes réécrites ne sont pas seulement les réponses de la requête initiale mais aussi des réponses valides par rapport à toutes les contraintes intégrées. La preuve de la correction et de la complétude de notre système de réécriture est présentée après un travail de formalisation de la notion de réponse valide par rapport à un contexte. Ces deux approches ont été évaluées et ont montré la praticabilité de notre système.Ceci est notre principale contribution: nous étendons l’ensemble de systèmes de réécriture déjà connus(Chase, C&BC, PerfectRef, Xrewrite, etc.) avec une nouvelle solution efficace pour ce nouveau défi qu’est le filtrage des résultats en fonction d’un contexte utilisateur. Nous généralisons également les conditions de déclenchement de contraintes par rapport aux solutions existantes, en utilisant la notion de one-way MGU
The term Linked Open Data (LOD) is proposed the first time by Tim Berners-Lee since 2006.Since then, LOD has evolved impressively with thousands datasets on the Web of Data, which has raised a number of challenges for the research community to retrieve and to process LOD.In this thesis, we focus on the problem of quality of retrieved data from various sources of the LOD and we propose a context-driven querying system that guarantees the quality of answers with respect to the quality context defined by users. We define a fragment of constraints and propose two approaches: the naive and the rewriting, which allows us to filter dynamically valid answers at the query time instead of validating them at the data source level. The naive approach performs the validation process by generating and evaluating sub-queries for each candidate answer w.r.t. each constraint. While the rewriting approach uses constraints as rewriting rules to reformulate query into a set of auxiliary queries such that the answers of rewritten-queries are not only the answers of the query but also valid answers w.r.t. all integrated constraints. The proof of the correction and completeness of our rewriting system is presented after formalizing the notion of a valid answers w.r.t. a context. These two approaches have been evaluated and have shown the feasibility of our system.This is our main contribution: we extend the set of well-known query-rewriting systems (Chase, Chase& backchase, PerfectRef, Xrewrite, etc.) with a new effective solution for the new purpose of filtering query results based on constraints in user context. Moreover, we also enlarge the trigger condition of the constraint compared with other works by using the notion of one-way MGU

50

Lelong, Romain. "Accès sémantique aux données massives et hétérogènes en santé." Thesis, Normandie, 2019. http://www.theses.fr/2019NORMR030/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les données cliniques sont produites par différents professionnels de santé, dans divers lieux et sous diverses formes dans le cadre de la pratique de la médecine. Elles présentent par conséquent une hétérogénéité à la fois au niveau de leur nature et de leur structure mais également une volumétrie particulièrement importante et qualifiable de massive. Le travail réalisé dans le cadre de cette thèse s’attache à proposer une méthode de recherche d’information efficace au sein de ce type de données complexes et massives. L’accès aux données cliniques se heurte en premier lieu à la nécessité de modéliser l’informationclinique. Ceci peut notamment être réalisé au sein du dossier patient informatisé ou, dans une plus large mesure, au sein d’entrepôts de données. Je propose dans ce mémoire unepreuve de concept d’un moteur de recherche permettant d’accéder à l’information contenue au sein de l’entrepôt de données de santé sémantique du Centre Hospitalier Universitaire de Rouen. Grâce à un modèle de données générique, cet entrepôt adopte une vision de l’information assimilable à un graphe de données rendant possible la modélisation de cette information tout en préservant sa complexité conceptuelle. Afin de fournir des fonctionnalités de recherche adaptées à cette représentation générique, un langage de requêtes permettant l’accès à l’information clinique par le biais des diverses entités qui la composent a été développé et implémenté dans le cadre de cette thèse. En second lieu, la massivité des données cliniques constitue un défi technique majeur entravant la mise en oeuvre d’une recherche d’information efficace. L’implémentation initiale de la preuve de concept sur un système de gestion de base de données relationnel a permis d’objectiver les limites de ces derniers en terme de performances. Une migration vers un système NoSQL orienté clé-valeur a été réalisée. Bien qu’offrant de bonnes performances d’accès atomique aux données, cette migration a également nécessité des développements annexes et la définition d’une architecture matérielle et applicative propice à la mise en oeuvre des fonctionnalités de recherche et d’accès aux données. Enfin, l’apport de ce travail dans le contexte plus général de l’entrepôt de données de santé sémantique du CHU de Rouen a été évalué. La preuve de concept proposée dans ce travail a ainsi été exploitée pour accéder aux descriptions sémantiques afin de répondre à des critères d’inclusion et d’exclusion de patients dans des études cliniques. Dans cette évaluation, une réponse totale ou partielle a pu être apportée à 72,97% des critères. De plus, la généricité de l’outil a également permis de l’exploiter dans d’autres contextes tels que la recherche d’information documentaire et bibliographique en santé
Clinical data are produced as part of the practice of medicine by different health professionals, in several places and in various formats. They therefore present an heterogeneity both in terms of their nature and structure and are furthermore of a particularly large volume, which make them considered as Big Data. The work carried out in this thesis aims at proposing an effective information retrieval method within the context of this type of complex and massive data. First, the access to clinical data constrained by the need to model clinical information. This can be done within Electronic Health Records and, in a larger extent, within data Warehouses. In this thesis, I proposed a proof of concept of a search engine allowing the access to the information contained in the Semantic Health Data Warehouse of the Rouen University Hospital. A generic data model allows this data warehouse to view information as a graph of data, thus enabling to model the information while preserving its conceptual complexity. In order to provide search functionalities adapted to this generic representation of data, a query language allowing access to clinical information through the various entities of which it is composed has been developed and implemented as a part of this thesis’s work. Second, the massiveness of clinical data is also a major technical challenge that hinders the implementation of an efficient information retrieval. The initial implementation of the proof of concept highlighted the limits of a relational database management systems when used in the context of clinical data. A migration to a NoSQL key-value store has been then completed. Although offering good atomic data access performance, this migration nevertheless required additional developments and the design of a suitable hardware and applicative architecture toprovide advanced search functionalities. Finally, the contribution of this work within the general context of the Semantic Health Data Warehouse of the Rouen University Hospital was evaluated. The proof of concept proposed in this work was used to access semantic descriptions of information in order to meet the criteria for including and excluding patients in clinical studies. In this evaluation, a total or partial response is given to 72.97% of the criteria. In addition, the genericity of the tool has also made it possible to use it in other contexts such as documentary and bibliographic information retrieval in health

Dissertations / Theses on the topic 'Données sémantiques'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles