To see the other types of publications on this topic, follow the link: Données de santé hétérogènes.

Dissertations / Theses on the topic 'Données de santé hétérogènes'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Données de santé hétérogènes.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Lelong, Romain. "Accès sémantique aux données massives et hétérogènes en santé." Thesis, Normandie, 2019. http://www.theses.fr/2019NORMR030/document.

Full text
Abstract:
Les données cliniques sont produites par différents professionnels de santé, dans divers lieux et sous diverses formes dans le cadre de la pratique de la médecine. Elles présentent par conséquent une hétérogénéité à la fois au niveau de leur nature et de leur structure mais également une volumétrie particulièrement importante et qualifiable de massive. Le travail réalisé dans le cadre de cette thèse s’attache à proposer une méthode de recherche d’information efficace au sein de ce type de données complexes et massives. L’accès aux données cliniques se heurte en premier lieu à la nécessité de modéliser l’informationclinique. Ceci peut notamment être réalisé au sein du dossier patient informatisé ou, dans une plus large mesure, au sein d’entrepôts de données. Je propose dans ce mémoire unepreuve de concept d’un moteur de recherche permettant d’accéder à l’information contenue au sein de l’entrepôt de données de santé sémantique du Centre Hospitalier Universitaire de Rouen. Grâce à un modèle de données générique, cet entrepôt adopte une vision de l’information assimilable à un graphe de données rendant possible la modélisation de cette information tout en préservant sa complexité conceptuelle. Afin de fournir des fonctionnalités de recherche adaptées à cette représentation générique, un langage de requêtes permettant l’accès à l’information clinique par le biais des diverses entités qui la composent a été développé et implémenté dans le cadre de cette thèse. En second lieu, la massivité des données cliniques constitue un défi technique majeur entravant la mise en oeuvre d’une recherche d’information efficace. L’implémentation initiale de la preuve de concept sur un système de gestion de base de données relationnel a permis d’objectiver les limites de ces derniers en terme de performances. Une migration vers un système NoSQL orienté clé-valeur a été réalisée. Bien qu’offrant de bonnes performances d’accès atomique aux données, cette migration a également nécessité des développements annexes et la définition d’une architecture matérielle et applicative propice à la mise en oeuvre des fonctionnalités de recherche et d’accès aux données. Enfin, l’apport de ce travail dans le contexte plus général de l’entrepôt de données de santé sémantique du CHU de Rouen a été évalué. La preuve de concept proposée dans ce travail a ainsi été exploitée pour accéder aux descriptions sémantiques afin de répondre à des critères d’inclusion et d’exclusion de patients dans des études cliniques. Dans cette évaluation, une réponse totale ou partielle a pu être apportée à 72,97% des critères. De plus, la généricité de l’outil a également permis de l’exploiter dans d’autres contextes tels que la recherche d’information documentaire et bibliographique en santé
Clinical data are produced as part of the practice of medicine by different health professionals, in several places and in various formats. They therefore present an heterogeneity both in terms of their nature and structure and are furthermore of a particularly large volume, which make them considered as Big Data. The work carried out in this thesis aims at proposing an effective information retrieval method within the context of this type of complex and massive data. First, the access to clinical data constrained by the need to model clinical information. This can be done within Electronic Health Records and, in a larger extent, within data Warehouses. In this thesis, I proposed a proof of concept of a search engine allowing the access to the information contained in the Semantic Health Data Warehouse of the Rouen University Hospital. A generic data model allows this data warehouse to view information as a graph of data, thus enabling to model the information while preserving its conceptual complexity. In order to provide search functionalities adapted to this generic representation of data, a query language allowing access to clinical information through the various entities of which it is composed has been developed and implemented as a part of this thesis’s work. Second, the massiveness of clinical data is also a major technical challenge that hinders the implementation of an efficient information retrieval. The initial implementation of the proof of concept highlighted the limits of a relational database management systems when used in the context of clinical data. A migration to a NoSQL key-value store has been then completed. Although offering good atomic data access performance, this migration nevertheless required additional developments and the design of a suitable hardware and applicative architecture toprovide advanced search functionalities. Finally, the contribution of this work within the general context of the Semantic Health Data Warehouse of the Rouen University Hospital was evaluated. The proof of concept proposed in this work was used to access semantic descriptions of information in order to meet the criteria for including and excluding patients in clinical studies. In this evaluation, a total or partial response is given to 72.97% of the criteria. In addition, the genericity of the tool has also made it possible to use it in other contexts such as documentary and bibliographic information retrieval in health
APA, Harvard, Vancouver, ISO, and other styles
2

Griffier, Romain. "Intégration et utilisation secondaire des données de santé hospitalières hétérogènes : des usages locaux à l'analyse fédérée." Electronic Thesis or Diss., Bordeaux, 2024. http://www.theses.fr/2024BORD0479.

Full text
Abstract:
Les données issues du soin peuvent être utilisées pour des finalités autres que celles pour lesquelles elles ont été collectées initialement : c’est l’utilisation secondaire des données de santé. Dans le contexte hospitalier, afin de lever les verrous de l’utilisation secondaire des données de santé (verrous liés aux données et verrous organisationnels), une stratégie classique consiste à mettre en place un Entrepôt de Données de Santé (EDS). Dans le cadre de cette thèse, trois contributions à l’EDS du CHU de Bordeaux sont décrites. Premièrement, une méthode d’alignement des data éléments de biologie numérique basée sur les instances et conforme aux règles de protection des données à caractère personnel est présentée, avec une F-mesure à 0,850, permettant de réduire l’hétérogénéité sémantique des données. Ensuite, une adaptation du modèle d’intégration des données cliniques d’i2b2 est proposée pour assurer la persistance des données d’un EDS dans une base de données NoSQL, Elasticsearch. Cette implémentation a été évaluée sur la base de données de l’EDS du CHU de Bordeaux et retrouve des performances améliorées en termes de stockage et de temps de requêtage, par rapport à une base de données relationnelle. Enfin, une présentation de l’environnement EDS du CHU de Bordeaux est réalisée, avec la description d’un premier EDS dédié aux usages locaux et qui peut être exploité en autonomie par les utilisateurs finaux (i2b2), et d’un second EDS, dédié aux réseaux fédérés (OMOP) permettant notamment la participation au réseau fédéré DARWIN-EU
Healthcare data can be used for purposes other than those for which it was initially collected: this is the secondary use of health data. In the hospital context, to overcome the obstacles to secondary use of healthcaree data (data and organizational barriers), a classic strategy is to set up Clinical Data Warehouses (CDWs). This thesis describes three contributions to the Bordeaux University Hospital’s CDW. Firstly, an instance-based, privacy-preserving, method for mapping numerical biology data elements is presented, with an F-measure of 0,850, making it possible to reduce the semantic heterogeneity of data. Next, an adaptation of the i2b2 clinical data integration model is proposed to enable CDW data persistence in a NoSQL database, Elasticsearch. This implementation has been evaluated on the Bordeaux University Hospital’s CDW, showing improved performance in terms of storage and query time, compared with a relational database. Finally, the Bordeaux University Hospital’s CDW environment is presented, with the description of a first CDW dedicated to local uses that can be used autonomously by end users (i2b2), and a second CDW dedicated to federated networks (OMOP) enabling participation in the DARWIN-EU federated network
APA, Harvard, Vancouver, ISO, and other styles
3

Pauly, Vanessa. "Evaluation de l'abus et du détournement des médicaments psychoactifs en addictovigilance : analyse de bases de données hétérogènes." Thesis, Aix-Marseille 2, 2011. http://www.theses.fr/2011AIX20696.

Full text
Abstract:
L’objectif de ce travail était d’analyser de manière conjointe différents indicateurs d’abus, de dépendance et de détournement de médicaments psychoactifs en conditions réelles d’utilisation issus de sources de données hétérogènes afin d’en présenter une vision synthétique. Les sources de données utilisées dans ce travail sont issues des outils et programmes des Centres d’Evaluation et d’Information sur la Pharmacodépendance – Addictovigilance (CEIP-A). Elles permettent de mesurer directement l’abus auprès de populations spécifiques de patients dépendants ou sous traitement de substitution par l’enquête OPPIDUM (Observation des Produits Psychotropes Illicites ou Détournés de leur Utilisation Médicamenteuse). Ces outils permettent aussi de mesurer le détournement via la mesure du nombre d’ordonnances falsifiées par l’enquête OSIAP (Ordonnances Suspectes, Indicateur d’Abus Possible) ainsi que la mesure du phénomène de « Doctor Shopping » (chevauchement d’ordonnances) et la mesure du nombre de patients présentant des comportements déviants (issu d’une analyse de classification) à partir de bases de données de remboursement de l’assurance maladie. Cette approche multi-sources a d’abord été appliquée à l’analyse de l’importance du détournement d’usage du clonazépam (Publication n°1). Ce travail a permis de mettre en évidence le détournement émergent du clonazépam et a surtout permis d’illustrer les difficultés à faire émerger cette information de manière cohérente et standardisée au travers des différentes sources de données. Ensuite, l’un des pré-requis d’un système de surveillance de l’abus et du détournement de médicaments étant de permettre d’étudier des tendances évolutives, nous avons proposé la méthode de classification visant à établir des profils de sujets déviants de manière à analyser l’évolution de détournement d’usage de méthyphénidate sur quatre années (Publication n°2). Cette méthode de classification a par la suite, été appliquée de manière conjointe à une méthode de mesure du « Doctor Shopping » pour étudier le détournement d’usage de la Buprenorphine Haut Dosage (BHD) dans la région PACA-Corse (Publication n°3). Cette étude nous a non seulement permis de mettre en évidence un problème important de détournement d’usage de la BHD mais elle nous a permis aussi de montrer la concordance entre ces deux méthodes (mesure du « Doctor Shopping » et méthode de classification) et d’évaluer leurs apports respectifs pour la surveillance de l’abus des médicaments. Ces deux méthodes ont par la suite été analysées de manière conjointe aux données issues des enquêtes OPPPIDUM et OSIAP pour permettre d’étudier et de comparer le détournement d’usage des médicaments de la famille des benzodiazépines (Publication n°4) et des opioïdes (Publication n°5). Cette approche multi-sources permet de limiter les biais inhérents à chaque méthode ou source prise isolément. L’ensemble de nos travaux met en exergue la pertinence d’un tel système pour évaluer l’abus d’un médicament mais aussi pour le comparer à d’autres substances. Néanmoins, le développement d’un tel système appliqué au domaine de la pharmacodépendance est relativement nouveau, et nécessite des améliorations tant dans l’intégration d’autres sources de données, que dans la méthodologie employée pour intégrer et synthétiser l’information ainsi obtenue. Finalement, cette thèse a montré que les CEIP-A avaient le potentiel pour mettre en œuvre un système multi-sources pouvant apporter une réelle contribution à l’étude de la pharmacodépendance en France
The objective of this work was to analyze abuse, dependence and diversion of psychoactive medicines in real settings using jointly different indicators issued from mixed datasources in order to present a synthetic vision. The datasources used in this work are issued from the tools developed by the Centres for Evaluation and Information on Pharmacodependency (CEIP). They allow to measure directly drug abuse with specific populations of dependent patients or under opiate treatment (OPPIDUM (Observation of the Illicit Psychotropic Products or Diverted from their Medicinal Use) survey)). These tools also allow to measure the diversion via the measure of the phenomenon of “doctor shopping” (overlapping of prescriptions) and the measure of the number of patients presenting a deviant behaviour from general health insurance databases; then they measure diversion through falsified prescriptions presented at pharmacies (the OSIAP (Forged prescriptions indicating potential abuse) survey).This multisources approach has been firstly applied to analyse abuse and diversion of clonazepam (1st publication). This study has highlighted the emerging problem of diversion of clonazepam, after flunitrazepam and has also illustrated the difficulty of analysing with consistency the information gathered by these different datasources. A good system for controlling drug diversion and abuse has to allow analysing trends. We have so proposed a classification method aiming at revealing profile of subjects with deviant behaviour to use it on an evolutive manner so as to study diversion of methylphenidate on a four year period (2nd publication). This classification method has then been applied jointly with a method measuring the “doctor shopping” to analyse diversion of High Dosage Buprenorphine (HDB) (3rd publication). This study has revealed an important problem of diversion of HDB, has also demonstrated that the two methods were globally concordant and has allowed to evaluate their advantages for the controlling of the abuse and diversion of prescription drugs. These two last methods have then been analysed jointly with data from the OPPIDUM and OSIAP surveys to allow to study and compare diversion of benzodiazepine drugs (4th publication) and opioids drugs (5th publication). This multisource approach allows to limit biases linked to each method seen individually. Our work points out the relevance of such a multisources system to estimate the abuse of a prescription drug and to compare it with the other substances. Nevertheless, the development of such a system applied to the domain of the drug dependency is relatively new, and requires improvements concerning the integration of the other sources of data and the methodology used to join and synthetize the information obtained. Finally, such a system "multi-sources” has the potential to exist and to make a real contribution to the domain of the drug dependency in France
APA, Harvard, Vancouver, ISO, and other styles
4

Michel, Franck. "Intégrer des sources de données hétérogènes dans le Web de données." Thesis, Université Côte d'Azur (ComUE), 2017. http://www.theses.fr/2017AZUR4002/document.

Full text
Abstract:
Le succès du Web de Données repose largement sur notre capacité à atteindre les données stockées dans des silos invisibles du web. Dans les 15 dernières années, des travaux ont entrepris d’exposer divers types de données structurées au format RDF. Dans le même temps, le marché des bases de données (BdD) est devenu très hétérogène avec le succès massif des BdD NoSQL. Celles-ci sont potentiellement d’importants fournisseurs de données liées. Aussi, l’objectif de cette thèse est de permettre l’intégration en RDF de sources de données hétérogènes, et notamment d'alimenter le Web de Données avec les données issues des BdD NoSQL. Nous proposons un langage générique, xR2RML, pour décrire le mapping de sources hétérogènes vers une représentation RDF arbitraire. Ce langage étend des travaux précédents sur la traduction de sources relationnelles, CSV/TSV et XML en RDF. Sur cette base, nous proposons soit de matérialiser les données RDF, soit d'évaluer dynamiquement des requêtes SPARQL sur la base native. Dans ce dernier cas, nous proposons une approche en deux étapes : (i) traduction d’une requête SPARQL en une requête pivot, abstraite, en se basant sur le mapping xR2RML ; (ii) traduction de la requête abstraite en une requête concrète, prenant en compte les spécificités du langage de requête de la BdD cible. Un souci particulier est apporté à l'optimisation des requêtes, aux niveaux abstrait et concret. Nous démontrons l’applicabilité de notre approche via un prototype pour la populaire base MongoDB. Nous avons validé la méthode dans un cas d’utilisation réel issu du domaine des humanités numériques
To a great extent, the success of the Web of Data depends on the ability to reach out legacy data locked in silos inaccessible from the web. In the last 15 years, various works have tackled the problem of exposing various structured data in the Resource Description Format (RDF). Meanwhile, the overwhelming success of NoSQL databases has made the database landscape more diverse than ever. NoSQL databases are strong potential contributors of valuable linked open data. Hence, the object of this thesis is to enable RDF-based data integration over heterogeneous data sources and, in particular, to harness NoSQL databases to populate the Web of Data. We propose a generic mapping language, xR2RML, to describe the mapping of heterogeneous data sources into an arbitrary RDF representation. xR2RML relies on and extends previous works on the translation of RDBs, CSV/TSV and XML into RDF. With such an xR2RML mapping, we propose either to materialize RDF data or to dynamically evaluate SPARQL queries on the native database. In the latter, we follow a two-step approach. The first step performs the translation of a SPARQL query into a pivot abstract query based on the xR2RML mapping of the target database to RDF. In the second step, the abstract query is translated into a concrete query, taking into account the specificities of the database query language. Great care is taken of the query optimization opportunities, both at the abstract and the concrete levels. To demonstrate the effectiveness of our approach, we have developed a prototype implementation for MongoDB, the popular NoSQL document store. We have validated the method using a real-life use case in Digital Humanities
APA, Harvard, Vancouver, ISO, and other styles
5

Arnaud, Bérenger. "Exploitation et partage de données hétérogènes et dynamiques." Thesis, Montpellier 2, 2013. http://www.theses.fr/2013MON20025/document.

Full text
Abstract:
Dans un contexte de données industrielles et numériques, le développement d'un outil sur mesure pour une tâche particulière est couteux par de nombreux aspects. À l'inverse, l'adaptation d'outils génériques l'est également en particularisation (personnalisation, adaptation, extension, …), pour les développeurs comme pour les utilisateurs finaux. Nos approches visent à considérer les différents niveaux d'interactions pour améliorer l'exploitation des données fournies ou générées en collaboration.Les définitions et problématiques liées aux données dépendent le plus souvent des domaines dans lesquelles elles sont traitées. Pour ce travail, nous avons opté pour une approche holistique considérant ensemble des perspectives différentes. Le résultat est une synthèse des concepts émergeant montrant les équivalences d'un domaine à l'autre. La première contribution consiste à améliorer le marquage collaboratif de documents. Deux améliorations sont proposées par notre outil Coviz. (1) L'étiquetage des ressources est propre à chaque utilisateur qui organise ses vocables par une poly-hiérarchie nominative. Chacun peut considérer les concepts des autres par une relation de partage. Le système fournit également du contenu connexe via un moissonnage des archives ouvertes. (2) L'outil applique le concept de facette des données à l'interface puis les combine avec une recherche par mot-clé. Ce dernier point est commun à tous les utilisateurs, le système considère chacune des actions individuelles comme celles d'un groupe.La contribution majeure, confidentielle, est un framework baptisé DIP pour Data Interaction and Presentation. Son but est d'augmenter la liberté d'expression de l'utilisateur sur l'interaction et l'accès aux données. Il diminue les contraintes machines et logicielles en adjoignant une nouvelle voix d'accès direct entre l'utilisateur et les données disponibles, ainsi que des points d'« articulation » génériques. D'un point de vue final, l'utilisateur gagne en expression de filtrage, en partage, en maintien de l'état de sa navigation, en automatisation de ses tâches courantes, etc.Il a été testé en condition réelle de stress, de ressources et d'utilisation avec le logiciel KeePlace. Ce dernier a d'ailleurs été l'initiateur de cette thèse
In the context of numeric data, the software development costs entail a number of cost factors. In contrast, adapting generic tools has its own set of costs, requiring developer's integration and final user's adaptation. The aim of our approach is to consider the different points of interaction with the data to improve the exploitation of data, whether provided or generated from collaboration.The definitions and problems related to data are dependent upon the domain from which the data come and the treatment that have been applied to them. In this work we have opted for a holistic approach where we consider the range of angles. The result is a summary of the emergent concepts and domain equivalences.The first contribution consists of improving collaborative document mark-up. Two improvements are proposed by out tool – Coviz –. 1) Resource tagging which is unique to each user, who organises their own labels according to their personal poly-hierarchy. Each user may take into consideration other users approaches through sharing of tags. The system supplies additional context through a harvesting of documents in open archives. 2) The tool applies the concept of facets to the interface and then combines them to provide a search by keyword or characteristic selection. This point is shared by all users and the actions of an individual user impact the whole group.The major contribution, which is confidential, is a framework christened DIP for Data Interaction and Presentation. Its goal is to increase the freedom of expression of the user over the interaction and access to data. It reduces the hardware and software constrains by adding a new access point between the user and the raw data as well as generic pivots. From a final point of view the user gains in expression of filtering, in sharing, in state persistence of the navigator, in automation of day-to-day tasks, etc.DIP has been stress tested under real-life conditions of users and limited resources with the software KeePlace. Acknowledgement is given to KeePlace who initiated this thesis
APA, Harvard, Vancouver, ISO, and other styles
6

Zhang, Bo. "Reconnaissance de stress à partir de données hétérogènes." Thesis, Université de Lorraine, 2017. http://www.theses.fr/2017LORR0113/document.

Full text
Abstract:
Dans la société moderne, le stress s’avère un problème omniprésent. Un stress permanent peut entraîner divers problèmes mentaux et physiques notamment pour des personnes confrontées à des situations d'urgence comme par exemple des pompiers en intervention: il peut modifier leurs actions et les mettre en danger. Par conséquent, dans ce contexte, il est pertinent de chercher à évaluer le stress de la personne. Sur la base de cette idée, a été proposé le projet Psypocket qui vise à concevoir un système portable capable d'analyser précisément l'état de stress d'une personne en fonction de ses modifications physiologiques, psychologiques et comportementales, puis de proposer des solutions de rétroaction pour réguler cet état. Cette thèse s’inscrit dans le cadre du projet Psypocket. Nous y discutons de la faisabilité et de l'intérêt de la reconnaissance du stress à partir de données hétérogènes. Non seulement les signaux physiologiques, tels que l'électrocardiographie (ECG), l'élecchtromyographie (EMG) et l'activité électrodermale (EDA), mais aussi le temps de réaction (RT) sont adoptés pour discriminer différents états de stress d'une personne. Pour cela nous proposons une approche basée sur un classifieur SVM (Machine à Vecteurs de Support). Les résultats obtenus montrent que le temps de réaction peut-être un moyen d’estimation du niveau de stress de l’individu en complément ou non des signaux physiologiques. En outre, nous discutons de la faisabilité d'un système embarqué à même de réaliser la chaîne globale de traitement des signaux. Cette thèse contribue donc à la conception d’un système portable de reconnaissance du stress d'une personne en temps réel en adoptant des données hétérogènes, en l’occurrence les signaux physiologiques et le temps de réaction
In modern society, the stress of an individual has been found to be a common problem. Continuous stress can lead to various mental and physical problems and especially for the people who always face emergency situations (e.g., fireman): it may alter their actions and put them in danger. Therefore, it is meaningful to provide the assessment of the stress of an individual. Based on this idea, the Psypocket project is proposed which is aimed at making a portable system able to analyze accurately the stress state of an individual based on his physiological, psychological and behavioural modifications. It should then offer solutions for feedback to regulate this state.The research of this thesis is an essential part of the Psypocket project. In this thesis, we discuss the feasibility and the interest of stress recognition from heterogeneous data. Not only physiological signals, such as Electrocardiography (ECG), Electromyography (EMG) and Electrodermal activity (EDA), but also reaction time (RT) are adopted to recognize different stress states of an individual. For the stress recognition, we propose an approach based on a SVM classifier (Support Vector Machine). The results obtained show that the reaction time can be used to estimate the level of stress of an individual in addition or not to the physiological signals. Besides, we discuss the feasibility of an embedded system which would realize the complete data processing. Therefore, the study of this thesis can contribute to make a portable system to recognize the stress of an individual in real time by adopting heterogeneous data like physiological signals and RT
APA, Harvard, Vancouver, ISO, and other styles
7

Zhang, Bo. "Reconnaissance de stress à partir de données hétérogènes." Electronic Thesis or Diss., Université de Lorraine, 2017. http://www.theses.fr/2017LORR0113.

Full text
Abstract:
Dans la société moderne, le stress s’avère un problème omniprésent. Un stress permanent peut entraîner divers problèmes mentaux et physiques notamment pour des personnes confrontées à des situations d'urgence comme par exemple des pompiers en intervention: il peut modifier leurs actions et les mettre en danger. Par conséquent, dans ce contexte, il est pertinent de chercher à évaluer le stress de la personne. Sur la base de cette idée, a été proposé le projet Psypocket qui vise à concevoir un système portable capable d'analyser précisément l'état de stress d'une personne en fonction de ses modifications physiologiques, psychologiques et comportementales, puis de proposer des solutions de rétroaction pour réguler cet état. Cette thèse s’inscrit dans le cadre du projet Psypocket. Nous y discutons de la faisabilité et de l'intérêt de la reconnaissance du stress à partir de données hétérogènes. Non seulement les signaux physiologiques, tels que l'électrocardiographie (ECG), l'élecchtromyographie (EMG) et l'activité électrodermale (EDA), mais aussi le temps de réaction (RT) sont adoptés pour discriminer différents états de stress d'une personne. Pour cela nous proposons une approche basée sur un classifieur SVM (Machine à Vecteurs de Support). Les résultats obtenus montrent que le temps de réaction peut-être un moyen d’estimation du niveau de stress de l’individu en complément ou non des signaux physiologiques. En outre, nous discutons de la faisabilité d'un système embarqué à même de réaliser la chaîne globale de traitement des signaux. Cette thèse contribue donc à la conception d’un système portable de reconnaissance du stress d'une personne en temps réel en adoptant des données hétérogènes, en l’occurrence les signaux physiologiques et le temps de réaction
In modern society, the stress of an individual has been found to be a common problem. Continuous stress can lead to various mental and physical problems and especially for the people who always face emergency situations (e.g., fireman): it may alter their actions and put them in danger. Therefore, it is meaningful to provide the assessment of the stress of an individual. Based on this idea, the Psypocket project is proposed which is aimed at making a portable system able to analyze accurately the stress state of an individual based on his physiological, psychological and behavioural modifications. It should then offer solutions for feedback to regulate this state.The research of this thesis is an essential part of the Psypocket project. In this thesis, we discuss the feasibility and the interest of stress recognition from heterogeneous data. Not only physiological signals, such as Electrocardiography (ECG), Electromyography (EMG) and Electrodermal activity (EDA), but also reaction time (RT) are adopted to recognize different stress states of an individual. For the stress recognition, we propose an approach based on a SVM classifier (Support Vector Machine). The results obtained show that the reaction time can be used to estimate the level of stress of an individual in addition or not to the physiological signals. Besides, we discuss the feasibility of an embedded system which would realize the complete data processing. Therefore, the study of this thesis can contribute to make a portable system to recognize the stress of an individual in real time by adopting heterogeneous data like physiological signals and RT
APA, Harvard, Vancouver, ISO, and other styles
8

Hamdoun, Khalfallah Sana. "Construction d'entrepôts de données par intégration de sources hétérogènes." Paris 13, 2006. http://www.theses.fr/2006PA132039.

Full text
Abstract:
Les données nécessaires à des fins décisionnelles sont de plus en plus complexes. Elles ont des formats hétérogènes et proviennent de sources distribuées. Elles peuvent être classées en trois catégories : les données structurées, les données semi-structurées et les données non-structurées. Dans cette thèse, nous nous sommes intéressés au domaine d’intégration de données dans le but de construction d’entrepôts dont les sources sont totalement hétérogènes et appartenant aux différentes catégories. Nous proposons un cadre formel qui se base sur la définition d’un environnement d’intégration. Un ensemble de ²liens d’intégration² entre les composants des sources est ainsi défini : une relation d’équivalence et une relation d’ordre strict. Ces liens sont définis indépendamment de toute modélisation des sources de données. Ces dernières peuvent alors être hétérogènes et de catégories différentes. Notre approche a donné naissance au prototype (HDI for DW). Elle est composée de cinq étapes allant de la définition des composants de l’entrepôt jusqu’à la génération des scripts SQL et XQuery de création des vues de ce dernier. Un ensemble de schémas multidimensionnels sous forme de faits et de dimensions est proposé. Mots clés Intégration de données, bases et entrepôt de données, données hétérogènes, données complexes, liens d’intégration, relationnel-étendu, XML, SQL, XQuery
This work describes the construction of a data warehouse by the integration of heterogeneous data. These latter could be structured, semi-structured or unstructured. We propose a theoretical approach based on an integration environment definition. This environment is formed by data sources and inter-schema relationships between these sources ( equivalence and strict order relations). Our approach is composed of five steps allowing data warehouse component choice, global schema generation and construction of data warehouse views. Multidimensional schemas are also proposed. All the stages proposed in this work are implemented by the use of a functional prototype (using SQL and Xquery). Keywords Data Integration, data warehouses, heterogeneous data, inter-schema relationships, Relational, Object-relational, XML, SQL, Xquery
APA, Harvard, Vancouver, ISO, and other styles
9

Badri, Mohamed. "Maintenance des entrepôts de données issus de sources hétérogènes." Paris 5, 2008. http://www.theses.fr/2008PA05S006.

Full text
Abstract:
Ce travail s'inscrit dans le domaine des entrepôts de données qui, d'une part se situent au cœur du système d'information décisionnel et d'autre part servent de support pour l'analyse et l'aide à la décision (OLAP, data mining, reporting). L'entrepôt de données, étant une entité vivante dont le contenu est régulièrement alimenté et rafraîchi, l'actualisation de ses indicateurs d'analyse (agrégats) constitue un facteur crucial pour la prise de décision. La maintenance occupe une place stratégique dans le dispositif du système décisionnel et représente également un critère d'évaluation des performances d'un entrepôt. Par ailleurs, et suite à l'avènement des technologies de communication, particulièrement Internet, les données sont fortement distribuées et hétérogènes ; nous pouvons les classer en trois catégories, à savoir : les données structurées, les données semi-structurées et les données non-structurées. Dans le présent travail, nous proposons, dans un premier temps, une approche de modélisation pour intégrer toutes ces données. Nous proposons, par la suite et en se basant sur cette approche, un processus qui assure la maintenance des données et des agrégats de l'entrepôt. Nous proposons également une structure arborescente de gestion d'agrégats ainsi que les algorithmes qui en assurent l'évolution. Dans le contexte d'hétérogénéité dans lequel nous nous plaçons, toutes nos propositions sont indépendantes du modèle de l'entrepôt et de son système de gestion. Enfin et pour valider nos contributions, nous avons développé le prototype HDIM (Heterogeneous Data Intégration and Maintenance) et effectué une série d'expérimentations pertinentes
This work has been performed in the field of data warehouses (DW). DW are in the core of Decision making information system and are used to support decision making tools (OLAP, data mining, reporting). A DW is an alive entity which content is continuously fed and refreshed. Updating aggregates of DW is crucial for the decision making. That is why the DW maintenance has a strategic place in the decision system process. It is also used as a performance criterion of a DW system. Since the communication technologies especially Internet are steadily growing, data are becoming more and more heterogeneous and distributed. We can classify them in three categories: structured data, semi-structured data and unstructured data. In this work we are presenting first a modelling approach with the aim of integrating all this data. On the bases of this approach, we are thereafter proposing a process that insures an incremental warehouse data and aggregates maintenance. We are also proposing a tree structure to manage aggregates as well as algorithms that insure its evolution. Being in the context of heterogeneity, all our proposals are independent of the warehouse model and of its management system. In order to validate our contribution, the Heterogeneous Data Integration and Maintenance (HDIM) prototype has been developped and some experiments performed
APA, Harvard, Vancouver, ISO, and other styles
10

Gürgen, Levent. "Gestion à grande échelle de données de capteurs hétérogènes." Grenoble INPG, 2007. http://www.theses.fr/2007INPG0093.

Full text
Abstract:
Cette thèse traite les aspects liés à la gestion à grande échelle de données issues de capteurs hétérogènes. En effet, les capteurs sont de moins en moins chers, de plus en plus nombreux et hétérogènes dans les applications. Ceci implique naturellement le problème de passage à l'échelle et la nécessité de pouvoir exploiter les données provenant de différents types de capteurs. Nous proposons une architecture distribuée et orientée services dans laquelle les tâches de traitement de données sont réparties sur plusieurs niveaux. Les fonctionnalités de gestion de données sont fournies en termes de < > afin de cacher l'hétérogénéité des capteurs sous des services génériques. Nous traitons également les aspects liés à l'administration de parc de capteurs, un sujet non abordé dans ce contexte
This dissertation deals with the issues related to scalable management of heterogeneous sensor data. Ln fact, sensors are becoming less and less expensive, more and more numerous and heterogeneous. This naturally raises the scalability problem and the need for integrating data gathered from heterogeneous sensors. We propose a distributed and service-oriented architecture in which data processing tasks are distributed at severallevels in the architecture. Data management functionalities are provided in terms of "services", in order to hide sensor heterogeneity behind generic services. We equally deal with system management issues in sensor farms, a subject not yet explored in this context
APA, Harvard, Vancouver, ISO, and other styles
11

Jautzy, Olivier. "Intégration de sources de données hétérogènes : Une approche langage." Marne-la-vallée, ENPC, 2000. http://www.theses.fr/2000ENPC0002.

Full text
Abstract:
Les systèmes de gestion de bases de données (SGBD) ont connu de nombreuses évolutions et révolutions, liées en particulier aux formalismes de représentation et de structuration des données - la plus récente de ces évolutions concerne le passage du formalisme relationnel, structurant les données sous la forme de tables, au formalisme objet - la recherche a consisté à modéliser un langage de programmation base sur un formalisme objet réflexif et sur une architecture de type SGMB (Système de Gestion Multibases de Données) qui permet d'intégrer diverses sources de données hétérogènes et donnent l'illusion d'un seul et même SGBD : approche validée par l'implantation d'une extension au langage java.
APA, Harvard, Vancouver, ISO, and other styles
12

Cavalier, Mathilde. "La propriété des données de santé." Thesis, Lyon, 2016. http://www.theses.fr/2016LYSE3071/document.

Full text
Abstract:
La question de la protection et de la valorisation des données de santé fait l’objet d’un renouvellement permanent car elle est tiraillée pas des intérêts contradictoires. Les logiques juridiques, sanitaires et économiques s’affrontent et s’expriment au travers d’une règlementation particulièrement fournie et disparate des données de santé. Le droit de propriété semble à même de concilier ces enjeux d’apparence antinomiques. Au regard de la place de ce droit dans notre ordonnancement juridique et de la singularité des données de santé, l’étude de leur rapprochement mérite une étude d’une certaine ampleur. Il s’agit dans un premier temps de s’assurer de la compatibilité de ce droit avec les données de santé. La réponse impose une vision de la propriété simplifiée pour finalement constater que les droits existants sur ces données sont en fait déjà des droits de propriétés mais qui, du fait de la particularité des données de santé, sont largement limités. Dans un second temps, se pose donc la question de la pertinence de l’application d’un droit de propriété plus « complet » aux données de santé. Or, on remarque que la spécificité de ces données est telle que cette solution n’est pas la plus efficace pour parvenir à un juste équilibre entre patients et collecteurs de données. Pour autant, d’autres solutions sont possibles
The question of the protection and enhancement of health data is subject to a permanent renewal because it appears to be in the middle of some conflicting interests. Legal, health and economic logics confront and express themselves through a particularly heterogenous set of regulations on health data. Property rights here seem able to reconcile these issues that first look contradictory appearance issues. Given the place of this right in our legal system and uniqueness of health data, the study of their reconciliation deserves a study of some magnitude. This is a first step to ensure the compatibility of this law with health data. The answer requires a vision of simplified property only to find that the existing rights of the data is already in the property rights but which, because of the particularity of health data, are largely limited. Secondly, therefore the question of the relevance of the application of "more complete" property rights applies to health data. However, we note that the specificity of health data implies that such a the solution is not the most effective for achieving a fair balance between patients and data collectors. Nevertheless, other solutions are possible
APA, Harvard, Vancouver, ISO, and other styles
13

Giersch, Arnaud. "Ordonnancement sur plates-formes hétérogènes de tâches partageant des données." Phd thesis, Université Louis Pasteur - Strasbourg I, 2004. http://tel.archives-ouvertes.fr/tel-00008222.

Full text
Abstract:
Nous étudions des stratégies d'ordonnancement et d'équilibrage de charge pour des plates-formes hétérogènes distribuées. Notre problème est d'ordonnancer un ensemble de tâches indépendantes afin d'en réduire le temps total d'exécution. Ces tâches utilisent des données d'entrée qui peuvent être partagées : chaque tâche peut utiliser plusieurs données, et chaque donnée peut être utilisée par plusieurs tâches. Les tâches ont des durées d'exécution différentes, et les données ont des tailles différentes. Toute la difficulté est de réussir à placer sur un même processeur des tâches partageant des données, tout en conservant un bon équilibrage de la charge des différents processeurs. Notre étude comporte trois parties généralisant progressivement le problème. Nous nous limitons dans un premier temps au cas simple où il n'y a pas de partage de données, où les tailles des tâches et des données sont homogènes, et où la plate-forme est de type maître-esclave. Le partage des données est introduit dans la deuxième partie, ainsi que l'hétérogénéité pour les tailles des tâches et des données. Dans la dernière partie nous généralisons le modèle de plate-forme à un ensemble décentralisé de serveurs reliés entre eux par un réseau d'interconnexion quelconque. La complexité théorique du problème est étudiée. Pour les cas simples, des algorithmes calculant une solution optimale sont proposés, puis validés par des résultats expérimentaux avec une application scientifique réelle. Pour les cas plus complexes, nous proposons de nouvelles heuristiques pour résoudre le problème d'ordonnancement. Ces nouvelles heuristiques, ainsi que des heuristiques classiques comme min-min et sufferage, sont comparées entre elles à l'aide de nombreuses simulations. Nous montrons ainsi que nos nouvelles heuristiques réussissent à obtenir des performances aussi bonnes que les heuristiques classiques, tout en ayant une complexité algorithmique d'un ordre de grandeur plus faible.
APA, Harvard, Vancouver, ISO, and other styles
14

Bavueza, Munsana Dia Lemfu. "Ravir : un système de coopération des bases de données hétérogènes." Montpellier 2, 1987. http://www.theses.fr/1987MON20265.

Full text
Abstract:
L'objectif est de creer une base unique qui represente toutes les bases qui cooperent. Cette base est decrite dans un modele relationnel. Dans un premier temps, toutes les bases de donnees non relationnelles sont traduites en bases de donnees virtuelles relationnelles ou bdvl. Ensuite, toutes les bdvl et les bases de donnees relationnelles sont integrees pour creer la base unique appelee base de donnees virtuelle globale ou bdvg
APA, Harvard, Vancouver, ISO, and other styles
15

Naacke, Hubert. "Modèle de coût pour médiateur de bases de données hétérogènes." Versailles-St Quentin en Yvelines, 1999. http://www.theses.fr/1999VERS0013.

Full text
Abstract:
Les @ systèmes distribués accèdent à des sources d'informations diverses au moyen de requêtes déclaratives. Une solution pour résoudre les problèmes liés à l'hétérogéneité des sources repose sur l'architecture médiateur / adaptateurs. Dans cette architecture, le médiateur accepte en entrée une requête de l'utilisateur, La traite en accèdant aux sources via les adaptateurs concernés et renvoie la réponse à l'utilisateur. Le médiateur offre une vue globale et centralisée des sources. Les adaptateurs offrent un accès uniforme aux sources, au service du médiateur. Pour traiter une requête de manière efficace, le médiateur doit optimiser le plan décrivant le traitement de la requête. Pour cela, plusieurs plans sémantiquement équivalents sont envisagés, Le coût (i. E. Le temps de réponse) de chaque plan est estimé afin de choisir celui de moindre coût qui sera exécuté. Le médiateur estime le coût des opérations traitées par les sources en utilisant les informations de coût que les sources exportent. Or, à cause de l'autonomie des sources, les informations exportées peuvent s'avérer insuffisantes pour estimer le coût des opérations avec une précision convenable. Cette thèse propose une nouvelle méthode permettant au développeur d'adaptateur d'exporter un modèle de coût d'une source à destination du médiateur. Le modèle exporté contient des statistiques qui décrivent les données stockées dans la source ainsi que des fonctions mathématiques pour évaluer le coût des traitements effectués par la source. Lorsque le développeur d'adaptateur manque d'information ou de moyen, il a la possibilité de fournir un modèle de coût partiel qui est automatiquement completé avec le modèle générique prédéfini au sein du médiateur. Nous validons expérimentalement le modèle de coût proposé en accèdant à des sources web. Cette validation montre l'efficacité du modèle de coût générique ainsi que celle des modèles plus spécialisés selon les particularités des sources et les cas d'applications
Les systemes distribues accedent a des sources d'informations diverses au moyen de requetes declaratives. Une solution pour resoudre les problemes lies a l'heterogeneite des sources repose sur l'architecture mediateur / adaptateurs. Dans cette architecture, le mediateur accepte en entree une requete de l'utilisateur, la traite en accedant aux sources via les adaptateurs concernes et renvoie la reponse a l'utilisateur. Le mediateur offre une vue globale et centralisee des sources. Les adaptateurs offrent un acces uniforme aux sources, au service du mediateur. Pour traiter une requete de maniere efficace, le mediateur doit optimiser le plan decrivant le traitement de la requete. Pour cela, plusieurs plans semantiquement equivalents sont envisages, le cout (i. E. Le temps de reponse) de chaque plan est estime afin de choisir celui de moindre cout qui sera execute. Le mediateur estime le cout des operations traitees par les sources en utilisant les informations de cout que les sources exportent. Or, a cause de l'autonomie des sources, les informations exportees peuvent s'averer insuffisantes pour estimer le cout des operations avec une precision convenable. Cette these propose une nouvelle methode permettant au developpeur d'adaptateur d'exporter un modele de cout d'une source a destination du mediateur. Le modele exporte contient des statistiques qui decrivent les donnees stockees dans la source ainsi que des fonctions mathematiques pour evaluer le cout des traitements effectues par la source. Lorsque le developpeur d'adaptateur manque d'information ou de moyen, il a la possibilite de fournir un modele de cout partiel qui est automatiquement complete avec le modele generique predefini au sein du mediateur. Nous validons experimentalement le modele de cout propose en accedant a des sources web. Cette validation montre l'efficacite du modele de cout generique ainsi que celle des modeles plus specialises selon les particularites des sources et les cas d'applications
APA, Harvard, Vancouver, ISO, and other styles
16

Durand, Guillermo. "Tests multiples et bornes post hoc pour des données hétérogènes." Thesis, Sorbonne université, 2018. http://www.theses.fr/2018SORUS289/document.

Full text
Abstract:
Ce manuscrit présente mes contributions dans trois domaines des tests multiples où l'hétérogénéité des données peut être exploitée pour mieux détecter le signal tout en contrôlant les faux positifs : pondération des p-valeurs, tests discrets, et inférence post hoc. Premièrement, une nouvelle classe de procédures avec pondération données-dépendante, avec une structure de groupe et des estimateurs de la proportion de vraies nulles, est définie, et contrôle le False Discovery Rate (FDR) asymptotiquement. Cette procédure atteint aussi l'optimalité en puissance sous certaines conditions sur les estimateurs. Deuxièmement, de nouvelles procédures step-up et step-down, adaptées aux tests discrets sous indépendance, sont conçues pour contrôler le FDR pour une distribution arbitraire des marginales des p-valeurs sous l'hypothèse nulle. Finalement, de nouvelles familles de référence pour l'inférence post hoc, adaptées pour le cas où le signal est localisé, sont étudiées, et on calcule les bornes post hoc associées avec un algorithme simple
This manuscript presents my contributions in three areas of multiple testing where data heterogeneity can be exploited to better detect false null hypotheses or improve signal detection while controlling false positives: p-value weighting, discrete tests, and post hoc inference. First, a new class of data-driven weighting procedures, incorporating group structure and true null proportion estimators, is defined, and its False Discovery Rate (FDR) control is proven asymptotically. This procedure also achieves power optimality under some conditions on the proportion estimators. Secondly, new step-up and step-down procedures, tailored for discrete tests under independence, are designed to control the FDR for arbitrary p-value null marginals. Finally, new confidence bounds for post hoc inference (called post hoc bounds), tailored for the case where the signal is localized, are studied, and the associated optimal post hoc bounds are derived with a simple algorithm
APA, Harvard, Vancouver, ISO, and other styles
17

Dematraz, Jessica. "Méthodologies d'extraction des connaissances issues de données hétérogènes pour l'innovation." Thesis, Aix-Marseille, 2018. http://www.theses.fr/2018AIXM0716.

Full text
Abstract:
A l’heure du Big Data où les technologies de l’information et de la communication battent leur plein, l’accès aux informations n’a jamais été aussi facile et rapide. Paradoxalement, l’information stratégique, soit l’information “utile”, celle qui permet de faciliter la prise de décision, n’a jamais été aussi rare et difficile à trouver. D’où l’importance de mettre en place un processus d’intelligence économique et plus précisément de veille, afin d’exploiter de manière efficace l’environnement informationnel d’un organisme, d’un secteur voire d’un pays entier. Aujourd’hui, la place prépondérente de l’information dans un contexte professionnel n’est plus à prouver. Les problématiques de veille telles qu’elles soient (stratégique, concurrentielle, technologique, réglementaire …) concernent les entités de tout secteur (public ou privé) et de toute taille (TPME/PME, ETI, grands groupes) et ce dans tous les domaines d’activités. Sauf qu’il n’existe pas une méthode unique applicable à tout et pour tous, mais une pluralité de méthodes qui doivent coexister pour arriver à faire jaillir la connaissance
In the age of Big Data, where information and communication technologies are in full swing, access to information has never been so easy and fast. Paradoxically, strategic information, that is, "useful" information, the information that facilitates decision-making, has never been so rare and difficult to find. Hence the importance of setting up a process of competitive intelligence and more precisely of information monitoring, in order to effectively exploit the information environment of an organization, a sector or even an entire country. Today, the predominance of information in a professional context is no longer to be proven. The monitoring issues as they are (strategic, competitive, technological, regulatory, etc.) concern entities of all sectors (public or private) and sizes (SMEs, ETIs, large groups) in all fields of activity. Except that there is no single method applicable to everything and for everyone, but a plurality of methods that must coexist to achieve the emergence of knowledge
APA, Harvard, Vancouver, ISO, and other styles
18

Dematraz, Jessica. "Méthodologies d'extraction des connaissances issues de données hétérogènes pour l'innovation." Electronic Thesis or Diss., Aix-Marseille, 2018. http://www.theses.fr/2018AIXM0716.

Full text
Abstract:
A l’heure du Big Data où les technologies de l’information et de la communication battent leur plein, l’accès aux informations n’a jamais été aussi facile et rapide. Paradoxalement, l’information stratégique, soit l’information “utile”, celle qui permet de faciliter la prise de décision, n’a jamais été aussi rare et difficile à trouver. D’où l’importance de mettre en place un processus d’intelligence économique et plus précisément de veille, afin d’exploiter de manière efficace l’environnement informationnel d’un organisme, d’un secteur voire d’un pays entier. Aujourd’hui, la place prépondérente de l’information dans un contexte professionnel n’est plus à prouver. Les problématiques de veille telles qu’elles soient (stratégique, concurrentielle, technologique, réglementaire …) concernent les entités de tout secteur (public ou privé) et de toute taille (TPME/PME, ETI, grands groupes) et ce dans tous les domaines d’activités. Sauf qu’il n’existe pas une méthode unique applicable à tout et pour tous, mais une pluralité de méthodes qui doivent coexister pour arriver à faire jaillir la connaissance
In the age of Big Data, where information and communication technologies are in full swing, access to information has never been so easy and fast. Paradoxically, strategic information, that is, "useful" information, the information that facilitates decision-making, has never been so rare and difficult to find. Hence the importance of setting up a process of competitive intelligence and more precisely of information monitoring, in order to effectively exploit the information environment of an organization, a sector or even an entire country. Today, the predominance of information in a professional context is no longer to be proven. The monitoring issues as they are (strategic, competitive, technological, regulatory, etc.) concern entities of all sectors (public or private) and sizes (SMEs, ETIs, large groups) in all fields of activity. Except that there is no single method applicable to everything and for everyone, but a plurality of methods that must coexist to achieve the emergence of knowledge
APA, Harvard, Vancouver, ISO, and other styles
19

Mahfoudi, Abdelwahab. "Contribution a l'algorithmique pour l'analyse des bases de données statistiques hétérogènes." Dijon, 1995. http://www.theses.fr/1995DIJOS009.

Full text
Abstract:
La première partie est consacrée a l'analyse et au positionnement multidimensionnel des tableaux de données hétérogènes (qualitatifs et quantitatifs). On présente d'abord une synthèse des méthodes de multidimensional scaling (MDS) et des problèmes sous jacents. On étudie ensuite le problème de l'homogénéisation des données par transformation des variables et on établit les limites d'une telle approche. Nous abordons ensuite le problème sous l'angle du M. D. S. , divers indices de dépendances entre attributs de natures différentes sont construits. L'ensemble des résultats est implémenté dans le package Kalita. La deuxième partie traite de la détection des outliers dans les données. Après un historique, une présentation des principales règles existantes pour la détection ainsi que des relations d'équivalence de certaines d'entre elles sont données. Une règle générale est ensuite construite dans le cadre d'un modèle linéaire généralisé et sa distribution est établie. Cette règle généralise la plupart de celles existantes et s'applique aux principaux modèles d'analyse de données (A. C. P. , Anova, Manova, modèle linéaire et polynomial)
APA, Harvard, Vancouver, ISO, and other styles
20

Renard, Hélène. "Equilibrage de charge et redistribution de données sur plates-formes hétérogènes." Phd thesis, Ecole normale supérieure de lyon - ENS LYON, 2005. http://tel.archives-ouvertes.fr/tel-00012133.

Full text
Abstract:
Dans cette thèse, nous nous sommes intéressée à la mise en oeuvre d'algorithmes itératifs sur des grappes hétérogènes. Ces algorithmes fonctionnent avec un volume important de données (calcul de matrices, traitement d'images, etc.), qui sera réparti sur l'ensemble des processeurs. À chaque itération, des calculs indépendants sont effectués en parallèle et certaines communications ont lieu. Il n'existe pas de raison a priori de réduire le partitionnement des données à une unique dimension et de ne l'appliquer que sur un anneau de processeurs unidimensionnel. Cependant, un tel partitionnement est très naturel et nous montrerons que trouver l'optimal est déjà très difficile. Après cette étude sur le placement et l'équilibrage de charge pour plates-formes hétérogènes, nous nous sommes intéressée à la redistribution de données sur ces mêmes plates-formes, lorsque que les caractéristiques de ces dernières changent. En ce qui concerne les anneaux de processeurs homogènes, nous avons totalement résolu le problème : nous avons obtenu des algorithmes optimaux et prouvé leur exactitude dans le cas homogène et dans le cas hétérogène. En ce qui concerne les anneaux hétérogènes, le cas unidirectionnel a été totalement résolu, alors que le cas bidirectionnel reste ouvert. Cependant, sous l'hypothèse de redistribution légère, nous sommes capable de résoudre le problème de manière optimale.
APA, Harvard, Vancouver, ISO, and other styles
21

Fereres, Yohan. "Stratégies d'arbitrage systématique multi-classes d'actifs et utilisation de données hétérogènes." Phd thesis, Université Paris-Est, 2013. http://tel.archives-ouvertes.fr/tel-00987635.

Full text
Abstract:
Les marchés financiers évoluent plus ou moins rapidement et fortement au gré des différents types d'information diffusés au cours des périodes d'étude. Dans ce contexte, nous cherchons à mesurer l'influence de tous types d'information sur des portefeuilles d'arbitrage systématique " euro neutres " multi-classes d'actifs, issus soit d'une diversification " naïve " (" 1/N ") soit d'une diversification optimale. Dans le cadre de nos recherches sur l'allocation tactique systématique, ces divers flux informationnels sont regroupés sous le terme de données hétérogènes (données de cotation et " autres informations de marché "). Les données de cotation sont des prix de clôture quotidiens d'actifs tandis que les " autres informations de marché " correspondent à trois types d'indicateurs : de conjoncture, de sentiments et de volatilité. Nous mesurons l'impact d'une combinaison de données hétérogènes sur nos portefeuilles d'arbitrage pour une période de tests incluant la crise des subprimes, à l'aide d'analyses de données (ACP) et de techniques probabilistes de quantification vectorielle. L'influence des données hétérogènes sur les portefeuilles d'arbitrage est mesurée notamment au travers d'une hausse de la rentabilité, d'un accroissement du ratio rentabilité/volatilité post crise des subprimes, d'une baisse de la volatilité ou d'une baisse des corrélations entre classes d'actifs. Ces découvertes empiriques permettent d'envisager la prise en compte des " autres informations de marché " comme élément de diversification du risque d'un portefeuille. Nous formalisons des éléments de réponse au défi posé par l'allocation tactique multi-classes d'actifs (Blitz et Vliet, 2008), en intégrant des variables " prédictives " à un processus systématique de market timing qui incorpore de manière quantitative des données hétérogènes.
APA, Harvard, Vancouver, ISO, and other styles
22

Manolescu, Goujot Ioana Gabriela. "Techniques d'optimisation pour l'interrogation des sources de données hétérogènes et distribuées." Versailles-St Quentin en Yvelines, 2001. http://www.theses.fr/2001VERS0027.

Full text
Abstract:
Cette thèse traite plusieurs aspects du traitement de requêtes dans un système relationnel d'intégration de données de type "peer-to-peer". Un tel système permet de partager des ressources hétérogènes et distribuées entre plusieurs sites autonomes et distants. Une resource est une collection de données, ou un programme, que son propriétaire veut partager avec d'autres utilisateurs. Des ressources différentes peuvent avoir des formats différents, p. Ex. , relationnel ou XML : elles seront toutes modéliséees comme des relations. Elles peuvent aussi avoir des capacités de traitement de requêtes très différentes : certaines peuvent évaluer des requêtes, d'autres permettrent uniquement d'accéder à leurs données, tandis que les ressources restreintes permettent d'obtenir des tuples uniquement en fournissant des valeurs pour certains attributs. Cette thèse apporte les contributions suivantes : 1. Modélisation : nous montrons comment utiliser le concept de tables à patterns d'accès pour modéliser des données relationelles, objet, ou XML, ainsi que des programmes. Nous étudions la faisabilité d'une requête SQL sur des tables à patterns d'accès, pour une sémantique de multi-ensemble. 2. Optimisation : nous décrivons l'espace de recherche de l'optimiseur pour des requêtes sur des tables à patterns d'accès. Nous en estimons la taille de manière analytique et experimentale, et décrivons deux algorithmes d'optimisation. 3. Exécution : nous proposons un opérateur BindJoin efficace pour les appels de programmes et les transferts de données volumineuses. Le BindJoin inclut un cache pour éviter des calculs ou des transferts redondants, et peut utiliser la présence des duplicatas pour améliorer son taux de sortie. 4. Translation : nous décrivons une extension de ce système relationnel, lui fournissant une interface utilisateur XML. En particulier, nous proposons une méthode de translation d'une requête XML sur cette interface vers une requête SQL sur les sources de données.
APA, Harvard, Vancouver, ISO, and other styles
23

Claeys, Emmanuelle. "Clusterisation incrémentale, multicritères de données hétérogènes pour la personnalisation d’expérience utilisateur." Thesis, Strasbourg, 2019. http://www.theses.fr/2019STRAD039.

Full text
Abstract:
Dans de nombreux domaines (santé, vente en ligne, …) concevoir ex nihilo une solution optimale répondant à un problème défini (trouver un protocole augmentant le taux de guérison, concevoir une page Web favorisant l'achat d'un ou plusieurs produits, ...) est souvent très difficile voire impossible. Face à cette difficulté, les concepteurs (médecins, web designers, ingénieurs de production,...) travaillent souvent de façon incrémentale par des améliorations successives d'une solution existante. Néanmoins, définir les modifications les plus pertinentes reste un problème difficile. Pour tenter d'y répondre, une solution adoptée de plus en plus fréquemment consiste à comparer concrètement différentes alternatives (appelées aussi variations) afin de déterminer celle(s) répondant le mieux au problème via un A/B Test. L'idée est de mettre en oeuvre réellement ces alternatives et de comparer les résultats obtenus, c'est-à-dire les gains respectifs obtenus par chacune des variations. Pour identifier la variation optimale le plus rapidement possible, de nombreuses méthodes de test utilisent une stratégie d'allocation dynamique automatisée. Le principe est d'allouer le plus rapidement possible et automatiquement, les sujets testés à la variation la plus performante, par un apprentissage par renforcement. Parmi les méthodes possibles, il existe en théorie des probabilités les méthodes de bandit manchot. Ces méthodes ont montré leur intérêt en pratique mais également des limites, dont en particulier une temps de latence (c'est-à-dire un délai entre l'arrivée d'un sujet à tester et son allocation) trop important, un déficit d'explicabilité des choix et la non-intégration d’un contexte évolutif décrivant le comportement du sujet avant d’être testé. L'objectif global de cette thèse est de proposer une méthode générique d'A/B test permettant une allocation dynamique en temps réel capable de prendre en compte les caractéristiques des sujets, qu'elles soient temporelles ou non, et interprétable a posteriori
In many activity sectors (health, online sales,...) designing from scratch an optimal solution for a defined problem (finding a protocol to increase the cure rate, designing a web page to promote the purchase of one or more products,...) is often very difficult or even impossible. In order to face this difficulty, designers (doctors, web designers, production engineers,...) often work incrementally by successive improvements of an existing solution. However, defining the most relevant changes remains a difficult problem. Therefore, a solution adopted more and more frequently is to compare constructively different alternatives (also called variations) in order to determine the best one by an A/B Test. The idea is to implement these alternatives and compare the results obtained, i.e. the respective rewards obtained by each variation. To identify the optimal variation in the shortest possible time, many test methods use an automated dynamic allocation strategy. Its allocate the tested subjects quickly and automatically to the most efficient variation, through a learning reinforcement algorithms (as one-armed bandit methods). These methods have shown their interest in practice but also limitations, including in particular a latency time (i.e. a delay between the arrival of a subject to be tested and its allocation) too long, a lack of explicitness of choices and the integration of an evolving context describing the subject's behaviour before being tested. The overall objective of this thesis is to propose a understable generic A/B test method allowing a dynamic real-time allocation which take into account the temporals static subjects’s characteristics
APA, Harvard, Vancouver, ISO, and other styles
24

Essid, Mehdi. "Intégration des données et applications hétérogènes et distribuées sur le Web." Aix-Marseille 1, 2005. http://www.theses.fr/2005AIX11035.

Full text
Abstract:
Cette thèse se situe dans le cadre général de l'intégration de données hétérogènes sur le Web et plus particulièrement dans le cadre applicatif du domaine géographique. Nous avons orienté nos travaux selon deux directions : 1 - un axe "modèle structuré" : nous avons proposé l'algorithme de réécriture Grouper/Diviser dans le cas de présence de clés. Ensuite, nous avons construit un système de médiation relationnel pour les SIG implantant cet algorithme. L'originalité de notre système est l'extension des capacités manquantes dans les sources par l'intégration d'outils. 2 - un axe "modèle semi-structuré" : nous avons utilisé la même stratégie que Grouper/Diviser afin de proposer un algorithme de réécriture dans un cadre XML. Ensuite, nous avons construit le système VirGIS : un système de médiation conforme à des standards. Grâce à sa conformité aux standards de l'OpenGIS et du W3C, nous avons déployé notre système dans le cadre géographique tout en restant générique à d'autres domaines
APA, Harvard, Vancouver, ISO, and other styles
25

Renard, Hélène. "Équilibrage de charge et redistribution de données sur plates-formes hétérogènes." Lyon, École normale supérieure (sciences), 2005. http://www.theses.fr/2005ENSL0344.

Full text
Abstract:
Dans cette thèse, nous nous sommes intéressée à la mise en oeuvre d'algorithmes itératifs sur des grappes hétérogènes. Ces algorithmes fonctionnent avec un volume important de données (calcul de matrices, traitement d'images, etc. ), qui sera réparti sur l'ensemble des processeurs. À chaque itération, des calculs indépendants sont effectués en parallèle et certaines communications ont lieu. Prenons l'exemple d'une matrice rectangulaire de données : l'algorithme itératif fonctionne répétitivement sur cette matrice, divisée en tranches verticales (ou horizontales) allouées aux processeurs. À chaque étape de l'algorithme, les tranches sont mises à jour localement et les informations frontières sont échangées entre tranches consécutives. Cette contrainte géométrique implique que les processeurs soient organisés en anneau virtuel. Chaque processeur communique seulement deux fois, une fois avec son prédécesseur (virtuel) dans l'anneau et une fois avec son successeur. Il n'existe pas de raison a priori de réduire le partitionnement des données à une unique dimension et de ne l'appliquer que sur un anneau de processeurs unidimensionnel. Cependant, un tel partitionnement est très naturel et nous montrerons que trouver l'optimal est déjà très difficile. Après cette étude sur le placement et l'équilibrage de charge pour plates-formes hétérogènes, nous nous sommes intéressée à la redistribution de données sur ces mêmes plates-formes, lorsque que les caractéristiques de ces dernières changent. En ce qui concerne les anneaux de processeurs homogènes, nous avons totalement résolu le problème : nous avons obtenu des algorithmes optimaux et prouvé leur exactitude dans le cas homogène et dans le cas hétérogène. En ce qui concerne les anneaux hétérogènes, le cas unidirectionnel a été totalement résolu, alors que le cas bidirectionnel reste ouvert. Cependant, sous l'hypothèse de redistribution légère, nous sommes capable de résoudre le problème de manière optimale
In this thesis, we study iterative algorithms onto heterogeneous platforms. These iterative algorithms operate on large data samples (recursive convolution, image processing algorithms, etc. ). At each iteration, independent calculations are carried out in parallel, and some communications take place. An abstract view of the problem is the following: the iterative algorithm repeatedly operates on a large rectangular matrix of data samples. This data matrix is split into vertical (or horizontal) slices that are allocated to the processors. At each step of the algorithm, the slices are updated locally, and then boundary information is exchanged between consecutive slices. This (virtual) geometrical constraint advocates that processors be organized as a virtual ring. Then each processor will only communicate twice, once with its (virtual) predecessor in the ring, and once with its successor. Note that there is no reason a priori to restrict to a uni-dimensional partitioning of the data, and to map it onto a uni-dimensional ring of processors. But uni-dimensional partitionings are very natural for most applications, and, as will be shown in this thesis, the problem to find the optimal one is already very difficult. After dealing with the problems of mapping and load-balancing onto heterogeneous platforms, we consider the problem of redistributing data onto these platforms, an operation induced by possible variations in the resource performances (CPU speed, communication bandwidth) or in the system/application requirements (completed tasks, new tasks, migrated tasks, etc. ). For homogeneous rings the problem has been completely solved. Indeed, we have designed optimal algorithms, and provided formal proofs of correctness, both for unidirectional and bidirectional rings. For heterogeneous rings there remains further research to be conducted. The unidirectional case was easily solved, but the bidirectional case remains open. Still, we have derived an optimal solution for light redistributions, an important case in practice
APA, Harvard, Vancouver, ISO, and other styles
26

Fereres, Yohan. "Stratégies d’arbitrage systématique multi-classes d'actifs et utilisation de données hétérogènes." Thesis, Paris Est, 2013. http://www.theses.fr/2013PEST0075/document.

Full text
Abstract:
Les marchés financiers évoluent plus ou moins rapidement et fortement au gré des différents types d’information diffusés au cours des périodes d’étude. Dans ce contexte, nous cherchons à mesurer l’influence de tous types d’information sur des portefeuilles d’arbitrage systématique « euro neutres » multi-classes d’actifs, issus soit d’une diversification « naïve » (« 1/N ») soit d’une diversification optimale. Dans le cadre de nos recherches sur l’allocation tactique systématique, ces divers flux informationnels sont regroupés sous le terme de données hétérogènes (données de cotation et « autres informations de marché »). Les données de cotation sont des prix de clôture quotidiens d’actifs tandis que les « autres informations de marché » correspondent à trois types d’indicateurs : de conjoncture, de sentiments et de volatilité. Nous mesurons l’impact d’une combinaison de données hétérogènes sur nos portefeuilles d’arbitrage pour une période de tests incluant la crise des subprimes, à l’aide d’analyses de données (ACP) et de techniques probabilistes de quantification vectorielle. L’influence des données hétérogènes sur les portefeuilles d’arbitrage est mesurée notamment au travers d’une hausse de la rentabilité, d’un accroissement du ratio rentabilité/volatilité post crise des subprimes, d’une baisse de la volatilité ou d’une baisse des corrélations entre classes d’actifs. Ces découvertes empiriques permettent d’envisager la prise en compte des « autres informations de marché » comme élément de diversification du risque d’un portefeuille. Nous formalisons des éléments de réponse au défi posé par l’allocation tactique multi-classes d’actifs (Blitz et Vliet, 2008), en intégrant des variables « prédictives » à un processus systématique de market timing qui incorpore de manière quantitative des données hétérogènes
Financial markets evolve more or less rapidly and strongly to all kind of information depending on time period of study. In this context, we intend to measure a broad set of information influence on systematic multi-assets classes “euro neutral” arbitrage portfolios either for “naive” diversification and optimal diversification. Our research focuses on systematic tactical asset allocation and we group these information under the name of heterogeneous data (market data and “other market information”). Market data are “end of day” asset closing prices and “other market information” gather economic cycle, sentiment and volatility indicators. We assess the influence of a heterogeneous data combination on our arbitrage portfolios for a time period including the subprimes crisis period and thanks to data analysis and quantization algorithms. The impact of a heterogeneous data combination on our arbitrage portfolio is materialized by increasing return, increasing return/volatility ratio for the post subprimes crisis period, decreasing volatility and asset class correlations. These empirical findings suggest that “other market information” presence could be an element of arbitrage portfolio risk diversification. Furthermore, we investigate and bring empirical results to Blitz and Vliet (2008) issue on global tactical asset allocation (GTAA) by considering “predictive” variables with a systematic market timing process integrating heterogeneous data thanks to a quantitative data processing
APA, Harvard, Vancouver, ISO, and other styles
27

Fize, Jacques. "Mise en correspondance de données textuelles hétérogènes fondée sur la dimension spatiale." Thesis, Montpellier, 2019. http://www.theses.fr/2019MONTS099.

Full text
Abstract:
Avec l’essor du Big Data, le traitement du Volume, de la Vélocité (croissance et évolution) et de la Variété de la donnée concentre les efforts des différentes communautés pour exploiter ces nouvelles ressources. Ces nouvelles ressources sont devenues si importantes, que celles-ci sont considérées comme le nouvel « or noir ». Au cours des dernières années, le volume et la vélocité sont des aspects de la donnée qui sont maitrisés contrairement à la variété qui elle reste un défi majeur. Cette thèse présente deux contributions dans le domaine de mise en correspondance de données hétérogènes, avec un focus sur la dimensions spatiale.La première contribution repose sur un processus de mise en correspondance de données textuelles hétérogènes divisé en deux étapes : la géoreprésentation et le géomatching. Dans la première phase, nous proposons de représenter la dimension spatiale de chaque document d'un corpus à travers une structure dédiée, la Spatial Textual Representation (STR). Cette représentation de type graphe est composée des entités spatiales identifiées dans le document, ainsi que les relations spatiales qu'elles entretiennent. Pour identifier les entités spatiales d'un document et leurs relations spatiales, nous proposons une ressource dédiée, nommée Geodict. La seconde phase, le géomatching, consiste à mesurer la similarité entre les représentations générées (STR). S'appuyant sur la nature de la structure de la STR (i.e. graphe), différents algorithmes de graph matching ont été étudiés. Pour évaluer la pertinence d'une correspondance, nous proposons un ensemble de 6 critères s'appuyant sur une définition de la similarité spatiale entre deux documents.La seconde contribution repose sur la dimension thématique des données textuelles et sa participation dans le processus de mise en correspondance spatiale. Nous proposons d'identifier les thèmes apparaissant dans la même fenêtre contextuelle que certaines entités spatiales. L'objectif est d'induire certaines des similarités spatiales implicites entre les documents. Pour cela, nous proposons d'étendre la structure de la STR à l'aide de deux concepts : l'entité thématique et de la relation thématique. L'entité thématique représente un concept propre à un domaine particulier (agronome, médical) et représenté selon différentes orthographes présentes dans une ressource terminologique, ici un vocabulaire. Une relation thématique lie une entité spatiale à une entité thématique si celles-ci apparaissent dans une même fenêtre contextuelle. Les vocabulaires choisis ainsi que la nouvelle forme de la STR intégrant la dimension thématique sont évalués selon leur couverture sur les corpus étudiés, ainsi que leurs contributions dans le processus de mise en correspondance spatiale
With the rise of Big Data, the processing of Volume, Velocity (growth and evolution) and data Variety concentrates the efforts of communities to exploit these new resources. These new resources have become so important that they are considered the new "black gold". In recent years, volume and velocity have been aspects of the data that are controlled, unlike variety, which remains a major challenge. This thesis presents two contributions in the field of heterogeneous data matching, with a focus on the spatial dimension.The first contribution is based on a two-step process for matching heterogeneous textual data: georepresentation and geomatching. In the first phase, we propose to represent the spatial dimension of each document in a corpus through a dedicated structure, the Spatial Textual Representation (STR). This graph representation is composed of the spatial entities identified in the document, as well as the spatial relationships they maintain. To identify the spatial entities of a document and their spatial relationships, we propose a dedicated resource, called Geodict. The second phase, geomatching, computes the similarity between the generated representations (STR). Based on the nature of the STR structure (i.e. graph), different algorithms of graph matching were studied. To assess the relevance of a match, we propose a set of 6 criteria based on a definition of the spatial similarity between two documents.The second contribution is based on the thematic dimension of textual data and its participation in the spatial matching process. We propose to identify the themes that appear in the same contextual window as certain spatial entities. The objective is to induce some of the implicit spatial similarities between the documents. To do this, we propose to extend the structure of STR using two concepts: the thematic entity and the thematic relationship. The thematic entity represents a concept specific to a particular field (agronomic, medical) and represented according to different spellings present in a terminology resource, in this case a vocabulary. A thematic relationship links a spatial entity to a thematic entity if they appear in the same window. The selected vocabularies and the new form of STR integrating the thematic dimension are evaluated according to their coverage on the studied corpora, as well as their contributions to the heterogeneous textual matching process on the spatial dimension
APA, Harvard, Vancouver, ISO, and other styles
28

Germa, Thierry. "Fusion de données hétérogènes pour la perception de l'homme par robot mobile." Phd thesis, Toulouse 3, 2010. http://thesesups.ups-tlse.fr/1016/.

Full text
Abstract:
Ces travaux de thèse s'inscrivent dans le cadre du projet européen CommRob impliquant des partenaires académiques et industriels. Le but du projet est la conception d'un robot compagnon évoluant en milieu structuré, dynamique et fortement encombré par la présence d'autres agents partageant l'espace (autres robots, humains). Dans ce cadre, notre contribution porte plus spécifiquement sur la perception multimodale des usagers du robot (utilisateur et passants). La perception multimodale porte sur le développement et l'intégration de fonctions perceptuelles pour la détection, l'identification de personnes et l'analyse spatio-temporelle de leurs déplacements afin de communiquer avec le robot. La détection proximale des usagers du robot s'appuie sur une perception multimodale couplant des données hétérogènes issues de différents capteurs. Les humains détectés puis reconnus sont alors suivis dans le flot vidéo délivré par une caméra embarquée afin d'en interpréter leurs déplacements. Une première contribution réside dans la mise en place de fonctions de détection et d'identification de personnes depuis un robot mobile. Une deuxième contribution concerne l'analyse spatio-temporelle de ces percepts pour le suivi de l'utilisateur dans un premier temps, de l'ensemble des personnes situées aux alentours du robot dans un deuxième temps. Enfin, dans le sens des exigences de la robotique, la thèse comporte deux volets : un volet formel et algorithmique qui tire pertinence et validation d'un fort volet expérimental et intégratif. Ces développements s'appuient sur notre plateforme Rackham et celle mise en œuvre durant le projet CommRob
This work has been realized under the CommRob European project involving several academic and industrial partners. The goal of this project is to build a robot companion able to act in structured and dynamic environments cluttered by other agents (robots and humans). In this context, our contribution is related to multimodal perception of humans from the robot (users and passers-by). The multimodal perception induces the development and integration of perceptual functions able to detect, to identify the people and to track the motions in order to communicate with the robot. Proximal detection of the robot's users uses a multimodal perception framework based on heterogeneous data fusion from different sensors. The detected and identified users are then tracked in the video stream extracted from the embedded camera in order to interpret the human motions. The first contribution is related to the definition of perceptual functions for detecting and identifying humans from a mobile robot. The second contribution concerns the spatio-temporal analysis of these percepts for user tracking. Then, this work is extended to multi-target tracking dedicated to the passers by. Finally, as it is frequently done in robotics, our work contains two main topics: on one hand the approaches are formalized; on the other hand, these approaches are integrated and validated through live experiments. All the developments done during this thesis has been integrated on our platform Rackham and on the CommRob platform too
APA, Harvard, Vancouver, ISO, and other styles
29

Soumana, Ibrahim. "Interrogation des sources de données hétérogènes : une approche pour l'analyse des requêtes." Thesis, Besançon, 2014. http://www.theses.fr/2014BESA1015/document.

Full text
Abstract:
Le volume des données structurées produites devient de plus en plus considérable. Plusieurs aspects concourent à l’accroissement du volume de données structurées. Au niveau du Web, le Web de données (Linked Data) a permis l’interconnexion de plusieurs jeux de données disponibles créant un gigantesque hub de données. Certaines applications comme l’extraction d’informations produisent des données pour peupler des ontologies. Les capteurs et appareils (ordinateur, smartphone, tablette) connectés produisent de plus en plus de données. Les systèmes d’information d’entreprise sont également affectés. Accéder à une information précise devient de plus en plus difficile. En entreprise, des outils de recherche ont été mis au point pour réduire la charge de travail liée à la recherche d’informations, mais ces outils génèrent toujours des volumes importants. Les interfaces en langage naturel issues du Traitement Automatique des Langues peuvent être mises à contribution pour permettre aux utilisateurs d’exprimer naturellement leurs besoins en informations sans se préoccuper des aspects techniques liés à l’interrogation des données structurées. Les interfaces en langage naturel permettent également d’avoir une réponse concise sans avoir besoin de fouiller d’avantage dans une liste de documents. Cependant actuellement, ces interfaces ne sont pas assez robustes pour être utilisées par le grand public ou pour répondre aux problèmes de l’hétérogénéité ou du volume de données. Nous nous intéressons à la robustesse de ces systèmes du point de vue de l’analyse de la question. La compréhension de la question de l’utilisateur est une étape importante pour retrouver la réponse. Nous proposons trois niveaux d’interprétation pour l’analyse d’une question : domaine abstrait, domaine concret et la relation domaine abstrait/concret. Le domaine abstrait s’intéresse aux données qui sont indépendantes de la nature des jeux de données. Il s’agit principalement des données de mesures. L’interprétation s’appuie sur la logique propre à ces mesures. Le plus souvent cette logique a été bien décrite dans les autres disciplines, mais la manière dont elle se manifeste en langage naturel n’a pas fait l’objet d’une large investigation pour les interfaces en langage naturel basées sur des données structurées. Le domaine concret couvre le domaine métier de l’application. Il s’agit de bien interpréter la logique métier. Pour une base de données, il correspond au niveau applicatif (par opposition à la couche des données). La plupart des interfaces en langage naturel se focalisent principalement sur la couche des données. La relation domaine abstrait/concret s’intéresse aux interprétations qui chevauchent les deux domaines. Du fait de l’importance de l’analyse linguistique, nous avons développé l’infrastructure pour mener cette analyse. L’essentiel des interfaces en langage naturel qui tentent de répondre aux problématiques du Web de données (Linked Data) ont été développées jusqu’ici pour la langue anglaise et allemande. Notre interface tente d’abord de répondre à des questions en français
No english summary available
APA, Harvard, Vancouver, ISO, and other styles
30

Allanic, Marianne. "Gestion et visualisation de données hétérogènes multidimensionnelles : application PLM à la neuroimagerie." Thesis, Compiègne, 2015. http://www.theses.fr/2015COMP2248/document.

Full text
Abstract:
La neuroimagerie est confrontée à des difficultés pour analyser et réutiliser la masse croissante de données hétérogènes qu’elle produit. La provenance des données est complexe – multi-sujets, multi-analyses, multi-temporalités – et ces données ne sont stockées que partiellement, limitant les possibilités d’études multimodales et longitudinales. En particulier, la connectivité fonctionnelle cérébrale est analysée pour comprendre comment les différentes zones du cerveau travaillent ensemble. Il est nécessaire de gérer les données acquises et traitées suivant plusieurs dimensions, telles que le temps d’acquisition, le temps entre les acquisitions ou encore les sujets et leurs caractéristiques. Cette thèse a pour objectif de permettre l’exploration de relations complexes entre données hétérogènes, ce qui se décline selon deux axes : (1) comment gérer les données et leur provenance, (2) comment visualiser les structures de données multidimensionnelles. L’apport de nos travaux s’articule autour de trois propositions qui sont présentées à l’issue d’un état de l’art sur les domaines de la gestion de données hétérogènes et de la visualisation de graphes. Le modèle de données BMI-LM (Bio-Medical Imaging – Lifecycle Management) structure la gestion des données de neuroimagerie en fonction des étapes d’une étude et prend en compte le caractère évolutif de la recherche grâce à l’association de classes spécifiques à des objets génériques. L’implémentation de ce modèle au sein d’un système PLM (Product Lifecycle Management) montre que les concepts développés depuis vingt ans par l’industrie manufacturière peuvent être réutilisés pour la gestion des données en neuroimagerie. Les GMD (Graphes Multidimensionnels Dynamiques) sont introduits pour représenter des relations complexes entre données qui évoluent suivant plusieurs dimensions, et le format JGEX (Json Graph EXchange) a été créé pour permettre le stockage et l’échange de GMD entre applications. La méthode OCL (Overview Constraint Layout) permet l’exploration visuelle et interactive de GMD. Elle repose sur la préservation partielle de la carte mentale de l’utilisateur et l’alternance de vues complètes et réduites des données. La méthode OCL est appliquée à l’étude de la connectivité fonctionnelle cérébrale au repos de 231 sujets représentées sous forme de GMD – les zones du cerveau sont représentées par les nœuds et les mesures de connectivité par les arêtes – en fonction de l’âge, du genre et de la latéralité : les GMD sont obtenus par l’application de chaînes de traitement sur des acquisitions IRM dans le système PLM. Les résultats montrent deux intérêts principaux à l’utilisation de la méthode OCL : (1) l’identification des tendances globales sur une ou plusieurs dimensions et (2) la mise en exergue des changements locaux entre états du GMD
Neuroimaging domain is confronted with issues in analyzing and reusing the growing amount of heterogeneous data produced. Data provenance is complex – multi-subjects, multi-methods, multi-temporalities – and the data are only partially stored, restricting multimodal and longitudinal studies. Especially, functional brain connectivity is studied to understand how areas of the brain work together. Raw and derived imaging data must be properly managed according to several dimensions, such as acquisition time, time between two acquisitions or subjects and their characteristics. The objective of the thesis is to allow exploration of complex relationships between heterogeneous data, which is resolved in two parts : (1) how to manage data and provenance, (2) how to visualize structures of multidimensional data. The contribution follow a logical sequence of three propositions which are presented after a research survey in heterogeneous data management and graph visualization. The BMI-LM (Bio-Medical Imaging – Lifecycle Management) data model organizes the management of neuroimaging data according to the phases of a study and takes into account the scalability of research thanks to specific classes associated to generic objects. The application of this model into a PLM (Product Lifecycle Management) system shows that concepts developed twenty years ago for manufacturing industry can be reused to manage neuroimaging data. GMDs (Dynamic Multidimensional Graphs) are introduced to represent complex dynamic relationships of data, as well as JGEX (Json Graph EXchange) format that was created to store and exchange GMDs between software applications. OCL (Overview Constraint Layout) method allows interactive and visual exploration of GMDs. It is based on user’s mental map preservation and alternating of complete and reduced views of data. OCL method is applied to the study of functional brain connectivity at rest of 231 subjects that are represented by a GMD – the areas of the brain are the nodes and connectivity measures the edges – according to age, gender and laterality : GMDs are computed through processing workflow on MRI acquisitions into the PLM system. Results show two main benefits of using OCL method : (1) identification of global trends on one or many dimensions, and (2) highlights of local changes between GMD states
APA, Harvard, Vancouver, ISO, and other styles
31

Imbert, Alyssa. "Intégration de données hétérogènes complexes à partir de tableaux de tailles déséquilibrées." Thesis, Toulouse 1, 2018. http://www.theses.fr/2018TOU10022/document.

Full text
Abstract:
Les avancées des nouvelles technologies de séquençage ont permis aux études cliniques de produire des données volumineuses et complexes. Cette complexité se décline selon diverses modalités, notamment la grande dimension, l’hétérogénéité des données au niveau biologique (acquises à différents niveaux de l’échelle du vivant et à divers moments de l’expérience), l’hétérogénéité du type de données, le bruit (hétérogénéité biologique ou données entachées d’erreurs) dans les données et la présence de données manquantes (au niveau d’une valeur ou d’un individu entier). L’intégration de différentes données est donc un défi important pour la biologie computationnelle. Cette thèse s’inscrit dans un projet de recherche clinique sur l’obésité, DiOGenes, pour lequel nous avons fait des propositions méthodologiques pour l’analyse et l’intégration de données. Ce projet est basé sur une intervention nutritionnelle menée dans huit pays européens et vise à analyser les effets de différents régimes sur le maintien pondéral et sur certains marqueurs de risque cardio-vasculaire et de diabète, chez des individus obèses. Dans le cadre de ce projet, mes travaux ont porté sur l’analyse de données transcriptomiques (RNA-Seq) avec des individus manquants et sur l’intégration de données transcriptomiques (nouvelle technique QuantSeq) avec des données cliniques. La première partie de cette thèse est consacrée aux données manquantes et à l’inférence de réseaux à partir de données d’expression RNA-Seq. Lors d’études longitudinales transcriptomiques, il arrive que certains individus ne soient pas observés à certains pas de temps, pour des raisons expérimentales. Nous proposons une méthode d’imputation multiple hot-deck (hd-MI) qui permet d’intégrer de l’information externe mesurée sur les mêmes individus et d’autres individus. hd-MI permet d’améliorer la qualité de l’inférence de réseau. La seconde partie porte sur une étude intégrative de données cliniques et transcriptomiques (mesurées par QuantSeq) basée sur une approche réseau. Nous y montrons l’intérêt de cette nouvelle technique pour l’acquisition de données transcriptomiques et l’analysons par une approche d’inférence de réseau en lien avec des données cliniques d’intérêt
The development of high-throughput sequencing technologies has lead to a massive acquisition of high dimensional and complex datasets. Different features make these datasets hard to analyze : high dimensionality, heterogeneity at the biological level or at the data type level, the noise in data (due to biological heterogeneity or to errors in data) and the presence of missing data (for given values or for an entire individual). The integration of various data is thus an important challenge for computational biology. This thesis is part of a large clinical research project on obesity, DiOGenes, in which we have developed methods for data analysis and integration. The project is based on a dietary intervention that was led in eight Europeans centers. This study investigated the effect of macronutrient composition on weight-loss maintenance and metabolic and cardiovascular risk factors after a phase of calorie restriction in obese individuals. My work have mainly focused on transcriptomic data analysis (RNA-Seq) with missing individuals and data integration of transcriptomic (new QuantSeq protocol) and clinic datasets. The first part is focused on missing data and network inference from RNA-Seq datasets. During longitudinal study, some observations are missing for some time step. In order to take advantage of external information measured simultaneously to RNA-Seq data, we propose an imputation method, hot-deck multiple imputation (hd-MI), that improves the reliability of network inference. The second part deals with an integrative study of clinical data and transcriptomic data, measured by QuantSeq, based on a network approach. The new protocol is shown efficient for transcriptome measurement. We proposed an analysis based on network inference that is linked to clinical variables of interest
APA, Harvard, Vancouver, ISO, and other styles
32

Lange, Benoît. "Visualisation interactive de données hétérogènes pour l'amélioration des dépenses énergétiques du bâtiment." Thesis, Montpellier 2, 2012. http://www.theses.fr/2012MON20172/document.

Full text
Abstract:
De nos jours, l'économie d'énergie est devenue un enjeu crucial. Les bâtiments des différents pays ont été identifiés comme étant une source importante de perte énergétique. De ce constat a émergé le projet RIDER (Reasearch for IT Driven EneRgy efficiency). Ce projet a pour objectif de développer un système d'information innovant permettant d'optimiser la consommation énergétique d'un bâtiment ou d'un groupe de bâtiments. Ce système est basé sur des composants logiciels, notamment une solution générale de modélisation du bâtiment, une solution de fouille de données, une solution de visualisation. Chacun de ces composants est destiné à améliorer le modèle de données de RIDER. Dans ce manuscrit, nous nous intéressons à la partie visualisation et nous proposons donc une solution d'amélioration du modèle par cette méthode. Dans ces travaux, nous allons présenter les solutions que nous avons mises en place pour modéliser le bâtiment ; pour ce faire nous avons utilisé une solution à base de particules dont la valeur est interpolée par rapport aux différents capteurs du bâtiment. Nous présentons également les différentes solutions mises en place pour visualiser les données et les méthodes d'interactions pour améliorer le modèle du bâtiment. Enfin, notre dernière partie présente les résultats de notre solution au travers de deux jeux de données
Energy efficiencies are became a major issue. Building from any country have been identified as gap of energy, building are not enough insulated and energy loss by this struc- ture represent a major part of energy expenditure. RIDER has emerged from this viewpoint, RIDER for Research for IT Driven EneRgy efficiency. This project has goal to develop a new kind of IT system to optimize energy consumption of buildings. This system is based on a component paradigm, which is composed by a pivot model, a data warehouse with a data mining approach and a visualization tool. These two last components are developed to improve content of pivot model.In this manuscript, our focus was on the visualization part of the project. This manuscript is composed in two parts: state of the arts and contributions. Basic notions, a visualization chapter and a visual analytics chapter compose the state of the art. In the contribution part, we present data model used in this project, visualization proposed and we conclude with two experimentations on real data
APA, Harvard, Vancouver, ISO, and other styles
33

Elghazel, Haytham. "Classification et prévision des données hétérogènes : application aux trajectoires et séjours hospitaliers." Lyon 1, 2007. http://www.theses.fr/2007LYO10325.

Full text
Abstract:
Ces dernières années ont vu le développement des techniques de fouille de données dans de nombreux domaines d’applications dans le but d’analyser des données volumineuses et complexes. La santé est ainsi un secteur où les données disponibles sont nombreuses et de natures variées (variables classiques comme l’âge ou le sexe, variables symboliques comme l’ensemble des actes médicaux, les diagnostics, etc). D’une manière générale, la fouille de données regroupe l’ensemble des techniques soit descriptives (qui visent à mettre en évidence des informations présentes mais cachées par le volume des données), soit prédictives (cherchant à extrapoler de nouvelles connaissances à partir des informations présentes dans les données). Dans le cadre de cette thèse, nous nous intéressons au problème de classification et de prévision de données hétérogènes, que nous proposons d'étudier à travers deux approches principales. Dans la première, il s'agit de mettre en place une nouvelle approche de classification automatique basée sur une technique de la théorie des graphes baptisée b‐coloration. Nous avons également développé l’apprentissage incrémental associé à cette approche, ce qui permet à de nouvelles données d’être automatiquement intégrées dans la partition initialement générée sans avoir à relancer la classification globale. Le deuxième apport de notre travail concerne l’analyse de données séquentielles. Nous proposons de combiner la méthode de classification précédente avec les modèles de mélange markovien, afin d’obtenir une partition de séquences temporelles en groupes homogènes et significatifs. Le modèle obtenu assure une bonne interprétabilité des classes construites et permet d’autre part d’estimer l’évolution des séquences d’une classe donnée. Ces deux propositions ont ensuite été appliquées aux données issues du système d’information hospitalier français (PMSI), dans l’esprit d’une aide au pilotage stratégique des établissements de soins. Ce travail consiste à proposer dans un premier temps une typologie plus fine des séjours hospitaliers pour remédier aux problèmes associés à la classification existante en groupes homogènes de malades (GHM). Dans un deuxième temps, nous avons cherché à définir une typologie des trajectoires patient (succession de séjours hospitaliers d’un même patient) afin de prévoir de manière statistiques les caractéristiques du prochain séjour d’un patient arrivant dans un établissement de soins. La méthodologie globale offre ainsi un environnement d’aide à la décision pour le suivi et la maîtrise de l’organisation du système des soins
Recent years have seen the development of data mining techniques in various application areas, with the purpose of analyzing large and complex data. The medical field is one of these areas where available data are numerous and described using various attributes, classical (like patient age and sex) or symbolic (like medical treatments and diagnosis). Data mining generally includes either descriptive techniques (which provide an attractive mechanism to automatically find the hidden structure of large data sets), or predictive techniques (able to unearth hidden knowledge from datasets). In this work, the problem of clustering and prediction of heterogeneous data is tackled by a two‐stage proposal. The first one concerns a new clustering approach which is based on a graph coloring method, named b‐coloring. An extension of this approach which concerns incremental clustering has been added at the same time. It consists in updating clusters as new data are added to the dataset without having to perform complete re‐clustering. The second proposal concerns sequential data analysis and provides a new framework for clustering sequential data based on a hybrid model that uses the previous clustering approach and the Mixture Markov chain models. This method allows building a partition of the sequential dataset into cohesive and easily interpretable clusters, as well as it is able to predict the evolution of sequences from one cluster. Both proposals have then been applied to healthcare data given from the PMSI program (French hospital information system), in order to assist medical professionals in their decision process. In the first step, the b‐coloring clustering algorithm has been investigated to provide a new typology of hospital stays as an alternative to the DRGs classification (Diagnosis Related Groups). In a second step, we defined a typology of clinical pathways and are then able to predict possible features of future paths when a new patient arrives at the clinical center. The overall framework provides a decision‐aid system for assisting medical professionals in the planning and management of clinical process
APA, Harvard, Vancouver, ISO, and other styles
34

Guillemot, Vincent. "Application de méthodes de classification supervisée et intégration de données hétérogènes pour des données transcriptomiques à haut-débit." Phd thesis, Université Paris Sud - Paris XI, 2010. http://tel.archives-ouvertes.fr/tel-00481822.

Full text
Abstract:
Les méthodes d'apprentissage supervisé sont appliquées depuis récemment à des jeux de données de puces à ADN, afin d'une part d'extraire des gènes impliqués dans les différences entre les classes d'individus étudiés et d'autre part de construire une fonction de classification permettant de prédire la classe d'un nouvel individu. Ces données de puces à ADN peuvent être accompagnées d'une information précieuse décrivant les interactions entre les variables (les gènes). Cette information est regroupée sous la forme de réseaux de régulations génétiques (RRG). L'objectif de la thèse est de réaliser l'intégration de l'information contenue dans ces RRGs dans une méthode de classification supervisée binaire. Nous proposons une nouvelle méthode, graph Constrained Discriminant Analysis (gCDA), basée sur l'analyse discriminante de Fisher. Les méthodes de la littérature se proposent d'implémenter la contrainte suivante : les gènes qui sont voisins dans le RRG doivent avoir des poids proches, voire identiques, dans la fonction de classification. À contrepoint de ces méthodes, gCDA est basée sur l'estimation régularisée des matrices de variance covariance qui sont utilisées dans l'analyse discriminante de Fisher. Les estimateurs utilisés dans gCDA prennent en compte l'information contenue dans les RRGs disponibles a priori grâce aux propriétés des modèles graphiques gaussiens. gCDA est comparée aux méthodes de la littérature sur des données simulées, données pour lesquelles le graphe sous-jacent est parfaitement connu. Dans le cas de données réelles, le graphe sous-jacent décrivant les interactions entre variables n'est pas connu. Nous nous sommes donc également intéressés à des méthodes permettant d'inférer de tels graphes à partir de données transcriptomiques. Enfin, des résultats sont obtenus sur trois jeux de données réelles. Les RRG ont été inférés soit sur des jeux de données de même nature mais indépendants (c'est-à-dire concernant des individus qui ne sont pas utilisés pour en classification), soit sur une partie indépendante du jeu de données étudié. Nous montrons une amélioration notable des performances de classification sur ces jeux de données lorsque gCDA est utilisée par rapport à l'utilisation des méthodes de la littérature décrites dans la deuxième partie.
APA, Harvard, Vancouver, ISO, and other styles
35

Najjar, Ahmed. "Forage de données de bases administratives en santé." Doctoral thesis, Université Laval, 2017. http://hdl.handle.net/20.500.11794/28162.

Full text
Abstract:
Les systèmes de santé actuels sont de plus en plus informatisés et dotés de systèmes de collecte et de stockage des données. Une énorme quantité des données est ainsi stockée dans les bases de données médicales. Les bases de données, conçues à des fins administratives ou de facturation, sont alimentées de nouvelles données à chaque fois que le patient fait appel au système de soins de santé. Cette spécificité rend ces bases de données une source riche en information et extrêmement intéressante et utile. Elles rassemblent ainsi toutes les données de prestation de soins et pourraient permettre de construire et de dévoiler les processus de soins des patients. Toutefois, malgré cet intérêt évident que représente ces banques de données administratives, elles sont jusqu’à date sous-exploitées par les chercheurs. Nous proposons donc dans cette thèse une approche de découverte de connaissances qui à partir des données administratives brutes permet de détecter des patrons des trajectoires de soins des patients. Nous avons tout d’abord proposé un algorithme capable de regrouper des objets complexes qui représentent les services médicaux. Ces objets sont caractérisés par un mélange de variables numériques, catégorielles et catégorielles multivaluées. Nous proposons pour cela d’extraire des espaces de projection pour les variables multivaluées et de modifier le calcul de la distance entre les objets afin de prendre ces projections en compte. La deuxième nouveauté consiste à la proposition d’un modèle de mélange en deux étapes, capable de regrouper ces objets. Ce modèle fait appel à la distribution gaussienne pour les variables numériques, multinomiales pour les variables catégorielles et aux modèles cachés de Markov (HMM) pour les variables multivaluées. Nous obtenons ainsi deux algorithmes capables de regrouper des objets complexes caractérisés par un mélange de variables. Par la suite, une approche de découverte de patrons des trajectoires de soins a été mise en place. Cette approche comporte plusieurs étapes. La première est l’étape de prétraitement qui permet de construire et de générer les ensembles des services médicaux. Ainsi, on obtient trois ensembles des services médicaux : un pour les séjours hospitaliers, un pour les consultations et un pour les visites. La deuxième étape est l’étape de modélisation et regroupement des processus de soins comme une succession des étiquettes des services médicaux. Ces processus sont complexes et ils nécessitent une méthode sophistiquée de regroupement. Nous proposons ainsi un algorithme de regroupement basé sur les HMM. Finalement, une approche de visualisation et d’analyse des patrons des trajectoires est proposée pour exploiter les modèles découverts. L’ensemble de ces étapes forment le processus de découvertes des patrons des trajectoires à partir des bases de données administratives en santé. Nous avons appliqué cette approche aux bases de données sur la prestation des soins pour les personnes âgées de 65 ans et plus souffrant d’insuffisance cardiaque et habitant à la province de Québec. Ces données sont extraites de trois bases de données : la banque de données MED-ÉCHO du MSSS, la banque de la RAMQ et la base contenant les données concernant les certificats de décès. Les résultats issus de ce projet ont montré l’efficacité de notre approche et de nos algorithmes en détectant des patrons spéciaux qui peuvent aider les administrateurs de soins de santé à mieux gérer les soins de santé.
Current health systems are increasingly equipped with data collection and storage systems. Therefore, a huge amount of data is stored in medical databases. Databases, designed for administrative or billing purposes, are fed with new data whenever the patient uses the healthcare system. This specificity makes these databases a rich source of information and extremely interesting. These databases can unveil the constraints of reality, capturing elements from a great variety of real medical care situations. So, they could allow the conception and modeling the medical treatment process. However, despite the obvious interest of these administrative databases, they are still underexploited by researchers. In this thesis, we propose a new approach of the mining for administrative data to detect patterns from patient care trajectories. Firstly, we have proposed an algorithm able to cluster complex objects that represent medical services. These objects are characterized by a mixture of numerical, categorical and multivalued categorical variables. We thus propose to extract one projection space for each multivalued variable and to modify the computation of the distance between the objects to consider these projections. Secondly, a two-step mixture model is proposed to cluster these objects. This model uses the Gaussian distribution for the numerical variables, multinomial for the categorical variables and the hidden Markov models (HMM) for the multivalued variables. Finally, we obtain two algorithms able to cluster complex objects characterized by a mixture of variables. Once this stage is reached, an approach for the discovery of patterns of care trajectories is set up. This approach involves the followed steps: 1. preprocessing that allows the building and generation of medical services sets. Thus, three sets of medical services are obtained: one for hospital stays, one for consultations and one for visits. 2. modeling of treatment processes as a succession of labels of medical services. These complex processes require a sophisticated method of clustering. Thus, we propose a clustering algorithm based on the HMM. 3. creating an approach of visualization and analysis of the trajectory patterns to mine the discovered models. All these steps produce the knowledge discovery process from medical administrative databases. We apply this approach to databases for elderly patients over 65 years old who live in the province of Quebec and are suffering from heart failure. The data are extracted from the three databases: the MSSS MED-ÉCHO database, the RAMQ bank and the database containing death certificate data. The obtained results clearly demonstrated the effectiveness of our approach by detecting special patterns that can help healthcare administrators to better manage health treatments.
APA, Harvard, Vancouver, ISO, and other styles
36

Pinilla, Erwan. "Données de santé, dynamiques et enjeux de souveraineté." Electronic Thesis or Diss., Strasbourg, 2023. http://www.theses.fr/2023STRAA015.

Full text
Abstract:
Cette recherche a pour but de relever les dynamiques de la « donnée de santé » dans le champ de la souveraineté numérique : qui peut par là décrire, expliquer des situations, prédire des tendances, induire des comportements individuels et/ou populationnels, voire étatiques ? Que protéger donc en droit, comment? Nous rapportons et analysons le débordement des approches historiques de régulation, du fait de la diversification des acteurs, techniques et usages ; de la multiplication des sources de données et leur dissémination ; de l’ébranlement de catégories juridiques pourtant récemment fixées ; de la porosité des systèmes du fait d’interactions choisies ou non, dont les ingérences étrangères. En conséquence, nous analysons l’avènement accéléré d’outils inédits au niveau européen, dans des champs traditionnellement régaliens en matière d’infrastructures cyber, de qualifications (données, technologies, utilisations), et de garanties mutuelles contre les ingérences étatiques. D’autres défis nous semblent devoir être approfondis (ainsi la ré-identification ; les données synthétiques), dans une ère où la maîtrise technologique a cessé d’être l’apanage des Etats, et où la géopolitique s’est retendue avec des outils nouveaux
Aim of this research is to identify the dynamics of “health data” in the field of digital sovereignty: who can use it to describe and explain situations, predict trends, and induce individual and/or population, or even States, behaviours ? What is – and should be legally protected, and how ? We here report on and analyze the overflowing of historical approaches to regulation, due to the diversification of players, techniques and uses ; the multiplication of data sources and their dissemination, the shaking of legal categories despite their recent establishment ; the porosity of national and joint systems, due to conventional or agressive interactions. As a result, we analyze the accelerated advent of new rules at European level in traditionally regalian fields of cyber infrastructure, qualifications (data, technologies, uses), and mutual guarantees against interferences. Other challenges call for in-depth insight (such as reidentification & synthetic data), in an era where for long technological domination is no more a prerogative of States, and where geopolitics has been extended by new tools and practices
APA, Harvard, Vancouver, ISO, and other styles
37

Cherif, Mohamed Abderrazak. "Alignement et fusion de cartes géospatiales multimodales hétérogènes." Electronic Thesis or Diss., Université Côte d'Azur, 2024. http://www.theses.fr/2024COAZ5002.

Full text
Abstract:
L'augmentation des données dans divers domaines présente un besoin essentiel de techniques avancées pour fusionner et interpréter ces informations. Avec une emphase particulière sur la compilation de données géospatiales, cette intégration est cruciale pour débloquer de nouvelles perspectives à partir des données géographiques, améliorant notre capacité à cartographier et analyser les tendances qui s'étendent à travers différents lieux et environnements avec plus d'authenticité et de fiabilité. Les techniques existantes ont progressé dans l'adresse de la fusion des données ; cependant, des défis persistent dans la fusion et l'harmonisation des données de différentes sources, échelles et modalités. Cette recherche présente une enquête complète sur les défis et les solutions dans l'alignement et la fusion des cartes vectorielles, se concentrant sur le développement de méthodes qui améliorent la précision et l'utilisabilité des données géospatiales. Nous avons exploré et développé trois méthodologies distinctes pour l'alignement des cartes vectorielles polygonales : ProximityAlign, qui excelle en précision dans les agencements urbains; l'Alignement Basé sur l'Apprentissage Profond du Flux Optique, remarquable pour son efficacité ; et l'Alignement Basé sur la Géométrie Épipolaire, efficace dans les contextes riches en données. De plus, notre étude s'est penchée sur l'alignement des cartes de géometries linéaires, soulignant l'importance d'un alignement précis et du transfert d'attributs des éléments, pointant vers le développement de bases de données géospatiales plus riches et plus informatives en adaptant l'approche ProximityAlign pour des géometries linéaires telles que les traces de failles et les réseaux routiers. L'aspect fusion de notre recherche a introduit un pipeline sophistiqué pour fusionner des géométries polygonales en se basant sur le partitionnement d'espace, l'optimisation non convexe de la structure de données de graphes et les opérations géométriques pour produire une carte fusionnée fiable qui harmonise les cartes vectorielles en entrée, en maintenant leur intégrité géométrique et topologique. En pratique, le cadre développé a le potentiel d'améliorer la qualité et l'utilisabilité des données géospatiales intégrées, bénéficiant à diverses applications telles que la planification urbaine, la surveillance environnementale et la gestion des catastrophes. Cette étude avance non seulement la compréhension théorique dans le domaine mais fournit également une base solide pour des applications pratiques dans la gestion et l'interprétation de grands ensembles de données géospatiales
The surge in data across diverse fields presents an essential need for advanced techniques to merge and interpret this information. With a special emphasis on compiling geospatial data, this integration is crucial for unlocking new insights from geographic data, enhancing our ability to map and analyze trends that span across different locations and environments with more authenticity and reliability. Existing techniques have made progress in addressing data fusion; however, challenges persist in fusing and harmonizing data from different sources, scales, and modalities.This research presents a comprehensive investigation into the challenges and solutions in vector map alignment and fusion, focusing on developing methods that enhance the precision and usability of geospatial data. We explored and developed three distinct methodologies for polygonal vector map alignment: ProximityAlign, which excels in precision within urban layouts but faces computational challenges; the Optical Flow Deep Learning-Based Alignment, noted for its efficiency and adaptability; and the Epipolar Geometry-Based Alignment, effective in data-rich contexts but sensitive to data quality. Additionally, our study delved into linear feature map alignment, emphasizing the importance of precise alignment and feature attribute transfer, pointing towards the development of richer, more informative geospatial databases by adapting the ProximityAlign approach for linear features like fault traces and road networks. The fusion aspect of our research introduced a sophisticated pipeline to merge polygonal geometries relying on space partitioning, non-convex optimization of graph data structure, and geometrical operations to produce a reliable fused map that harmonizes input vector maps, maintaining their geometric and topological integrity.In practice, the developed framework has the potential to improve the quality and usability of integrated geospatial data, benefiting various applications such as urban planning, environmental monitoring, and disaster management. This study not only advances theoretical understanding in the field but also provides a solid foundation for practical applications in managing and interpreting large-scale geospatial datasets
APA, Harvard, Vancouver, ISO, and other styles
38

Zorn, Caroline. "Données de santé et secret partagé : pour un droit de la personne à la protection de ses données de santé partagées." Thesis, Nancy 2, 2009. http://www.theses.fr/2009NAN20011.

Full text
Abstract:
Le secret partagé est une exception légale au secret professionnel, permettant à ceux qui prennent en charge le patient d'échanger des informations le concernant, sans être sanctionnés du fait de cette révélation d'informations protégées. Si les soignants depuis toujours communiquent au sujet du patient dans son intérêt, il n'y en a pas moins un équilibre à trouver entre l'échange d'informations nécessaire à la pratique médicale, et le respect de la vie privée qu'un partage trop large peu compromettre. Or, l'émergence de l'outil informatique, multipliant les possibilités de partage de données de santé, remet en cause un équilibre fondé sur des mécanismes traditionnels de protection de l'intimité de la personne. Le traitement de données de santé partagées doit alors s'analyser au regard des règles du secret partagé, des règles de la législation "Informatique et Libertés", mais également au jour d'un foisonnement vertigineux de normes relatives à la mise en oeuvre de dossiers spécifiques comme le Dossier médical personnel, le Dossier pharmaceutique ou l'Historique des remboursements. La mise en relief systématique de la place du consentement de la personne concernée conduit au constat de l'impérative inscription à la Constitution du droit de la personne à la protection de ses données de santé partagées
The medical professional secret is a legal exception to the professional secret; it allows a patient's caregivers to exchange health information that is relevant to that patient's care without being punished for revealing confidential information. That caregivers discuss patient's health information with other medical professional involved in that patient's care is to the benefit of the patient. Nonetheless, there is a fine balance to be struck between a "need to know" professional exchange of information, which is essential to care of the patient, and a broad exchange of information, which may ultimately comprise the confidentiality of the patient's private life. The emergence of an electronic tool, which multiplies the potential possibilities for data exchange, further disrupts this balance. Consequently, the manipulation of this shared health information must be subject to the medical professional secret, the "Informatique et Libertés" legislation, and all of the numerous norms and standards as defined by the French national electronic medical record (DMP), the pharmaceutical medical record (Dossier pharmaceutique), or the reimbursement repository (Historique des remboursements). As the patient's health information is increasingly shared between health care providers - through means such as the DMP or DP - the patient's right and ability to control the access to his/her health information have to become more and more important. A study regarding the importance of obtaining the patient's consent lead to the following proposal: to inscribe in the French Constitution the patient's right to confidentiality regarding health information
APA, Harvard, Vancouver, ISO, and other styles
39

Vandromme, Maxence. "Optimisation combinatoire et extraction de connaissances sur données hétérogènes et temporelles : application à l’identification de parcours patients." Thesis, Lille 1, 2017. http://www.theses.fr/2017LIL10044.

Full text
Abstract:
Les données hospitalières présentent de nombreuses spécificités qui rendent difficilement applicables les méthodes de fouille de données traditionnelles. Dans cette thèse, nous nous intéressons à l'hétérogénéité de ces données ainsi qu'à leur aspect temporel. Dans le cadre du projet ANR ClinMine et d'une convention CIFRE avec la société Alicante, nous proposons deux nouvelles méthodes d'extraction de connaissances adaptées à ces types de données. Dans la première partie, nous développons l'algorithme MOSC (Multi-Objective Sequence Classification) pour la classification supervisée sur données hétérogènes, numériques et temporelles. Cette méthode accepte, en plus des termes binaires ou symboliques, des termes numériques et des séquences d'événements temporels pour former des ensembles de règles de classification. MOSC est le premier algorithme de classification supportant simultanément ces types de données. Dans la seconde partie, nous proposons une méthode de biclustering pour données hétérogènes, un problème qui n'a à notre connaissance jamais été exploré. Cette méthode, HBC (Heterogeneous BiClustering), est étendue pour supporter les données temporelles de différents types : événements temporels et séries temporelles irrégulières. HBC est utilisée pour un cas d'étude sur un ensemble de données hospitalières, dont l'objectif est d'identifier des groupes de patients ayant des profils similaires. Les résultats obtenus sont cohérents et intéressants d'un point de vue médical ; et amènent à la définition de cas d'étude plus précis. L'intégration dans une solution logicielle est également engagée, avec une version parallèle de HBC et un outil de visualisation des résultats
Hospital data exhibit numerous specificities that make the traditional data mining tools hard to apply. In this thesis, we focus on the heterogeneity associated with hospital data and on their temporal aspect. This work is done within the frame of the ANR ClinMine research project and a CIFRE partnership with the Alicante company. In this thesis, we propose two new knowledge discovery methods suited for hospital data, each able to perform a variety of tasks: classification, prediction, discovering patients profiles, etc.In the first part, we introduce MOSC (Multi-Objective Sequence Classification), an algorithm for supervised classification on heterogeneous, numeric and temporal data. In addition to binary and symbolic terms, this method uses numeric terms and sequences of temporal events to form sets of classification rules. MOSC is the first classification algorithm able to handle these types of data simultaneously. In the second part, we introduce HBC (Heterogeneous BiClustering), a biclustering algorithm for heterogeneous data, a problem that has never been studied so far. This algorithm is extended to support temporal data of various types: temporal events and unevenly-sampled time series. HBC is used for a case study on a set of hospital data, whose goal is to identify groups of patients sharing a similar profile. The results make sense from a medical viewpoint; they indicate that relevant, and sometimes new knowledge is extracted from the data. These results also lead to further, more precise case studies. The integration of HBC within a software is also engaged, with the implementation of a parallel version and a visualization tool for biclustering results
APA, Harvard, Vancouver, ISO, and other styles
40

Morvan, Marie. "Modèles de régression pour données fonctionnelles hétérogènes : application à la modélisation de données de spectrométrie dans le moyen infrarouge." Thesis, Rennes 1, 2019. http://www.theses.fr/2019REN1S097.

Full text
Abstract:
Dans de nombreux domaines d’application, les données récoltées correspondent à des courbes. Ce travail se concentre sur l’analyse de courbes de spectrométrie, constituées de plusieurs centaines de variables ordonnées, correspondant chacune à une valeur d’absorbance associée aux nombres d’ondes mesurés. Dans ce contexte, une méthode de traitement statistique automatique est développée, avec pour objectif la construction d’un modèle de prédiction prenant en compte l’hétérogénéité des données observées. Plus particulièrement, un modèle de diagnostic d’une maladie métabolique est établi à partir de courbes mesurées sur des individus provenant d’une population constituée de profils de patients différents. La procédure développée permet de sélectionner l’information pertinente sous forme de portions de courbes discriminantes, puis de construire de façon simultanée une partition des données et un modèle de prédiction parcimonieux grâce à un mélange de régressions pénalisées adapté aux données fonctionnelles. Ces données étant complexes, tout comme le cas d’application étudié, une méthode permettant une meilleure compréhension et une meilleure visualisation des interactions entre les portions de courbes a par ailleurs été développée. Cette méthode se base sur l’étude de la structure des matrices de covariance, avec pour but de faire ressortir des blocs de dépendances entre intervalles de variables. Un cas d’application médicale est utilisé pour présenter la méthode et les résultats, et permet l’utilisation d’outils de visualisation spécifiques
In many application fields, data corresponds to curves. This work focuses on the analysis of spectrometric curves, composed of hundreds of ordered variables that corresponds to the absorbance values measured for each wavenumber. In this context, an automatic statistical procedure is developped, that aims at building a prediction model taking into account the heterogeneity of the observed data. More precisely, a diagnosis tool is built in order to predict a metabolic disease from spectrometric curves measured on a population composed of patients with differents profile. The procedure allows to select portions of curves relevant for the prediction and to build a partition of the data and a sparse predictive model simultaneously, using a mixture of penalized regressions suitable for functional data. In order to study the complexity of the data and of the application case, a method to better understand and display the interactions between variables is built. This method is based on the study of the covariance matrix structure, and aims to highlight the dependencies between blocks of variables. A medical example is used to present the method and results, and allows the use of specific visualization tools
APA, Harvard, Vancouver, ISO, and other styles
41

Branki, Mohamed Tarek. "Un Processus d'integration de bases de données spatiales hétérogènes par logique de description." Paris 13, 1998. http://www.theses.fr/1998PA132055.

Full text
Abstract:
Notre travail s'inscrit dans le cadre de l'elaboration d'une methode de conception et de realisation d'un systeme multibases federe. Il consiste a proposer une demarche semi-automatique d'integration de schemas de bases de donnees spatiales heterogenes (ayant differentes resolutions, differentes dimensions geometriques) pour engendrer un schema global federe. La reussite d'une telle operation depend essentiellement de l'identification correcte et complete des differents conflits entre donnees spatiales et de leur resolution. Pour ce faire, les schemas representant ces donnees doivent etre assez riches semantiquement. Nous avons choisi, dans cette optique, les logiques terminologiques comme modele de donnees canonique. Nous avons enrichi le systeme back des elements necessaires pour representer la dimension spatiale et pour integrer ces donnees. En effet, nous supposons que tous les schemas sont deja traduits initialement dans notre modele terminologique geocoopm. Ces terminologies vont representer le point d'entree de notre processus d'integration. Notre processus d'integration s'articule en trois grandes phases : (1) la premiere phase se charge de construire une hierarchie d'attributs globale basee sur des relations ensemblistes entre attributs. (2) la seconde etape consiste a generer un schema integre partiel a partir de la hierarchie d'attributs, des terminologies en entree ainsi que du moteur terminologique enrichi de regles (transitivite is-part-of, regle mixte is-a et is-part-of ). (3) la derniere phase elabore et restructure le schema integre global en utilisant des metadonnees et des operateurs de restructuration pour resoudre les conflits spatiaux. La combinaison du raisonnement taxinomique et des meta-donnees nous a permis de pallier aux differences spatiales et de realiser un processus semi-automatique d'integration de bases de donnees spatiales heterogenes.
APA, Harvard, Vancouver, ISO, and other styles
42

Kaakai, Sarah. "Nouveaux paradigmes en dynamique de populations hétérogènes : modélisation trajectorielle, agrégation, et données empiriques." Thesis, Paris 6, 2017. http://www.theses.fr/2017PA066553/document.

Full text
Abstract:
Cette thèse porte sur la modélisation probabiliste de l’hétérogénéité des populations humaines et de son impact sur la longévité. Depuis quelques années, de nombreuses études montrent une augmentation alarmante des inégalités de mortalité géographiques et socioéconomiques. Ce changement de paradigme pose des problèmes que les modèles démographiques traditionnels ne peuvent résoudre, et dont la formalisation exige une observation fine des données dans un contexte pluridisciplinaire. Avec comme fil conducteur les modèles de dynamique de population, cette thèse propose d’illustrer cette complexité selon différents points de vue: Le premier propose de montrer le lien entre hétérogénéité et non-linéarité en présence de changements de composition de la population. Le processus appelé Birth Death Swap est défini par une équation dirigée par une mesure de Poisson à l’aide d’un résultat de comparaison trajectoriel. Quand les swaps sont plus rapides que les évènements démographiques, un résultat de moyennisation est établi par convergence stable et comparaison. En particulier, la population agrégée tend vers une dynamique non-linéaire. Nous étudions ensuite empiriquement l’impact de l’hétérogénéité sur la mortalité agrégée, en s’appuyant sur des données de population anglaise structurée par âge et circonstances socioéconomiques. Nous montrons par des simulations numériques comment l’hétérogénéité peut compenser la réduction d’une cause de mortalité. Le dernier point de vue est une revue interdisciplinaire sur les déterminants de la longévité, accompagnée d’une réflexion sur l’évolution des outils pour l’analyser et des nouveaux enjeux de modélisation face à ce changement de paradigme
This thesis deals with the probabilistic modeling of heterogeneity in human populations and of its impact on longevity. Over the past few years, numerous studies have shown a significant increase in geographical and socioeconomic inequalities in mortality. New issues have emerged from this paradigm shift that traditional demographic models are not able solve, and whose formalization requires a careful analysis of the data, in a multidisciplinary environment. Using the framework of population dynamics, this thesis aims at illustrating this complexity according to different points of view: We explore the link between heterogeneity and non-linearity in the presence of composition changes in the population, from a mathematical modeling viewpoint. The population dynamics, called Birth Death Swap, is built as the solution of a stochastic equation driven by a Poisson measure, using a more general pathwise comparison result. When swaps occur at a faster rate than demographic events, an averaging result is obtained by stable convergence and comparison. In particular, the aggregated population converges towards a nonlinear dynamic. In the second part, the impact of heterogeneity on aggregate mortality is studied from an empirical viewpoint, using English population data structured by age and socioeconomic circumstances. Based on numerical simulations, we show how a cause of death reduction could be compensated in presence of heterogeneity. The last point of view is an interdisciplinary survey on the determinants of longevity, accompanied by an analysis on the evolution of tools to analyze it and on new modeling issues in the face of this paradigm shift
APA, Harvard, Vancouver, ISO, and other styles
43

Galbaud, du Fort Guillaume. "Epidémiologie et santé mentale du couple : etude comparée de données populationnelles et de données cliniques." Thesis, McGill University, 1991. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=59993.

Full text
Abstract:
In an epidemiological study of mental health in couples, individual and systemic approaches were compared in terms of their appropriateness for general versus clinical populations.
The primary results from the study of 845 couples in the general population suggest that there exists a significant spouse-similarity across the various mental health dimensions examined (psychological distress, general well-being, and role satisfaction).
The main results from the study of 17 couples in marital therapy suggest that significant sex differences exist in dyadic adjustment. Sex differences were also noted in the correlations between dyadic adjustment and depressive symptoms.
In conclusion, it appears that epidemiological research on the mental health of couples should have as its objective a simultaneous consideration of both the individual and the couple, as well as a simultaneous consideration of clinical and general populations, in order to create a double complementarity out of this apparent double dichotomy.
APA, Harvard, Vancouver, ISO, and other styles
44

Mommessin, Clément. "Gestion efficace des ressources dans les plateformes hétérogènes." Thesis, Université Grenoble Alpes, 2020. https://tel.archives-ouvertes.fr/tel-03179102.

Full text
Abstract:
Le monde des Technologies de l'Information (IT) est en constante évolution.Avec l'explosion du nombre d'appareils numériques et connectés dans notre vie de tous les jours, les infrastructures IT doivent faire face à une constante augmentation du nombre d'utilisateurs, de requêtes informatiques et de données générées.L'Internet des Objets a vu le développement de plateformes de calcul en bordure du réseau pour combler l'écart entre les appareils connectés et le Cloud, appelé le Edge Computing.Dans le domaine du Calcul à Haute Performance, les programmes parallèles exécutés sur les plateformes demandent toujours plus de puissance de calcul à la recherche d'une amélioration des performances.De plus, il a été observé au cours des dernières années une diversification des composants matériels dans ces infrastructures.Cette complexification des (réseaux de) plateformes de calculs pose plusieurs problèmes d'optimisation qui peuvent apparaître à divers niveaux.En particulier, cela a mené au besoin de meilleurs systèmes de gestion pour une utilisation efficace des ressources hétérogènes qui composent ces plateformes.Le travail présenté dans cette thèse se focalise sur des problèmes d'optimisation de ressources pour les plateformes parallèles et distribuées du Calcul à Haute Performance et du Edge Computing.Dans les deux cas, nous étudions la modélisation des problèmes et nous proposons des méthodes et des algorithmes de gestion de ressources pour de meilleures performances.Les problèmes sont étudiés à la fois sur des plans théoriques et pratiques.Plus spécifiquement, nous étudions les problèmes de gestion de ressources à différents niveaux de la plateforme Qarnot Computing, une plateforme de production Edge principalement composée de ressources de calculs déployées dans des radiateurs de bâtiments intelligents.Pour cela, nous proposons des extensions au simulateur Batsim pour permettre la simulation de plateformes Edge et pour faciliter le design, le développement et la comparaison de politiques de placement de données et de tâches sur de telles plateformes.Ensuite, nous proposons une nouvelle méthode de prédiction de la température pour des bâtiments intelligents et nous formulons un nouveau problème d'ordonnancement à deux agents sur machines multiples.En parallèle, nous étudions le problème d'ordonnancement d'applications sur machines multi-coeur hybrides dont l'objectif est la minimisation du temps total de complétion de l'application.Nous faisons une revue des algorithmes existants avec des garanties de performances, puis nous proposons deux nouveaux algorithmes pour différentes variantes du problème et nous donnons des preuves de leur garanties de performances.Enfin, nous conduisons une campagne expérimentale pour comparer les performances relatives de nos algorithmes avec des solutions existantes de la littérature
The world of Information Technology (IT) is in constant evolution.With the explosion of the number of digital and connected devices in our everyday life, the IT infrastructures have to face an ever growing amount of users, computing requests and data generated.The Internet of Things have seen the development of computing platforms at the edge of the network to bridge the gap between the connected devices and the Cloud, called the Edge Computing.In the domain of High Performance Computing, the parallel programs executed on the platforms requires always more computing power in a search for improved performances.Besides, we observed in the past years a diversification of the hardware composing these infrastructures.This complexification of the (network of) computing platforms pose several optimisation challenges that can appear at different levels.In particular, it led to a need for better management systems to make an efficient usage of the heterogeneous resources composing these platforms.The work presented in this thesis focuses on resources optimisation problems for distributed and parallel platforms of the Edge Computing and High Performance Computing domains.In both cases, we study the modelling of the problems and propose methods and algorithms to optimise the resources management for better performances, in terms of quality of the solutions.The problems are studied from both theoretical and practical perspectives.More specifically, we study the resources management problems at multiple levels of the Qarnot Computing platform, an Edge Computing production platform mostly composed of computing resources deployed in heaters of smart-buildings.In this regard, we propose extensions to the Batsim simulator to enable the simulation of Edge Computing platforms and ease the design, development and comparison of data and jobs placement policies in such platforms.Then, we design a new temperature prediction method for smart-buildings and propose a formulation of a new scheduling problem with two-agents on multiple machines.In parallel, we study the problem of scheduling applications on hybrid multi-core machines in the objective of minimising the completion time of the overall application.We survey existing algorithms providing performance guarantees on the constructed schedules and propose two new algorithms for different settings of the problem, proving performance guarantees for both.Then, we conduct an experimental campaign to compare in practice the relative performance of the new algorithms with existing solutions in the literature
APA, Harvard, Vancouver, ISO, and other styles
45

Lumineau, Nicolas. "Organisation et localisation de données hétérogènes et réparties sur un réseau Pair-à-Pair." Paris 6, 2005. http://www.theses.fr/2005PA066436.

Full text
APA, Harvard, Vancouver, ISO, and other styles
46

Kretz, Vincent. "Intégration de données de déplacements de fluides dans la caractérisation de milieux poreux hétérogènes." Paris 6, 2002. http://www.theses.fr/2002PA066200.

Full text
APA, Harvard, Vancouver, ISO, and other styles
47

Colonna, François-Marie. "Intégration de données hétérogènes et distribuées sur le web et applications à la biologie." Aix-Marseille 3, 2008. http://www.theses.fr/2008AIX30050.

Full text
Abstract:
Depuis une vingtaine d'années, la masse de données générée par la biologie a cru de façon exponentielle. L'accumulation de ces informations a conduit à une hétérogénéité syntaxique et sémantique importante entre les sources. Intégrer ces données est donc devenu un des champs principaux de recherche en bases de données, puisque l'écriture de requêtes complexes joue un rôle important, en médecine prédictive par exemple. Les travaux présentés dans cette thèse se sont orientés autour de deux axes. Le premier axe s'intéresse à la jointure de données de source en source, qui automatise les extractions manuelles habituellement destinées à recouper les données. Cette méthode est basée sur une description des capacités des sources en logique des attributs. Le deuxième axe vise à développer une architecture de médiation BGLAV basée sur le modèle semi-structure, afin d'intégrer les sources de façon simple et flexible, en associant au système le langage XQuery
Over the past twenty years, the volume of data generated by genomics and biology has grown exponentially. Interoperation of publicly available or copyrighted datasources is difficult due to syntactic and semantic heterogeneity between them. Thus, integrating heterogeneous data is nowadays one of the most important field of research in databases, especially in the biological domain, for example for predictive medicine purposes. The work presented in this thesis is organised around two classes of integration problems. The first part of our work deals with joining data sets across several datasources. This method is based on a description of sources capabilities using feature logics. The second part of our work is a contribution to the development of a BGLAV mediation architecture based on semi-structured data, for an effortless and flexible data integration using the XQuery language
APA, Harvard, Vancouver, ISO, and other styles
48

Kefi, Hassen. "Ontologies et aide à l'utilisateur pour l'interrogation de sources multiples et hétérogènes." Paris 11, 2006. http://www.theses.fr/2006PA112016.

Full text
Abstract:
L'explosion du nombre de sources d'information accessibles via le Web multiplie les besoins de techniques d'intégration des sources de données multiples et hétérogènes. Ces techniques reposent sur la construction d'une vue uniforme des données distribuées permettant de donner l'impression à l'utilisateur qu'il interroge un système homogène et centralisé. Les travaux menés dans cette thèse portent sur les ontologies en tant qu'outils d'aide à l'interrogation d'un serveur d'information. Les deux aspects des ontologies que nous avons traités sont les ontologies en tant qu'outil d'aide à l'affinement de requêtes, d'une part, et en tant qu'aide à l'interrogation unifiée, d'autre part. Concernant le premier aspect, nous proposons de construire progressivement, avec l'utilisateur, des requêtes plus spécifiques, plus contraintes que la requête initiale, jusqu'à l'obtention de réponses moins nombreuses et plus pertinentes. Notre approche est basée sur l'utilisation conjuguée d'une ontologie du domaine et de la technique des treillis de Galois. Concernant le second aspect, nous proposons une approche générique d'alignement d'ontologies mise en œuvre au travers d'un processus semi-automatique. L'approche que nous proposons s'applique en présence d'une dissymétrie dans la structure des taxonomies comparées. Nous proposons d'assembler, dans un ordre bien déterminé, des techniques terminologiques, structurelles et sémantiques. Ces deux aspects ont fait l'objet de travaux distincts effectués au sein de deux projets : le projet Picsel 2, mené en collaboration avec France Télécom R&D et le projet RNTL eDot, dont le domaine d'application porte sur l'analyse du risque alimentaire
The explosion in the number of information sources available on the Web multiplies the needs for multiple and heterogeneous data sources integration techniques. These techniques rest on the construction of a uniform view of the distributed data allowing to give to the user the feeling he queries a homogeneous and centralized system. The work undertaken in this thesis concerns ontologies as assistance tools to the interrogation of a server of information. The two aspects of ontologies which we treated are ontologies as a query refinement tool, on the one hand, and as an assistance for unified interrogation, on the other hand. Concerning the first aspect, we propose to gradually build, interactively with the user, more specific and more constrained requests until obtaining fewer and more relevant answers. Our approach is based on the combined use of related ontology and of Galois lattices. Concerning the second aspect, we propose a generic approach of alignment of ontologies implemented through a semi-automatic process. The approach that we propose applies in the presence of a dissymmetry in the structure of compared taxonomies. We propose to use together, in a precisely defined order, terminological, structural and semantic techniques. These two aspects were the subject of distinct works carried out within two projects. The first one was Picsel 2 project, carried out in collaboration with France Telecom R&D whose field of experimentation is tourism. The second was RNTL eDot project, whose applicability relates to the analysis of the bacteriological risk of food contamination
APA, Harvard, Vancouver, ISO, and other styles
49

Lechevalier, Fabien. "Les fiducies de données personnelles de santé : étude illustrée des enjeux et bénéfices d’une gestion collective de la propriété des données personnelles de santé." Master's thesis, Université Laval, 2020. http://hdl.handle.net/20.500.11794/67590.

Full text
Abstract:
Le phénomène numérique multiplie les pratiques de recueil de données dans tous les secteurs, mais c’est certainement dans le domaine de la santé, que celles-ci suscitent le plus de questions sur leur statut et sur leur partage. En effet, ces données relevant à la fois du bien commun de l’humanité et du plus profond de l’intime, nous poussent à nous interroger sur le régime juridique le plus adapté à leur appliquer afin préserver au mieux la vie privée des personnes. Alors que la réalité du partage et de l'analyse des données a changé, la théorie de la vie privée a pris du retard. Les théoriciens de la vie privée diffèrent notoirement et largement sur la conception appropriée de la vie privée mais ces nombreuses théories ont tendance à partager une hypothèse théorique sous-jacente. La plupart des théories dominantes de la vie privée analysent, en effet, cette notion à travers la lentille de l’individualisme. Partant, nos objectifs spécifiques sont de discuter du surinvestissement de la théorie de la vie privée dans les théories centrées sur l’individu et de la nécessité pour les décideurs politiques de s'engager pleinement dans le débat d’une gestion collective des droits qui y sont attachés afin d’apporter une solution idoine aux vulnérabilités crées par l’« ère Big Data ». Face aux limites inhérentes à l’approche individuelle, la solution d’une autonomie interactive et relationnelle, dans laquelle la personne gère ses données mais est intégrée à un projet collectif semble être la plus propice à répondre aux enjeux de notre objet. La problématique angulaire de la consécration de ce droit collectif sur les données est celui de l’inscrire dans un cadre légal. Or la majorité des véhicules juridiques reposent sur une logique de propriété qui est, dans une certaine mesure, antinomique à la naturelle extrapatrimonialité des données. Pourtant les fiducies de données offrent un modèle souple et inclusif qui permettrait aux gouvernements et à l’industrie d’harmoniser la réglementation avec les technologies tout en laissant favorisant l’émergence d’une nouvelle famille de communs. Si le recours à ce véhicule nécessite la reconnaissance préalable de la qualité de biens aux données, et donc d’un droit propriétaire, les fiducies de données pourraient, dans le domaine de la santé, tirer profit des structures actuelles de gouvernance juridique afin de protéger le public contre les atteintes à la vie privée et les pratiques de collecte et d’utilisation de leurs données personnelles contraires à l’éthique.
APA, Harvard, Vancouver, ISO, and other styles
50

Babilliot, Alain. "Typologie critique des méthodes informatiques pour l'analyse des données en épidémiologie." Paris 9, 1988. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=1988PA090033.

Full text
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography