Log in

Relevant bibliographies by topics / Entrepôt de données de santé / Dissertations / Theses

To see the other types of publications on this topic, follow the link: Entrepôt de données de santé.

Dissertations / Theses on the topic 'Entrepôt de données de santé'

Author: Grafiati

Published: 20 April 2024

Last updated: 25 January 2025

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Entrepôt de données de santé.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Khnaisser, Christina. "Méthode de construction d'entrepôt de données temporalisé pour un système informationnel de santé." Mémoire, Université de Sherbrooke, 2016. http://hdl.handle.net/11143/8386.

Full text

Abstract:

Des systèmes informationnels de santé (SIS) ont été mis en place au cours des 20 dernières années pour soutenir les processus de soins, les tâches administratives et les activités de recherche ainsi que pour assurer la gestion raisonnée des établissements de santé. Un entrepôt de données (ED) doit être créé à partir de nombreuses sources de données hétérogènes afin de rendre les données exploitables d’une façon uniforme au sein des SIS. La temporalisation de cet entrepôt est rapidement devenue un enjeu crucial afin de garder les traces de l’évolution des données et d’améliorer la prise de décision clinique. L’entrepôt de données temporalisé (EDT) requiert l’application de règles systématiques afin de garantir l’intégrité et la qualité des données. Générer le schéma temporel d’un EDT est une tâche complexe. Plusieurs questions se posent dès lors, dont celles-ci : (a) Quel modèle temporel est le mieux adapté à l’automatisation de la construction d’un EDT (plus particulièrement dans le domaine de la santé)? (b) Quelles propriétés peut-on garantir formellement, suite à cette construction? D’une part, le volume du schéma de données nécessite d’importantes ressources humaines et financières, et d’autre part, plusieurs modèles temporels existent, mais ils ne sont pas formalisés ou non généraux. Les concepteurs s’en remettent donc le plus souvent à des règles de pratiques variées, floues, incomplètes et non validées. Dans ce travail, un cadre de référence permettant de formaliser, de généraliser et d’opérationnaliser des modèles temporels est défini. Deux modèles : BCDM et TRM sont présentés selon le cadre de référence avec leurs contraintes d’intégrité, leurs algorithmes de construction et une liste des prolongements requis. Il en résulte qu’il est désormais possible de s’affranchir des règles de pratique imprécises et de temporaliser un entrepôt en se fondant sur une méthode rigoureuse aux propriétés démontrables basées sur des critères fondamentaux (théorie relationnelle), des critères de conception reconnus et explicites (normalisation).

APA, Harvard, Vancouver, ISO, and other styles

2

Kempf, Emmanuelle. "Structuration, standardisation et enrichissement par traitement automatique du langage des données relatives au cancer au sein de l’entrepôt de données de santé de l’Assistance Publique – Hôpitaux de Paris." Electronic Thesis or Diss., Sorbonne université, 2023. http://www.theses.fr/2023SORUS694.

Full text

Abstract:

Le cancer est un enjeu de santé publique dont l’amélioration de la prise en charge repose, entre autres leviers, sur l’exploitation d’entrepôts de données de santé (EDS). Leur utilisation implique la maîtrise d’obstacles tels que la qualité, la standardisation et la structuration des données de soins qui y sont stockées. L’objectif de cette thèse était de démontrer qu’il est possible de lever les verrous d’utilisation secondaire des données de l’EDS de l’Assistance Publique - Hôpitaux de Paris (AP-HP) concernant des patients atteints de cancer à diverses finalités telles que le pilotage de la sécurité et de la qualité des soins, et les projets de recherche clinique observationnelle et expérimentale. En premier lieu, l’identification d’un jeu de données minimales a permis de concentrer l’effort de formalisation des items d’intérêt propres à la discipline. A partir de 15 items identifiés, 4 cas d’usages relevant de perspectives médicales distinctes ont pu être développés avec succès : pilotage concernant l’automatisation de calculs d’indicateurs de sécurité et de qualité des soins nécessaires à la certification internationale des établissements de santé, épidémiologie clinique concernant l’impact des mesures de santé publique en temps de pandémie sur le retard diagnostic des cancers, aide à la décision concernant l’optimisation du recrutement des patients dans des essais cliniques, développement de réseaux de neurones concernant la pronostication par vision par ordinateur. Une deuxième condition nécessaire à l’exploitation d’un EDS en oncologie repose sur la formalisation optimale et interopérable entre plusieurs EDS de ce jeu de données minimales. Dans le cadre de l’initiative française PENELOPE visant à améliorer le recrutement des patients dans des essais cliniques, la thèse a évalué la plus-value de l’extension oncologie du modèle de données commun OMOP. Cette version 5.4 d’OMOP permettait de doubler le taux de formalisation de critères de préscreening d’essais cliniques de phase I à IV. Seulement 23% de ces critères pouvaient être requetés automatiquement sur l’EDS de l’AP-HP, et ce, modulo une valeur prédictive positive inférieure à 30%. Ce travail propose une méthodologie inédite pour évaluer la performance d'un système d’aide au recrutement : à partir des métriques habituelles (sensibilité, spécificité, valeur prédictive positive, valeur prédictive négative), mais aussi à partir d’indicateurs complémentaires caractérisant l’adéquation du modèle choisi avec l’EDS concerné (taux de traduction et d'exécution des requêtes). Enfin, le travail a permis de montrer le caractère palliatif du traitement automatique du langage naturel concernant la structuration des données d'un EDS en informant le bilan d’extension initial d’un diagnostic de cancer et les caractéristiques histopronostiques des tumeurs. La confrontation des métriques de performance d’extraction textuelle et des ressources humaines et techniques nécessaires au développement de systèmes de règles et d’apprentissage automatique a permis de valoriser, pour un certain nombre de situations, la première approche. La thèse a identifié qu’une préannotation automatique à base de règles avant une phase d’annotation manuelle pour entraînement d’un modèle d’apprentissage machine était une approche optimisable. Les règles semblent suffire pour les tâches d’extraction textuelle d’une certaine typologie d’entités bien caractérisée sur un plan lexical et sémantique. L’anticipation et la modélisation de cette typologie pourrait être possible en amont de la phase d’extraction textuelle, afin de différencier, en fonction de chaque type d’entité, dans quelle mesure l’apprentissage machine devrait suppléer aux règles. La thèse a permis de démontrer qu’une attention portée à un certain nombre de thématiques des sciences des données permettait l’utilisation efficiente d’un EDS et ce, à des fins diverses en oncologie
Cancer is a public health issue for which the improvement of care relies, among other levers, on the use of clinical data warehouses (CDWs). Their use involves overcoming obstacles such as the quality, standardization and structuring of the care data stored there. The objective of this thesis was to demonstrate that it is possible to address the challenges of secondary use of data from the Assistance Publique - Hôpitaux de Paris (AP-HP) CDW regarding cancer patients, and for various purposes such as monitoring the safety and quality of care, and performing observational and experimental clinical research. First, the identification of a minimal data set enabled to concentrate the effort of formalizing the items of interest specific to the discipline. From 15 identified items, 4 use cases from distinct medical perspectives were successfully developed: automation of calculations of safety and quality of care required for the international certification of health establishments , clinical epidemiology regarding the impact of public health measures during a pandemic on the delay in cancer diagnosis, decision support regarding the optimization of patient recruitment in clinical trials, development of neural networks regarding prognostication by computer vision. A second condition necessary for the CDW use in oncology is based on the optimal and interoperable formalization between several CDWs of this minimal data set. As part of the French PENELOPE initiative aiming at improving patient recruitment in clinical trials, the thesis assessed the added value of the oncology extension of the OMOP common data model. This version 5.4 of OMOP enabled to double the rate of formalization of prescreening criteria for phase I to IV clinical trials. Only 23% of these criteria could be automatically queried on the AP-HP CDW, and this, modulo a positive predictive value of less than 30%. This work suggested a novel methodology for evaluating the performance of a recruitment support system: based on the usual metrics (sensitivity, specificity, positive predictive value, negative predictive value), but also based on additional indicators characterizing the adequacy of the model chosen with the CDW related (rate of translation and execution of queries). Finally, the work showed how natural language processing related to the CDW data structuring could enrich the minimal data set, based on the baseline tumor dissemination assessment of a cancer diagnosis and on the histoprognostic characteristics of tumors. The comparison of textual extraction performance metrics and the human and technical resources necessary for the development of rules and machine learning systems made it possible to promote, for a certain number of situations, the first approach. The thesis identified that automatic rule-based preannotation before a manual annotation phase for training a machine learning model was an optimizable approach. The rules seemed to be sufficient for textual extraction tasks of a certain typology of entities that are well characterized on a lexical and semantic level. Anticipation and modeling of this typology could be possible upstream of the textual extraction phase, in order to differentiate, depending on each type of entity, to what extent machine learning should replace the rules. The thesis demonstrated that a close attention to a certain number of data science challenges allowed the efficient use of a CDW for various purposes in oncology

APA, Harvard, Vancouver, ISO, and other styles

3

Griffier, Romain. "Intégration et utilisation secondaire des données de santé hospitalières hétérogènes : des usages locaux à l'analyse fédérée." Electronic Thesis or Diss., Bordeaux, 2024. http://www.theses.fr/2024BORD0479.

Full text

Abstract:

Les données issues du soin peuvent être utilisées pour des finalités autres que celles pour lesquelles elles ont été collectées initialement : c’est l’utilisation secondaire des données de santé. Dans le contexte hospitalier, afin de lever les verrous de l’utilisation secondaire des données de santé (verrous liés aux données et verrous organisationnels), une stratégie classique consiste à mettre en place un Entrepôt de Données de Santé (EDS). Dans le cadre de cette thèse, trois contributions à l’EDS du CHU de Bordeaux sont décrites. Premièrement, une méthode d’alignement des data éléments de biologie numérique basée sur les instances et conforme aux règles de protection des données à caractère personnel est présentée, avec une F-mesure à 0,850, permettant de réduire l’hétérogénéité sémantique des données. Ensuite, une adaptation du modèle d’intégration des données cliniques d’i2b2 est proposée pour assurer la persistance des données d’un EDS dans une base de données NoSQL, Elasticsearch. Cette implémentation a été évaluée sur la base de données de l’EDS du CHU de Bordeaux et retrouve des performances améliorées en termes de stockage et de temps de requêtage, par rapport à une base de données relationnelle. Enfin, une présentation de l’environnement EDS du CHU de Bordeaux est réalisée, avec la description d’un premier EDS dédié aux usages locaux et qui peut être exploité en autonomie par les utilisateurs finaux (i2b2), et d’un second EDS, dédié aux réseaux fédérés (OMOP) permettant notamment la participation au réseau fédéré DARWIN-EU
Healthcare data can be used for purposes other than those for which it was initially collected: this is the secondary use of health data. In the hospital context, to overcome the obstacles to secondary use of healthcaree data (data and organizational barriers), a classic strategy is to set up Clinical Data Warehouses (CDWs). This thesis describes three contributions to the Bordeaux University Hospital’s CDW. Firstly, an instance-based, privacy-preserving, method for mapping numerical biology data elements is presented, with an F-measure of 0,850, making it possible to reduce the semantic heterogeneity of data. Next, an adaptation of the i2b2 clinical data integration model is proposed to enable CDW data persistence in a NoSQL database, Elasticsearch. This implementation has been evaluated on the Bordeaux University Hospital’s CDW, showing improved performance in terms of storage and query time, compared with a relational database. Finally, the Bordeaux University Hospital’s CDW environment is presented, with the description of a first CDW dedicated to local uses that can be used autonomously by end users (i2b2), and a second CDW dedicated to federated networks (OMOP) enabling participation in the DARWIN-EU federated network

APA, Harvard, Vancouver, ISO, and other styles

4

Lamer, Antoine. "Contribution à la prévention des risques liés à l’anesthésie par la valorisation des informations hospitalières au sein d’un entrepôt de données." Thesis, Lille 2, 2015. http://www.theses.fr/2015LIL2S021/document.

Full text

Abstract:

Introduction Le Système d'Information Hospitalier (SIH) exploite et enregistre chaque jours des millions d'informations liées à la prise en charge des patients : résultats d'analyses biologiques, mesures de paramètres physiologiques, administrations de médicaments, parcours dans les unités de soins, etc... Ces données sont traitées par des applications opérationnelles dont l'objectif est d'assurer un accès distant et une vision complète du dossier médical des patients au personnel médical. Ces données sont maintenant aussi utilisées pour répondre à d'autres objectifs comme la recherche clinique ou la santé publique, en particulier en les intégrant dans un entrepôt de données. La principale difficulté de ce type de projet est d'exploiter des données dans un autre but que celui pour lequel elles ont été enregistrées. Plusieurs études ont mis en évidence un lien statistique entre le respect d'indicateurs de qualité de prise en charge de l'anesthésie et le devenir du patient au cours du séjour hospitalier. Au CHRU de Lille, ces indicateurs de qualité, ainsi que les comorbidités du patient lors de la période post-opératoire pourraient être calculés grâce aux données recueillies par plusieurs applications du SIH. L'objectif de se travail est d'intégrer les données enregistrées par ces applications opérationnelles afin de pouvoir réaliser des études de recherche clinique.Méthode Dans un premier temps, la qualité des données enregistrées dans les systèmes sources est évaluée grâce aux méthodes présentées par la littérature ou développées dans le cadre ce projet. Puis, les problèmes de qualité mis en évidence sont traités lors de la phase d'intégration dans l'entrepôt de données. De nouvelles données sont calculées et agrégées afin de proposer des indicateurs de qualité de prise en charge. Enfin, deux études de cas permettent de tester l'utilisation du système développée.Résultats Les données pertinentes des applications du SIH ont été intégrées au sein d'un entrepôt de données d'anesthésie. Celui-ci répertorie les informations liées aux séjours hospitaliers et aux interventions réalisées depuis 2010 (médicaments administrées, étapes de l'intervention, mesures, parcours dans les unités de soins, ...) enregistrées par les applications sources. Des données agrégées ont été calculées et ont permis de mener deux études recherche clinique. La première étude a permis de mettre en évidence un lien statistique entre l'hypotension liée à l'induction de l'anesthésie et le devenir du patient. Des facteurs prédictifs de cette hypotension ont également étaient établis. La seconde étude a évalué le respect d'indicateurs de ventilation du patient et l'impact sur les comorbidités du système respiratoire.Discussion The data warehouse L'entrepôt de données développé dans le cadre de ce travail, et les méthodes d'intégration et de nettoyage de données mises en places permettent de conduire des analyses statistiques rétrospectives sur plus de 200 000 interventions. Le système pourra être étendu à d'autres systèmes sources au sein du CHRU de Lille mais également aux feuilles d'anesthésie utilisées par d'autres structures de soins
Introduction Hospital Information Systems (HIS) manage and register every day millions of data related to patient care: biological results, vital signs, drugs administrations, care process... These data are stored by operational applications provide remote access and a comprehensive picture of Electronic Health Record. These data may also be used to answer to others purposes as clinical research or public health, particularly when integrated in a data warehouse. Some studies highlighted a statistical link between the compliance of quality indicators related to anesthesia procedure and patient outcome during the hospital stay. In the University Hospital of Lille, the quality indicators, as well as the patient comorbidities during the post-operative period could be assessed with data collected by applications of the HIS. The main objective of the work is to integrate data collected by operational applications in order to realize clinical research studies.Methods First, the data quality of information registered by the operational applications is evaluated with methods … by the literature or developed in this work. Then, data quality problems highlighted by the evaluation are managed during the integration step of the ETL process. New data are computed and aggregated in order to dispose of indicators of quality of care. Finally, two studies bring out the usability of the system.Results Pertinent data from the HIS have been integrated in an anesthesia data warehouse. This system stores data about the hospital stay and interventions (drug administrations, vital signs …) since 2010. Aggregated data have been developed and used in two clinical research studies. The first study highlighted statistical link between the induction and patient outcome. The second study evaluated the compliance of quality indicators of ventilation and the impact on comorbity.Discussion The data warehouse and the cleaning and integration methods developed as part of this work allow performing statistical analysis on more than 200 000 interventions. This system can be implemented with other applications used in the CHRU of Lille but also with Anesthesia Information Management Systems used by other hospitals

APA, Harvard, Vancouver, ISO, and other styles

5

Bouba, Fanta. "Système d'information décisionnel sur les interactions environnement-santé : cas de la Fièvre de la Vallée du Rift au Ferlo (Sénégal)." Thesis, Paris 6, 2015. http://www.theses.fr/2015PA066461/document.

Full text

Abstract:

Notre recherche se situe dans le cadre du projet QWECI (Quantifying Weather and Climate Impacts on Health in Developing Countries, UE FP7) en partenariat avec l’UCAD, le CSE et l’IPD, autour de la thématique environnement-santé avec comme cas pratique les maladies à vecteurs au Sénégal et plus particulièrement la Fièvre de la Vallée du Rift (FVR). La santé des populations humaines et animales est souvent fortement influencée par l’environnement. D’ailleurs, la recherche sur les facteurs de propagation des maladies à transmission vectorielle, telle que la FVR, prend en compte cette problématique dans sa dimension aussi bien physique que socio-économique. Apparue en 1912-1913 au Kenya, la FVR est une anthropo-zoonose virale répandue dans les régions tropicales qui concerne principalement les animaux mais dont les hommes peuvent aussi être touchés. Au Sénégal, la zone à risque concerne en majorité la vallée du fleuve Sénégal et la zone sylvo-pastorale du Ferlo. Bien que de climat sahélien, le Ferlo regorge de nombreuses mares qui sont des sources d’approvisionnement en eau pour les hommes et le bétail mais également les gîtes larvaires pour les vecteurs potentiels de la FVR. La maîtrise de la FVR, carrefour de trois (03) grands systèmes (agro-écologique, pathogène, économique/sanitaire/social), implique nécessairement la prise en compte de plusieurs paramètres si l’on veut d’abord comprendre les mécanismes d’émergence mais aussi envisager le travail de modélisation du risque. Notre travail porte sur le processus décisionnel pour quantifier l’utilisation de données sanitaires et environnementales dans l’évaluation de leur impact pour le suivi de la FVR. Les équipes de recherche impliquées produisent des données lors de leurs enquêtes de terrains et des analyses de laboratoire. Ce flot de données croissant devrait être stocké et préparé à des études corrélées grâce aux nouvelles techniques de stockage que sont les entrepôts de données. A propos de l’analyse des données, il ne suffit pas de s’appuyer seulement sur les techniques classiques telles que les statistiques. En effet, la valeur ajoutée de contribution sur la question s’oriente vers une analyse prédictive combinant à la fois les techniques agrégées de stockage et des outils de traitement. Ainsi, pour la découverte d’informations, nouvelles et pertinentes à priori non évidentes, il est nécessaire de s’orienter vers la fouille de données. Par ailleurs, l’évolution de la maladie étant fortement liée à la dynamique spatio-temporelle environnementale des différents acteurs (vecteurs, virus et hôtes), cause pour laquelle nous nous appuyons sur les motifs spatio-temporels pour identifier et mesurer certaines interactions entre les paramètres environnementaux et les acteurs impliqués. Grâce au processus décisionnel, les résultats qui en découlent sont multiples :i. suivant la formalisation de la modélisation multidimensionnelle, nous avons construit un entrepôt de données intégré qui regroupe l’ensemble des objets qui participent à la gestion du risque sanitaire – ce modèle peut être généralisé aux maladies à vecteurs ;ii. malgré une très grande variété de moustiques, les Culex de type neavei et les Aedes de type ochraceus et vexans sont les vecteurs potentiels de la FVR les plus présents dans la zone d’étude et ce, durant la saison des pluies, période la plus sujette à des cas suspects ; la période à risque reste quand même le mois d’octobre ;iii. les mares analysées ont quasiment le même comportement, mais des variations significatives subsistent par endroits.Ce travail de recherche démontre une fois de plus l’intérêt pour la mise en évidence des relations entre les données environnementales et la FVR à partir de méthodes de fouille de données, pour la surveillance spatio-temporelle du risque d’émergence
Our research is in part of the QWeCI european project (Quantifying Weather and Climate Impacts on Health in Developing Countries, EU FP7) in partnership with UCAD, the CSE and the IPD, around the theme of environmental health with the practical case on vector-borne diseases in Senegal and particularly the Valley Fever (RVF). The health of human and animal populations is often strongly influenced by the environment. Moreover, research on spread factors of vector-borne diseases such as RVF, considers this issue in its dimension both physical and socio-economic. Appeared in 1912-1913 in Kenya, RVF is a widespread viral anthropo-zoonosis in tropical regions which concerns animals but men can also be affected. In Senegal, the risk area concerns mainly the Senegal River Valley and the forestry-pastoral areas Ferlo. With a Sahelian climate, the Ferlo has several ponds that are sources of water supply for humans and livestock but also breeding sites for potential vectors of RVF. The controlling of the RVF, which is crossroads of three (03) large systems (agro-ecological, pathogen, economic/health/social), necessarily entails consideration of several parameters if one wants to first understand the mechanisms emergence but also consider the work on risk modeling. Our work focuses on the decision making process for quantify the use of health data and environmental data in the impact assessment for the monitoring of RVF. Research teams involved produce data during their investigations periods and laboratory analyzes. The growing flood of data should be stored and prepared for correlated studies with new storage techniques such as datawarehouses. About the data analysis, it is not enough to rely only on conventional techniques such as statistics. Indeed, the contribution on the issue is moving towards a predictive analysis combining both aggregate storage techniques and processing tools. Thus, to discover information, it is necessary to move towards datamining. Furthermore, the evolution of the disease is strongly linked to environmental spatio-temporal dynamics of different actors (vectors, viruses, and hosts), cause for which we rely on spatio-temporal patterns to identify and measure interactions between environmental parameters and the actors involved. With the decision-making process, we have obtained many results :i. following the formalization of multidimensional modeling, we have built an integrated datawarehouse that includes all the objects that are involved in managing the health risk - this model can be generalized to others vector-borne diseases;ii. despite a very wide variety of mosquitoes, Culex neavei, Aedes ochraceus and Aedes vexans are potential vectors of FVR. They are most present in the study area and, during the rainy season period which is most prone to suspected cases; the risk period still remains the month of October;iii. the analyzed ponds have almost the same behavior, but significant variations exist in some points.This research shows once again the interest in the discovery of relationships between environmental data and the FVR with datamining methods for the spatio-temporal monitoring of the risk of emergence

APA, Harvard, Vancouver, ISO, and other styles

6

Bouba, Fanta. "Système d'information décisionnel sur les interactions environnement-santé : cas de la Fièvre de la Vallée du Rift au Ferlo (Sénégal)." Electronic Thesis or Diss., Paris 6, 2015. http://www.theses.fr/2015PA066461.

Full text

Abstract:

Notre recherche se situe dans le cadre du projet QWECI (Quantifying Weather and Climate Impacts on Health in Developing Countries, UE FP7) en partenariat avec l’UCAD, le CSE et l’IPD, autour de la thématique environnement-santé avec comme cas pratique les maladies à vecteurs au Sénégal et plus particulièrement la Fièvre de la Vallée du Rift (FVR). La santé des populations humaines et animales est souvent fortement influencée par l’environnement. D’ailleurs, la recherche sur les facteurs de propagation des maladies à transmission vectorielle, telle que la FVR, prend en compte cette problématique dans sa dimension aussi bien physique que socio-économique. Apparue en 1912-1913 au Kenya, la FVR est une anthropo-zoonose virale répandue dans les régions tropicales qui concerne principalement les animaux mais dont les hommes peuvent aussi être touchés. Au Sénégal, la zone à risque concerne en majorité la vallée du fleuve Sénégal et la zone sylvo-pastorale du Ferlo. Bien que de climat sahélien, le Ferlo regorge de nombreuses mares qui sont des sources d’approvisionnement en eau pour les hommes et le bétail mais également les gîtes larvaires pour les vecteurs potentiels de la FVR. La maîtrise de la FVR, carrefour de trois (03) grands systèmes (agro-écologique, pathogène, économique/sanitaire/social), implique nécessairement la prise en compte de plusieurs paramètres si l’on veut d’abord comprendre les mécanismes d’émergence mais aussi envisager le travail de modélisation du risque. Notre travail porte sur le processus décisionnel pour quantifier l’utilisation de données sanitaires et environnementales dans l’évaluation de leur impact pour le suivi de la FVR. Les équipes de recherche impliquées produisent des données lors de leurs enquêtes de terrains et des analyses de laboratoire. Ce flot de données croissant devrait être stocké et préparé à des études corrélées grâce aux nouvelles techniques de stockage que sont les entrepôts de données. A propos de l’analyse des données, il ne suffit pas de s’appuyer seulement sur les techniques classiques telles que les statistiques. En effet, la valeur ajoutée de contribution sur la question s’oriente vers une analyse prédictive combinant à la fois les techniques agrégées de stockage et des outils de traitement. Ainsi, pour la découverte d’informations, nouvelles et pertinentes à priori non évidentes, il est nécessaire de s’orienter vers la fouille de données. Par ailleurs, l’évolution de la maladie étant fortement liée à la dynamique spatio-temporelle environnementale des différents acteurs (vecteurs, virus et hôtes), cause pour laquelle nous nous appuyons sur les motifs spatio-temporels pour identifier et mesurer certaines interactions entre les paramètres environnementaux et les acteurs impliqués. Grâce au processus décisionnel, les résultats qui en découlent sont multiples :i. suivant la formalisation de la modélisation multidimensionnelle, nous avons construit un entrepôt de données intégré qui regroupe l’ensemble des objets qui participent à la gestion du risque sanitaire – ce modèle peut être généralisé aux maladies à vecteurs ;ii. malgré une très grande variété de moustiques, les Culex de type neavei et les Aedes de type ochraceus et vexans sont les vecteurs potentiels de la FVR les plus présents dans la zone d’étude et ce, durant la saison des pluies, période la plus sujette à des cas suspects ; la période à risque reste quand même le mois d’octobre ;iii. les mares analysées ont quasiment le même comportement, mais des variations significatives subsistent par endroits.Ce travail de recherche démontre une fois de plus l’intérêt pour la mise en évidence des relations entre les données environnementales et la FVR à partir de méthodes de fouille de données, pour la surveillance spatio-temporelle du risque d’émergence
Our research is in part of the QWeCI european project (Quantifying Weather and Climate Impacts on Health in Developing Countries, EU FP7) in partnership with UCAD, the CSE and the IPD, around the theme of environmental health with the practical case on vector-borne diseases in Senegal and particularly the Valley Fever (RVF). The health of human and animal populations is often strongly influenced by the environment. Moreover, research on spread factors of vector-borne diseases such as RVF, considers this issue in its dimension both physical and socio-economic. Appeared in 1912-1913 in Kenya, RVF is a widespread viral anthropo-zoonosis in tropical regions which concerns animals but men can also be affected. In Senegal, the risk area concerns mainly the Senegal River Valley and the forestry-pastoral areas Ferlo. With a Sahelian climate, the Ferlo has several ponds that are sources of water supply for humans and livestock but also breeding sites for potential vectors of RVF. The controlling of the RVF, which is crossroads of three (03) large systems (agro-ecological, pathogen, economic/health/social), necessarily entails consideration of several parameters if one wants to first understand the mechanisms emergence but also consider the work on risk modeling. Our work focuses on the decision making process for quantify the use of health data and environmental data in the impact assessment for the monitoring of RVF. Research teams involved produce data during their investigations periods and laboratory analyzes. The growing flood of data should be stored and prepared for correlated studies with new storage techniques such as datawarehouses. About the data analysis, it is not enough to rely only on conventional techniques such as statistics. Indeed, the contribution on the issue is moving towards a predictive analysis combining both aggregate storage techniques and processing tools. Thus, to discover information, it is necessary to move towards datamining. Furthermore, the evolution of the disease is strongly linked to environmental spatio-temporal dynamics of different actors (vectors, viruses, and hosts), cause for which we rely on spatio-temporal patterns to identify and measure interactions between environmental parameters and the actors involved. With the decision-making process, we have obtained many results :i. following the formalization of multidimensional modeling, we have built an integrated datawarehouse that includes all the objects that are involved in managing the health risk - this model can be generalized to others vector-borne diseases;ii. despite a very wide variety of mosquitoes, Culex neavei, Aedes ochraceus and Aedes vexans are potential vectors of FVR. They are most present in the study area and, during the rainy season period which is most prone to suspected cases; the risk period still remains the month of October;iii. the analyzed ponds have almost the same behavior, but significant variations exist in some points.This research shows once again the interest in the discovery of relationships between environmental data and the FVR with datamining methods for the spatio-temporal monitoring of the risk of emergence

APA, Harvard, Vancouver, ISO, and other styles

7

Bottani, Simona. "Machine learning for neuroimaging using a very large scale clinical datawarehouse." Electronic Thesis or Diss., Sorbonne université, 2022. http://www.theses.fr/2022SORUS110.

Full text

Abstract:

L'apprentissage automatique et l'apprentissage profond ont été utilisés pour le diagnostic assisté par ordinateur des maladies neurodégénératives. Leur limite est la validation en utilisant des données de recherche, très différentes des données de routine clinique. Les entrepôts de données de santé (EDS) permettent d'accéder à ces données. Cette thèse a consisté à appliquer des algorithmes d'apprentissage automatique à des données provenant de l'EDS de l'Assistance Publique-Hôpitaux de Paris pour valider les outils pour le diagnostic assisté par ordinateur de maladies neurodégénératives. Nous avons développé, grâce à l'annotation manuelle de 5500 images, une approche automatique pour le contrôle qualité des images par résonance magnétique cérébrales pondérées en T1 (T1w-IRM) d'un EDS. Dans le second travail, nous avons travaillé sur l'homogénéisation des T1w-IRM provenant d'un EDS. Nous avons proposé d'homogénéiser ces données cliniques en convertissant les images acquises après l'injection de gadolinium en images sans contraste. Enfin, nous avons évalué si les algorithmes pouvaient détecter la démence dans un EDS en utilisant les T1w-IRM. En identifiant la population d'intérêt grâce aux codes CIM-10, nous avons étudié comment le déséquilibre des ensembles d'entraînement peuvent biaiser les résultats et nous avons proposé des stratégies pour atténuer ces biais
Machine learning (ML) and deep learning (DL) have been widely used for the computer-aided diagnosis (CAD) of neurodegenerative diseases The main limitation of these tools is that they have been mostly validated using research data sets that are very different from clinical routine ones. Clinical data warehouses (CDW) allow access to such clinical data.This PhD work consisted in applying ML/DL algorithms to data originating from the CDW of the Greater Paris area to validate CAD of neurodegenerative diseases.We developed, thanks to the manual annotation of 5500 images, an automatic approach for the quality control (QC) of T1-weighted (T1w) brain magnetic resonance images (MRI) from a clinical data set. QC is fundamental as insufficient image quality can prevent CAD systems from working properly. In the second work, we focused on the homogenization of T1w brain MRIs from a CDW. We proposed to homogenize such large clinical data set by converting images acquired after the injection of gadolinium into non-contrast-enhanced images. Lastly, we assessed whether ML/DL algorithms could detect dementia in a CDW using T1w brain MRI. We identified the population of interest using ICD-10 codes. We studied how the imbalance of the training sets may bias the results and we proposed strategies to attenuate these biases

APA, Harvard, Vancouver, ISO, and other styles

8

Loizillon, Sophie. "Deep learning for automatic quality control and computer-aided diagnosis in neuroimaging using a large-scale clinical data warehouse." Electronic Thesis or Diss., Sorbonne université, 2024. https://accesdistant.sorbonne-universite.fr/login?url=https://theses-intra.sorbonne-universite.fr/2024SORUS258.pdf.

Full text

Abstract:

La prise en charge des patients dans les hôpitaux génère quotidiennement des données de santé essentielles pour que les médecins assurent les meilleurs soins possibles aux patients. Au cours de la dernière décennie, l'émergence des entrepôts de données de santé (EDS) a révolutionné l'exploitation des données de routine clinique à des fins de recherche. En rassemblant les données médicales issues du soin courant (dossiers médicaux électroniques, imagerie, tests de pathologie et de laboratoireldots), les EDS offrent une opportunité unique pour la recherche. L'accès à ces vastes ensembles de données cliniques constitue un avantage majeur pour le développement et le déploiement de modèles d'intelligence artificielle en routine clinique. Les outils d'IA d'aide au diagnostic sont souvent limités aux données de recherche qui sélectionnent des patients répondant à des critères d'inclusion stricts et où les images sont acquises dans le cadre de protocoles de recherche standardisés. Ces conditions diffèrent grandement de la réalité clinique et empêchent la bonne généralisation de ces outils dans la pratique clinique. Cette thèse explore des techniques de contrôle qualité automatique pour faciliter l'utilisation de données de neuroimagerie d'entrepôts de données de santé à des fins de recherche. Les images stockées dans les EDS étant très hétérogènes, nous avons développé un outil automatique capable d'évaluer la qualité globale de l'image et d'identifier efficacement les images corrompues. Nous avons amélioré l'outil existant pour les IRMs cérébrales 3D pondérées en T1, développé par (Bottani et al. 2021), en proposant une méthode innovante d'apprentissage par transfert tirant parti de la simulation d'artefacts. Dans un second temps, nous avons étendu notre contrôle qualité automatique à une autre séquence anatomique courante : l'IRM cérébrale 3D FLAIR. Les modèles d'apprentissage automatique étant sensibles aux changements de distribution, nous avons proposé un cadre d'adaptation de domaine semi-supervisé permettant de limiter le nombre de nouvelles annotations manuelles. Enfin, nous avons mené une étude de faisabilité pour évaluer le potentiel des autoencodeurs variationnels pour la détection non supervisée d'anomalies. Les résultats obtenus ont montré une corrélation entre les scores de Fazekas et le volume des lésions segmentées par notre modèle, ainsi qu'une robustesse de la méthode vis-à-vis de la qualité des images. Toutefois, nous avons observé des cas d'échec pour lesquels aucune lésion n'était détectée dans des cas présentant des lésions, ce qui empêche pour l'heure l'utilisation de tels modèles en routine clinique. Bien que les entrepôts de données de santé constituent un écosystème précieux pour la recherche, permettant une meilleure compréhension de la santé de la population générale et, à long terme, susceptible de contribuer au développement de la médecine prédictive et préventive, leurs utilisations à des fins de recherche n'est pas sans poser de difficultés
Patient's hospitalisation generates data about their health, which is essential to ensure that they receive the best possible care. Over the last decade, clinical data warehouses (CDWs) have been created to exploit this vast amount of clinical information for research purposes. CDWs offer remarkable potential for research by bringing together a huge amount of real-world data of diverse nature (electronic health records, imaging data, pathology and laboratory tests...) from up to millions of patients. Access to such large clinical routine datasets, which are an excellent representation of what is acquired daily in clinical practice, is a major advantage in the development and deployment of powerful artificial intelligence models in clinical routine. Currently, most computer-aided diagnosis models are limited by a training performed only on research datasets with patients meeting strict inclusion criteria and data acquired under highly standardised research protocols, which differ considerably from the realities of clinical practice. This gap between research and clinical data is leading to the failure of AI systems to be well generalised in clinical practice.This thesis examined how to leverage clinical data warehouse brain MRI data for research purposes.Because images gathered in CDW are highly heterogeneous, especially regarding their quality, we first focused on developing an automated solution capable of effectively identifying corrupted images in CDWs. We improved the initial automated 3D T1 weighted brain MRI quality control developed by (Bottani et al. 2021) by proposing an innovative transfer learning method, leveraging artefact simulation.In the second work, we extended our automatic quality control for T1-weighted MRI to another common anatomical sequence: 3D FLAIR. As machine learning models are sensitive to distribution shifts, we proposed a semi-supervised domain adaptation framework. Our automatic quality control tool was able to identify images that are not proper 3D FLAIR brain MRIs and assess the overall image quality with a limited number of new manual annotation of FLAIR images. Lastly, we conducted a feasibility study to assess the potential of variational autoencoders for unsupervised anomaly detection. We obtained promising results showing a correlation between Fazekas scores and volumes of lesions segmented by our model, as well as the robustness of the method to image quality. Nevertheless, we still observed failure cases where no lesion is detected at all in lesional cases, which prevents this type of model to be used in clinical routine for now.Although clinical data warehouses are an incredible research ecosystem, to enable a better understanding of the health of the general population and, in the long term, contributing to the development of predictive and preventive medicine, their use for research purposes is not without its difficulties

APA, Harvard, Vancouver, ISO, and other styles

9

Dony, Philippe. "CREATION D’UN ENTREPOT DE DONNEES EN ANESTHESIE: POTENTIEL POUR LA GESTION ET LA SANTE PUBLIQUE." Doctoral thesis, Universite Libre de Bruxelles, 2018. https://dipot.ulb.ac.be/dspace/bitstream/2013/279599/3/TM.pdf.

Full text

Abstract:

La qualité a été définie dans un souci de standardisation internationale comme « l'ensemble des propriétés et caractéristiques d'un service ou d'un produit qui lui confère l'aptitude à satisfaire des besoins exprimés ou implicites du client du client »L’évaluation globale d’une activité clinique telle que l’anesthésie par l’intermédiaire d’outils informatiques, permet l’évaluation et la surveillance des éléments déterminants de la satisfaction des clients, en l’occurrence dans le contexte de soins, des patients. L’un de ces éléments est la sécurité des soins, soit l’absence de complications liées aux soins eux-mêmes, communément dénommées complications iatrogéniques. Un autre élément est l’efficience, soit la garantie que les soins prodigués ont un rapport coût bénéfice favorable.Tant la sécurité des soins que leur efficience peuvent être mesurées par différents types de signaux captés par les systèmes informatiques. Ce travail de thèse vise à valider une catégorie de signaux pendant très longtemps sous-explorés dans la littérature, les microsignaux tels que les valeurs physiologiques anormales (par exemple l’hypocapnie, l’hypotension, la consommation de gaz halogénés) ainsi que les éléments structuraux tels que les compositions des équipes en présence dans les blocs opératoires. La mesure et le suivi de ces signaux ont une importance capitale dans l’orientation des démarches de qualité des soins.L’essentiel de ce travail a été la création et l’exploitation de l’entrepôt de données intégré au système informatique hospitalier et d’en exploiter son contenu pour améliorer notre connaissance. Il a permis de démontrer que l’informatisation peut apporter un retour d’informations utile à un département hospitalier pour améliorer sa performance. Cet objectif constitue une démarche originale visant à convaincre que l’informatisation d’un service d’anesthésie clinique peut contribuer de manière significative à l’amélioration de la prise en charge des patients.
Doctorat en Santé Publique
info:eu-repo/semantics/nonPublished

APA, Harvard, Vancouver, ISO, and other styles

10

Nguyen, Benjamin. "Construction et évolution d'un entrepôt de données sur la toile." Paris 11, 2003. http://www.theses.fr/2003PA112283.

Full text

Abstract:

Nos travaux se placent dans le cadre général de la conception d'un cadre approprié pour la découverte, l'analyse, le traitement, le stockage, l'intégration et l'interrogation d'informations trouvées sur le Web. Nous proposons dans un premier temps une étude de l'état de l'art concernant les travaux sur la recherche d'information sur le Web, la gestion de l'évolution temporelle dans un entrepôt de données, et la classification de documents. Nos travaux portent spécifiquement sur la construction et l'évolution d'un entrepôt de données du Web. Nous proposons d'une part une méthodologie de conception d'un tel entrepôt, et d'autre part nous analysons les fonctionnalités nécessaires au bon fonctionnement de ce système. Nous présentons les résultats de deux expériences dans ce domaine, auxquelles nous avons participé, Xylème et Thesus. Le projet Xylème concernait la gestion de pages XML du Web, depuis leur acquisition, jusqu'à leur interrogation, et nous nous intéressons plus particulièrement au monitorage de leur évolution temporelle. Le projet Thesus traite de la construction de collections thématiques de pages Web, en se basant sur l'analyse de la sémantique des pages au travers notamment de leurs liens. Ces deux projets ont été implantés, et notre module de monitorage est utilisé dans l'industrie par la société Xylème S. A. Ces deux expériences ont fourni un cadre de réflexion, qui s'est traduit par la réalisation du prototype SPIN, qui cristallise notre approche de la conception d'un entrepôt de données thématique
Our work is to be placed in the general context of the creation of a framework in order to discover, analyse, process, store, integrate and query information found on the Web. We begin with a review of the state of the art concerning the following problems: querying information on the Web, managing the evolution of a warehouse, and document clustering techniques. In this thesis, we study the construction and evolution of a Web Warehouse. We propose on the one hand a methodology for conceiving such a warehouse, and on the other, we study the functionalities it should posess. We present the results of two experiments in which we took part, Xyleme and Thesus. The goal of the Xyleme Project was to manage all the XML pages of the Web, from crawling and fetching to querying. We detail in this work the monitoring of the pages, their temporal evolution. The goal of the Thesus Project was to create thematic collections of Web pages, based on the analysis of the page's semantics, using various tools, including link analysis and clustering algorithms. Both projects have been implemented, and our monitoring module is used in industry by the Xyleme S. A. Company. These two experiments provided a general framework for deeper reflection on how to conceive a thematic warehouse, which is detailled and illustrated by the SPIN prototype

APA, Harvard, Vancouver, ISO, and other styles

11

Mathieu, Jean. "Intégration de données temps-réel issues de capteurs dans un entrepôt de données géo-décisionnel." Thesis, Université Laval, 2011. http://www.theses.ulaval.ca/2011/28019/28019.pdf.

Full text

Abstract:

Nous avons pu, au cours des dernières années, assister à une augmentation du nombre de capteurs utilisés pour mesurer des phénomènes de plus en plus variés. En effet, nous pouvons aujourd'hui utiliser les capteurs pour mesurer un niveau d'eau, une position (GPS), une température et même le rythme cardiaque d'un individu. La grande diversité de capteurs fait d'eux aujourd'hui des outils par excellence en matière d'acquisition de données. En parallèle à cette effervescence, les outils d'analyse ont également évolué depuis les bases de données transactionnelles et ont mené à l'apparition d'une nouvelle famille d’outils, appelés systèmes d’analyse (systèmes décisionnels), qui répond à des besoins d’analyse globale sur les données. Les entrepôts de données et outils OLAP (On-Line Analytical Processing), qui font partie de cette famille, permettent dorénavant aux décideurs d'analyser l'énorme volume de données dont ils disposent, de réaliser des comparaisons dans le temps et de construire des graphiques statistiques à l’aide de simples clics de la souris. Les nombreux types de capteurs peuvent certainement apporter de la richesse à une analyse, mais nécessitent de longs travaux d'intégration pour les amener jusqu'à un entrepôt géo-décisionnel, qui est au centre du processus de prise de décision. Les différents modèles de capteurs, types de données et moyens de transférer les données sont encore aujourd'hui des obstacles non négligeables à l'intégration de données issues de capteurs dans un entrepôt géo-décisionnel. Également, les entrepôts de données géo-décisionnels actuels ne sont pas initialement conçus pour accueillir de nouvelles données sur une base fréquente. Puisque l'utilisation de l'entrepôt par les utilisateurs est restreinte lors d'une mise à jour, les nouvelles données sont généralement ajoutées sur une base hebdomadaire, mensuelle, etc. Il existe pourtant des entrepôts de données capables d'être mis à jour plusieurs fois par jour sans que les performances lors de leur exploitation ne soient atteintes, les entrepôts de données temps-réel (EDTR). Toutefois, cette technologie est encore aujourd’hui peu courante, très coûteuse et peu développée. Ces travaux de recherche visent donc à développer une approche permettant de publier et standardiser les données temps-réel issues de capteurs et de les intégrer dans un entrepôt géo-décisionnel conventionnel. Une stratégie optimale de mise à jour de l'entrepôt a également été développée afin que les nouvelles données puissent être ajoutées aux analyses sans que la qualité de l'exploitation de l'entrepôt par les utilisateurs ne soit remise en cause.
In the last decade, the use of sensors for measuring various phenomenons has greatly increased. As such, we can now make use of sensors to measure GPS position, temperature and even the heartbeats of a person. Nowadays, the wide diversity of sensor makes them the best tools to gather data. Along with this effervescence, analysis tools have also advanced since the creation of transactional databases, leading to a new category of tools, analysis systems (Business Intelligence (BI)), which respond to the need of the global analysis of the data. Data warehouses and OLAP (On-Line Analytical Processing) tools, which belong to this category, enable users to analyze big volumes of data, execute time-based requests and build statistic graphs in a few simple mouse clicks. Although the various types of sensor can surely enrich any analysis, such data requires heavy integration processes to be driven into the data warehouse, centerpiece of any decision-making process. The different data types produced by sensors, sensor models and ways to transfer such data are even today significant obstacles to sensors data streams integration in a geo-decisional data warehouse. Also, actual geo-decisional data warehouses are not initially built to welcome new data on a high frequency. Since the performances of a data warehouse are restricted during an update, new data is usually added weekly, monthly, etc. However, some data warehouses, called Real-Time Data Warehouses (RTDW), are able to be updated several times a day without letting its performance diminish during the process. But this technology is not very common, very costly and in most of cases considered as "beta" versions. Therefore, this research aims to develop an approach allowing to publish and normalize real-time sensors data streams and to integrate it into a classic data warehouse. An optimized update strategy has also been developed so the frequent new data can be added to the analysis without affecting the data warehouse performances.

APA, Harvard, Vancouver, ISO, and other styles

12

Atigui, Faten. "Approche dirigée par les modèles pour l’implantation et la réduction d’entrepôts de données." Thesis, Toulouse 1, 2013. http://www.theses.fr/2013TOU10044/document.

Full text

Abstract:

Nos travaux se situent dans le cadre des systèmes d'aide à la décision reposant sur un Entrepôt de Données multidimensionnelles (ED). Un ED est une collection de données thématiques, intégrées, non volatiles et historisées pour des fins décisionnelles. Les données pertinentes pour la prise de décision sont collectées à partir des sources au moyen des processus d'Extraction-Transformation-Chargement (ETL pour Extraction-Transformation-Loading). L'étude des systèmes et des méthodes existants montre deux insuffisances. La première concerne l'élaboration d'ED qui, typiquement, se fait en deux phases. Tout d'abord, il faut créer les structures multidimensionnelles ; ensuite, il faut extraire et transformer les données des sources pour alimenter l'ED. La plupart des méthodes existantes fournit des solutions partielles qui traitent soit de la modélisation du schéma de l'ED, soit des processus ETL. Toutefois, peu de travaux ont considéré ces deux problématiques dans un cadre unifié ou ont apporté des solutions pour automatiser l'ensemble de ces tâches.La deuxième concerne le volume de données. Dès sa création, l'entrepôt comporte un volume important principalement dû à l'historisation régulière des données. En examinant les analyses dans le temps, on constate que les décideurs portent généralement un intérêt moindre pour les données anciennes. Afin de pallier ces insuffisances, l'objectif de cette thèse est de formaliser le processus d'élaboration d'ED historisés (il a une dimension temporelle) depuis sa conception jusqu'à son implantation physique. Nous utilisons l'Ingénierie Dirigée par les Modèles (IDM) qui permet de formaliser et d'automatiser ce processus~; ceci en réduisant considérablement les coûts de développement et en améliorant la qualité du logiciel. Les contributions de cette thèse se résument comme suit : 1. Formaliser et automatiser le processus de développement d'un ED en proposant une approche dirigée par les modèles qui inclut : - un ensemble de métamodèles (conceptuel, logique et physique) unifiés décrivant les données et les opérations de transformation. - une extension du langage OCL (Object Constraint Langage) pour décrire de manière conceptuelle les opérations de transformation d'attributs sources en attributs cibles de l'ED. - un ensemble de règles de transformation d'un modèle conceptuel en modèles logique et physique.- un ensemble de règles permettant la génération du code de création et de chargement de l'entrepôt. 2. Formaliser et automatiser le processus de réduction de données historisées en proposant une approche dirigée par les modèles qui fournit : - un ensemble de métamodèles (conceptuel, logique et physique) décrivant les données réduites, - un ensemble d'opérations de réduction,- un ensemble de règles de transformation permettant d'implanter ces opérations au niveau physique. Afin de valider nos propositions, nous avons développé un prototype comportant trois parties. Le premier module réalise les transformations de modèles vers des modèles de plus bas niveau. Le deuxième module transforme le modèle physique en code. Enfin, le dernier module permet de réduire l'ED
Our work handles decision support systems based on multidimensional Data Warehouse (DW). A Data Warehouse (DW) is a huge amount of data, often historical, used for complex and sophisticated analysis. It supports the business process within an organization. The relevant data for the decision-making process are collected from data sources by means of software processes commonly known as ETL (Extraction-Transformation-Loading) processes. The study of existing systems and methods shows two major limits. Actually, when building a DW, the designer deals with two major issues. The first issue treats the DW's design, whereas the second addresses the ETL processes design. Current frameworks provide partial solutions that focus either on the multidimensional structure or on the ETL processes, yet both could benefit from each other. However, few studies have considered these issues in a unified framework and have provided solutions to automate all of these tasks. Since its creation, the DW has a large amount of data, mainly due to the historical data. Looking into the decision maker's analysis over time, we can see that they are usually less interested in old data.To overcome these shortcomings, this thesis aims to formalize the development of a time-varying (with a temporal dimension) DW from its design to its physical implementation. We use the Model Driven Engineering (MDE) that automates the process and thus significantly reduce development costs and improve the software quality. The contributions of this thesis are summarized as follows: 1. To formalize and to automate the development of a time-varying DW within a model-driven approach that provides: - A set of unified (conceptual, logical and physical) metamodels that describe data and transformation operations. - An OCL (Object Constraint Language) extension that aims to conceptually formalize the transformation operations. - A set of transformation rules that maps the conceptual model to logical and physical models. - A set of transformation rules that generates the code. 2. To formalize and to automate historical data reduction within a model-driven approach that provides : - A set of (conceptual, logical and physical) metamodels that describe the reduced data. - A set of reduction operations. - A set of transformation rules that implement these operations at the physical level.In order to validate our proposals, we have developed a prototype composed of three parts. The first part performs the transformation of models to lower level models. The second part transforms the physical model into code. The last part allows the DW reduction

APA, Harvard, Vancouver, ISO, and other styles

13

Aknouche, Rachid. "Entrepôt de textes : de l'intégration à la modélisation multidimensionnelle de données textuelles." Thesis, Lyon 2, 2014. http://www.theses.fr/2014LYO20025.

Full text

Abstract:

Le travail présenté dans ce mémoire vise à proposer des solutions aux problèmes d'entreposage des données textuelles. L'intérêt porté à ce type de données est motivé par le fait qu'elles ne peuvent être intégrées et entreposées par l'application de simples techniques employées dans les systèmes décisionnels actuels. Pour aborder cette problématique, nous avons proposé une démarche pour la construction d'entrepôts de textes. Elle couvre les principales phases d'un processus classique d'entreposage des données et utilise de nouvelles méthodes adaptées aux données textuelles. Dans ces travaux de thèse, nous nous sommes focalisés sur les deux premières phases qui sont l'intégration des données textuelles et leur modélisation multidimensionnelle. Pour mettre en place une solution d'intégration de ce type de données, nous avons eu recours aux techniques de recherche d'information (RI) et du traitement automatique du langage naturel (TALN). Pour cela, nous avons conçu un processus d'ETL (Extract-Transform-Load) adapté aux données textuelles. Il s'agit d'un framework d'intégration, nommé ETL-Text, qui permet de déployer différentes tâches d'extraction, de filtrage et de transformation des données textuelles originelles sous une forme leur permettant d'être entreposées. Certaines de ces tâches sont réalisées dans une approche, baptisée RICSH (Recherche d'information contextuelle par segmentation thématique de documents), de prétraitement et de recherche de données textuelles. D'autre part, l'organisation des données textuelles à des fins d'analyse est effectuée selon TWM (Text Warehouse Modelling), un nouveau modèle multidimensionnel adapté à ce type de données. Celui-ci étend le modèle en constellation classique pour prendre en charge la représentation des textes dans un environnement multidimensionnel. Dans TWM, il est défini une dimension sémantique conçue pour structurer les thèmes des documents et pour hiérarchiser les concepts sémantiques. Pour cela, TWM est adossé à une source sémantique externe, Wikipédia, en l'occurrence, pour traiter la partie sémantique du modèle. De plus, nous avons développé WikiCat, un outil pour alimenter la dimension sémantique de TWM avec des descripteurs sémantiques issus de Wikipédia. Ces deux dernières contributions complètent le framework ETL-Text pour constituer le dispositif d'entreposage des données textuelles. Pour valider nos différentes contributions, nous avons réalisé, en plus des travaux d'implémentation, une étude expérimentale pour chacune de nos propositions. Face au phénomène des données massives, nous avons développé dans le cadre d'une étude de cas des algorithmes de parallélisation des traitements en utilisant le paradigme MapReduce que nous avons testés dans l'environnement Hadoop
The work, presented in this thesis, aims to propose solutions to the problems of textual data warehousing. The interest in the textual data is motivated by the fact that they cannot be integrated and warehoused by using the traditional applications and the current techniques of decision-making systems. In order to overcome this problem, we proposed a text warehouses approach which covers the main phases of a data warehousing process adapted to textual data. We focused specifically on the integration of textual data and their multidimensional modeling. For the textual data integration, we used information retrieval (IR) techniques and automatic natural language processing (NLP). Thus, we proposed an integration framework, called ETL-Text which is an ETL (Extract- Transform- Load) process suitable for textual data. The ETL-Text performs the extracting, filtering and transforming tasks of the original textual data in a form allowing them to be warehoused. Some of these tasks are performed in our RICSH approach (Contextual information retrieval by topics segmentation of documents) for pretreatment and textual data search. On the other hand, the organization of textual data for the analysis is carried out by our proposed TWM (Text Warehouse Modelling). It is a new multidimensional model suitable for textual data. It extends the classical constellation model to support the representation of textual data in a multidimensional environment. TWM includes a semantic dimension defined for structuring documents and topics by organizing the semantic concepts into a hierarchy. Also, we depend on a Wikipedia, as an external semantic source, to achieve the semantic part of the model. Furthermore, we developed WikiCat, which is a tool permit to feed the TWM semantic dimension with semantics descriptors from Wikipedia. These last two contributions complement the ETL-Text framework to establish the text warehouse device. To validate the different contributions, we performed, besides the implementation works, an experimental study for each model. For the emergence of large data, we developed, as part of a case study, a parallel processing algorithms using the MapReduce paradigm tested in the Apache Hadoop environment

APA, Harvard, Vancouver, ISO, and other styles

14

Sautot, Lucile. "Conception et implémentation semi-automatique des entrepôts de données : application aux données écologiques." Thesis, Dijon, 2015. http://www.theses.fr/2015DIJOS055/document.

Full text

Abstract:

Cette thèse traite de la conception semi-automatique d'entrepôts de données et des cubes OLAP associés pour l'analyse de données écologiques.Les sciences biologiques, notamment l'écologie et l'agronomie, génèrent des données qui nécessitent un effort de collecte important : plusieurs années sont souvent nécessaires pour obtenir un jeu de données complets. De plus, les objets et les phénomènes étudiés par ces sciences sont complexes et nécessite l'enregistrement de nombreux paramètres pour être appréhendés. Enfin, le recueil de données complexes sur un temps long a pour conséquence un risque accru d’inconsistance au sein de ces données. Ainsi, ces sciences génèrent des données nombreuses, hétérogènes, voir inconsistantes.Il est donc intéressant de proposer aux scientifiques travaillant dans les sciences du vivant des systèmes d'information capable de stocker et de restituer leurs données, en particulier quand celles ci présentent un volume important. Parmi les outils existants, les outils de l'informatique décisionnelle, notamment les systèmes d'analyse en ligne (On-Line Analytical processing : OLAP), ont particulièrement retenu notre attention, car il s'agit de processus d'analyse de données sur de larges collections de données historiques (c'est-à-dire un entrepôt de données) afin d'offrir un support à la prise de décision. L'informatique décisionnelle propose des outils qui permettent à leurs utilisateurs d'explorer de larges volumes de données, dans le but de découvrir des modèles et des connaissances au sein de ces données, et ainsi d'éventuellement confirmer leurs hypothèses.Cependant, les systèmes OLAP sont des systèmes d'information complexes dont la mise en place nécessite des compétences avancées en informatique décisionnelle. Ainsi, bien qu'ils aient des caractéristiques intéressantes pour gérer et analyser des données multidimensionnelles, leur complexité les rend difficilement accessibles pour des utilisateurs potentiels, qui ne seraient pas des informaticiens professionnels.Dans la littérature, plusieurs travaux se sont penchés sur la conception automatique de schéma multidimensionnel, mais les exemples proposés par ces travaux concernaient des données classiques. Par ailleurs, d'autres articles traitent de la modélisation multidimensionnelle adaptée à des données complexes (inconsistance, données hétérogènes, intégration d'objets spatiaux, de textes, d'images au sein d'un entrepôt …) mais les méthodes proposées par ces travaux sont rarement automatique.C'est pourquoi l'objectif de ce travail de thèse est de proposer une méthode de conception d'entrepôt de données et des cubes OLAP associés la plus automatique possible. Cette méthode doit être capable de prendre en compte la complexité des données inhérente aux sciences biologiques.Pour tester les différents prototypes que nous avons proposé durant ce travail de thèse, nous avons disposé d'un jeu de données concernant l'abondance des oiseaux le long de la Loire. Ce jeu de données est structuré de la façon suivante : (1) nous disposons du recensement de 213 espèces d'oiseaux (décrites par un ensemble de facteurs qualitatifs, comme par exemple le régime alimentaire) en 198 points le long du fleuve pour 4 campagnes de recensement ; (2) chacun des 198 points est décrits par un ensemble de variables environnementales issues de différentes sources (relevés de terrain, images satellites, SIG). Ce sont ces variables environnementales qui posent le plus de questions en termes de modélisation multidimensionnelle. Ces données sont issues de différentes sources, parfois indépendantes des campagnes de recensement des oiseaux, et sont donc inconsistantes dans le temps et l'espace. De plus, ces données sont hétérogènes : elles peuvent se présenter sous forme de facteurs qualitatifs, quantitatifs ou encore d'objets spatiaux. Pour finir, ces données environnementales intègrent un grand nombre de facteurs (158 variables retenues) (...)
This thesis concerns the semi-automatic design of data warehouses and the associated OLAP cubes analyzing ecological data.The biological sciences, including ecology and agronomy, generate data that require an important collection effort: several years are often required to obtain a complete data set. Moreover, objects and phenomena studied by these sciences are complex and require many parameter recording to be understood. Finally, the collection of complex data over a long time results in an increased risk of inconsistency. Thus, these sciences generate numerous and heterogeneous data, which can be inconsistent. It is interesting to offer to scientists, who work in life sciences, information systems able to store and restore their data, particularly when those data have a significant volume. Among the existing tools, business intelligence tools, including online analytical systems (On-Line Analytical processing: OLAP), particularly caught our attention because it is data analysis process working on large historical collections (i.e. a data warehouse) to provide support to the decision making. The business intelligence offers tools that allow users to explore large volumes of data, in order to discover patterns and knowledge within the data, and possibly confirm their hypotheses.However, OLAP systems are complex information systems whose implementation requires advanced skills in business intelligence. Thus, although they have interesting features to manage and analyze multidimensional data, their complexity makes them difficult to manage by potential users, who would not be computer scientists.In the literature, several studies have examined the automatic multidimensional design, but the examples provided by theses works were traditional data. Moreover, other articles address the multidimensional modeling adapted to complex data (inconsistency, heterogeneous data, spatial objects, texts, images within a warehouse ...) but the proposed methods are rarely automatic. The aim of this thesis is to provide an automatic design method of data warehouse and OLAP cubes. This method must be able to take into account the inherent complexity of biological data. To test the prototypes, that we proposed in this thesis, we have prepared a data set concerning bird abundance along the Loire. This data set is structured as follows: (1) we have the census of 213 bird species (described with a set of qualitative factors, such as diet) in 198 points along the river for 4 census campaigns; (2) each of the 198 points is described by a set of environmental variables from different sources (land surveys, satellite images, GIS). These environmental variables address the most important issue in terms of multidimensional modeling. These data come from different sources, sometimes independent of bird census campaigns, and are inconsistent in time and space. Moreover, these data are heterogeneous: they can be qualitative factors, quantitative varaibles or spatial objects. Finally, these environmental data include a large number of attributes (158 selected variables) (...)

APA, Harvard, Vancouver, ISO, and other styles

15

El, Sarraj Lama. "Exploitation d'un entrepôt de données guidée par des ontologies : application au management hospitalier." Thesis, Aix-Marseille, 2014. http://www.theses.fr/2014AIXM4331.

Full text

Abstract:

Cette recherche s'inscrit dans le domaine de la personnalisation d'Entrepôt de Données (ED) et concerne l'aide à l'exploitation d'un ED. Nous intéressons à l'assistance à apporter à un utilisateur lors d'une analyse en ligne, dans son utilisation de ressources d'exploitation existantes. Le domaine d'application concerné est la gestion hospitalière, dans le cadre de la nouvelle gouvernance, et en se limitant au périmètre du Programme de Médicalisation des Systèmes d'Information (PMSI). Cette recherche a été supportée par l'Assistance Publique des Hôpitaux de Marseille (APHM). L'approche retenue pour développer une telle assistance à l'utilisateur d'ED est sémantique et guidée par l'usage d'ontologies. Le système d'assistance mettant en oeuvre cette approche, nommé Ontologies-based Personalization System (OPS), s'appuie sur une Base de Connaissances (BC) exploitée par un moteur de personnalisation. La BC est composée des trois ontologies : de domaine, de l'ED et des ressources. Le moteur de personnalisation permet d'une part une recherche personnalisée de ressources d'exploitation de l'ED en s'appuyant sur le profil de l'utilisateur, et d'autre part pour une ressource particulière, une recommandation de ressources complémentaires selon trois stratégies possibles. Afin de valider nos propositions, un prototype du système OPS a été développé avec un moteur de personnalisation a été implémenté en Java et exploitant une base de connaissance constituée des trois ontologies en OWL interconnectées. Nous illustrons le fonctionnement de notre système sur trois scenarii d'expérimentation liés au PMSI et définis avec des experts métiers de l'APHM
This research is situated in the domain of Data Warehouses (DW) personalization and concerns DW assistance. Specifically, we are interested in assisting a user during an online analysis processes to use existing operational resources. The application of this research concerns hospital management, for hospitals governance, and is limited to the scope of the Program of Medicalization of Information Systems (PMSI). This research was supported by the Public Hospitals of Marseille (APHM). Our proposal is a semantic approach based on ontologies. The support system implementing this approach, called Ontology-based Personalization System (OPS), is based on a knowledge base operated by a personalization engine. The knowledge base is composed of three ontologies: a domain ontology, an ontology of the DW structure, and an ontology of resources. The personalization engine allows firstly, a personalized search of resources of the DW based on users profile, and secondly for a particular resource, an expansion of the research by recommending new resources based on the context of the resource. To recommend new resources, we have proposed three possible strategies. To validate our proposal, a prototype of the OPS system was developed, a personalization engine has been implemented in Java. This engine exploit an OWL knowledge composed of three interconnected OWL ontologies. We illustrate three experimental scenarios related to PMSI and defined with APHM domain experts

APA, Harvard, Vancouver, ISO, and other styles

16

Dugré, Mathieu. "Conception et réalisation d'un entrepôt de données : intégration à un système existant et étape nécessaire vers le forage de données." Thèse, Université du Québec à Trois-Rivières, 2004. http://depot-e.uqtr.ca/4679/1/000108834.pdf.

Full text

APA, Harvard, Vancouver, ISO, and other styles

17

Cavalier, Mathilde. "La propriété des données de santé." Thesis, Lyon, 2016. http://www.theses.fr/2016LYSE3071/document.

Full text

Abstract:

La question de la protection et de la valorisation des données de santé fait l’objet d’un renouvellement permanent car elle est tiraillée pas des intérêts contradictoires. Les logiques juridiques, sanitaires et économiques s’affrontent et s’expriment au travers d’une règlementation particulièrement fournie et disparate des données de santé. Le droit de propriété semble à même de concilier ces enjeux d’apparence antinomiques. Au regard de la place de ce droit dans notre ordonnancement juridique et de la singularité des données de santé, l’étude de leur rapprochement mérite une étude d’une certaine ampleur. Il s’agit dans un premier temps de s’assurer de la compatibilité de ce droit avec les données de santé. La réponse impose une vision de la propriété simplifiée pour finalement constater que les droits existants sur ces données sont en fait déjà des droits de propriétés mais qui, du fait de la particularité des données de santé, sont largement limités. Dans un second temps, se pose donc la question de la pertinence de l’application d’un droit de propriété plus « complet » aux données de santé. Or, on remarque que la spécificité de ces données est telle que cette solution n’est pas la plus efficace pour parvenir à un juste équilibre entre patients et collecteurs de données. Pour autant, d’autres solutions sont possibles
The question of the protection and enhancement of health data is subject to a permanent renewal because it appears to be in the middle of some conflicting interests. Legal, health and economic logics confront and express themselves through a particularly heterogenous set of regulations on health data. Property rights here seem able to reconcile these issues that first look contradictory appearance issues. Given the place of this right in our legal system and uniqueness of health data, the study of their reconciliation deserves a study of some magnitude. This is a first step to ensure the compatibility of this law with health data. The answer requires a vision of simplified property only to find that the existing rights of the data is already in the property rights but which, because of the particularity of health data, are largely limited. Secondly, therefore the question of the relevance of the application of "more complete" property rights applies to health data. However, we note that the specificity of health data implies that such a the solution is not the most effective for achieving a fair balance between patients and data collectors. Nevertheless, other solutions are possible

APA, Harvard, Vancouver, ISO, and other styles

18

Mbarki, Mohamed. "Gestion de l'hétérogénéité documentaire : le cas d'un entrepôt de documents multimédia." Toulouse 3, 2008. http://thesesups.ups-tlse.fr/185/.

Full text

Abstract:

La société de la connaissance est basée sur trois axes : la diffusion et l'usage de l'information via les nouvelles technologies, la déduction des connaissances induites par cette information et les impacts économiques qui peuvent en découler. Proposer aux acteurs et plus particulièrement aux "décideurs" de cette société des outils qui leur permettent d'élaborer de la "connaissance" ou du moins des "éléments de connaissance" à partir de l'information disponible semblent être assez difficile à assurer. Cette difficulté est due au dynamisme de l'environnement et la diversité des facteurs influençant la production, l'extraction et la communication des informations. En effet, ces informations sont englobées dans des documents qui sont collectés à partir des sources disséminées (Internet, Workflow, bibliothèques numériques, etc. ). Ces documents sont ainsi hétérogènes sur le fond et sur la forme (ils peuvent concerner des domaines divers, sont plus ou moins structurés, peuvent être liés à des structures diverses, contiennent plusieurs type de média, sont stockés dans plusieurs type de supports, etc. ). Les défis actuels sont de concevoir de nouvelles applications pour exploiter cette grande masse de documents très hétérogènes. Les travaux présentés dans cette thèse, visent à faire face à ces défis et notamment à proposer des solutions permettant de "gérer et créer de la connaissance" à partir de l'intégration de toute l'information disponible sur les documents hétérogènes. La manipulation des entrepôts de documents multimédia constitue le cadre applicatif de nos propositions. Notre approche s'articuler autour de trois axes complémentaires : (1) la représentation, (2) le stockage (ou l'intégration) et (3) l'exploitation des documents hétérogènes. La représentation des documents concerne la détermination des informations à conserver et la façon selon laquelle elles doivent être organisées pour mieux appréhender et prévoir leurs usages. La solution que nous avons choisie pour répondre à ces besoins se base sur la proposition d'un modèle qui intègre plusieurs niveaux de description imbriqués et complémentaires (une couche générique et une couche spécifique, une description logique et une description sémantique). .
The knowledge society is based on three axes: the diffusion and use of information via new technologies, the deduction of knowledge induced by this information and the economic impacts which can result from this information. To offer to the actors and more particularly to the "decision makers" of this society some tools which enable them to produce and manage "knowledge" or at least "elements of knowledge" seem to be rather difficult to ensure. This difficulty is due to the dynamism of the environment and the diversity of factors influencing the information production, extraction and communication. Indeed, this information is included in documents which are collected from disseminated sources (Internet, Workflow, numerical libraries, etc. ). These documents are thus heterogeneous on the content and on the form (they can be related to various fields, they can be more or less structured, they can have various structures, they contain several type of media, are stored in several type of supports, etc). The current challenges are to conceive new applications to exploit this document heterogeneity. Having in mind these needs, the work presented in my thesis, aims to face these challenges and in particular at proposing solutions in order "to manage and create knowledge" starting from the integration of all information available on the heterogeneous documents. The handling of multimedia documents repositories constitutes the applicative framework of our proposals. Our approach is articulated around three complementary axes: (1) the representation, (2) storage (or integration) and (3) exploitation of the heterogeneous documents. Documents representation is related to the determination of information that must be preserved and the way according to which they must be organized to offer better apprehending and envisaging of their uses. The solution that we chose to meet these needs bases on the proposal for a documents model which integrates several overlapping and complementary levels of description (a generic layer and a specific one, a logical description and a semantic one). .

APA, Harvard, Vancouver, ISO, and other styles

19

Royer, Kevin. "Vers un entrepôt de données et des processus : le cas de la mobilité électrique chez EDF." Thesis, Chasseneuil-du-Poitou, Ecole nationale supérieure de mécanique et d'aérotechnique, 2015. http://www.theses.fr/2015ESMA0001/document.

Full text

Abstract:

Le marché du véhicule électrique (VE) est aujourd’hui en plein essor et il s’agit d’un marché quireprésente un intérêt pour des industriels comme EDF. Pour réaliser ses objectifs (optimisation de laconsommation, tarification...) EDF doit d’abord extraire des données hétérogènes (issues des VE etdes bornes de recharge) puis les analyser. Pour cela nous nous sommes orientés vers un entrepôt dedonnées (ED) qui est ensuite exploité par les processus métiers (PM). Afin d’éviter le phénomèneGarbage In/Garbage Out, les données doivent être traitées. Nous avons choisi d’utiliser une ontologiepour réduire l’hétérogénéité des sources de données. La construction d’une ontologie étant lente, nousavons proposé une solution incrémentale à base briques ontologiques modulaires liées entre elles. Laconstruction de l’ED, basé sur l’ontologie, est alors incrémentale. Afin de charger des données dansl’ED, nous avons défini les processus ETL (Extract, Transform & Load) au niveau sémantique. Ensuitenous avons modélisé les PM répétitifs selon les spécifications BPMN (Business Process Modelisation& Notation) pour extraire les connaissances requises par EDF de l’ED. L’ED constitué possède lesdonnées et des PM, le tout dans un cadre sémantique. Nous avons implémenté cela sur la plateformeOntoDB développée au Laboratoire d’Informatique et d’Automatique pour les Systèmes de l’ISAEENSMA.Elle nous a permis de manipuler l’ontologie, les données et les PM d’une manière homogènegrâce au langage OntoQL. De plus, nous lui avons fourni la capacité d’exécuter automatiquement lesPM. Cela nous a permis de fournir à EDF une plate-forme adaptée à leurs besoins à base d’élémentsdéclaratifs
Nowadays, the electrical vehicles (EV) market is undergoing a rapid expansion and has become ofgreat importance for utility companies such as EDF. In order to fulfill its objectives (demand optimization,pricing, etc.), EDF has to extract and analyze heterogeneous data from EV and charging spots. Inorder to tackle this, we used data warehousing (DW) technology serving as a basis for business process(BP). To avoid the garbage in/garbage out phenomena, data had to be formatted and standardized.We have chosen to rely on an ontology in order to deal with data sources heterogeneity. Because theconstruction of an ontology can be a slow process, we proposed an modular and incremental constructionof the ontology based on bricks. We based our DW on the ontology which makes its construction alsoan incremental process. To upload data to this particular DW, we defined the ETL (Extract, Trasform& Load) process at the semantic level. We then designed recurrent BP with BPMN (Business ProcessModelization & Notation) specifications to extract EDF required knowledge. The assembled DWpossesses data and BP that are both described in a semantic context. We implemented our solutionon the OntoDB platform, developed at the ISAE-ENSMA Laboratory of Computer Science and AutomaticControl for Systems. The solution has allowed us to homogeneously manipulate the ontology, thedata and the BP through the OntoQL language. Furthermore, we added to the proposed platform thecapacity to automatically execute any BP described with BPMN. Ultimately, we were able to provideEDF with a tailor made platform based on declarative elements adapted to their needs

APA, Harvard, Vancouver, ISO, and other styles

20

Najjar, Ahmed. "Forage de données de bases administratives en santé." Doctoral thesis, Université Laval, 2017. http://hdl.handle.net/20.500.11794/28162.

Full text

Abstract:

Les systèmes de santé actuels sont de plus en plus informatisés et dotés de systèmes de collecte et de stockage des données. Une énorme quantité des données est ainsi stockée dans les bases de données médicales. Les bases de données, conçues à des fins administratives ou de facturation, sont alimentées de nouvelles données à chaque fois que le patient fait appel au système de soins de santé. Cette spécificité rend ces bases de données une source riche en information et extrêmement intéressante et utile. Elles rassemblent ainsi toutes les données de prestation de soins et pourraient permettre de construire et de dévoiler les processus de soins des patients. Toutefois, malgré cet intérêt évident que représente ces banques de données administratives, elles sont jusqu’à date sous-exploitées par les chercheurs. Nous proposons donc dans cette thèse une approche de découverte de connaissances qui à partir des données administratives brutes permet de détecter des patrons des trajectoires de soins des patients. Nous avons tout d’abord proposé un algorithme capable de regrouper des objets complexes qui représentent les services médicaux. Ces objets sont caractérisés par un mélange de variables numériques, catégorielles et catégorielles multivaluées. Nous proposons pour cela d’extraire des espaces de projection pour les variables multivaluées et de modifier le calcul de la distance entre les objets afin de prendre ces projections en compte. La deuxième nouveauté consiste à la proposition d’un modèle de mélange en deux étapes, capable de regrouper ces objets. Ce modèle fait appel à la distribution gaussienne pour les variables numériques, multinomiales pour les variables catégorielles et aux modèles cachés de Markov (HMM) pour les variables multivaluées. Nous obtenons ainsi deux algorithmes capables de regrouper des objets complexes caractérisés par un mélange de variables. Par la suite, une approche de découverte de patrons des trajectoires de soins a été mise en place. Cette approche comporte plusieurs étapes. La première est l’étape de prétraitement qui permet de construire et de générer les ensembles des services médicaux. Ainsi, on obtient trois ensembles des services médicaux : un pour les séjours hospitaliers, un pour les consultations et un pour les visites. La deuxième étape est l’étape de modélisation et regroupement des processus de soins comme une succession des étiquettes des services médicaux. Ces processus sont complexes et ils nécessitent une méthode sophistiquée de regroupement. Nous proposons ainsi un algorithme de regroupement basé sur les HMM. Finalement, une approche de visualisation et d’analyse des patrons des trajectoires est proposée pour exploiter les modèles découverts. L’ensemble de ces étapes forment le processus de découvertes des patrons des trajectoires à partir des bases de données administratives en santé. Nous avons appliqué cette approche aux bases de données sur la prestation des soins pour les personnes âgées de 65 ans et plus souffrant d’insuffisance cardiaque et habitant à la province de Québec. Ces données sont extraites de trois bases de données : la banque de données MED-ÉCHO du MSSS, la banque de la RAMQ et la base contenant les données concernant les certificats de décès. Les résultats issus de ce projet ont montré l’efficacité de notre approche et de nos algorithmes en détectant des patrons spéciaux qui peuvent aider les administrateurs de soins de santé à mieux gérer les soins de santé.
Current health systems are increasingly equipped with data collection and storage systems. Therefore, a huge amount of data is stored in medical databases. Databases, designed for administrative or billing purposes, are fed with new data whenever the patient uses the healthcare system. This specificity makes these databases a rich source of information and extremely interesting. These databases can unveil the constraints of reality, capturing elements from a great variety of real medical care situations. So, they could allow the conception and modeling the medical treatment process. However, despite the obvious interest of these administrative databases, they are still underexploited by researchers. In this thesis, we propose a new approach of the mining for administrative data to detect patterns from patient care trajectories. Firstly, we have proposed an algorithm able to cluster complex objects that represent medical services. These objects are characterized by a mixture of numerical, categorical and multivalued categorical variables. We thus propose to extract one projection space for each multivalued variable and to modify the computation of the distance between the objects to consider these projections. Secondly, a two-step mixture model is proposed to cluster these objects. This model uses the Gaussian distribution for the numerical variables, multinomial for the categorical variables and the hidden Markov models (HMM) for the multivalued variables. Finally, we obtain two algorithms able to cluster complex objects characterized by a mixture of variables. Once this stage is reached, an approach for the discovery of patterns of care trajectories is set up. This approach involves the followed steps: 1. preprocessing that allows the building and generation of medical services sets. Thus, three sets of medical services are obtained: one for hospital stays, one for consultations and one for visits. 2. modeling of treatment processes as a succession of labels of medical services. These complex processes require a sophisticated method of clustering. Thus, we propose a clustering algorithm based on the HMM. 3. creating an approach of visualization and analysis of the trajectory patterns to mine the discovered models. All these steps produce the knowledge discovery process from medical administrative databases. We apply this approach to databases for elderly patients over 65 years old who live in the province of Quebec and are suffering from heart failure. The data are extracted from the three databases: the MSSS MED-ÉCHO database, the RAMQ bank and the database containing death certificate data. The obtained results clearly demonstrated the effectiveness of our approach by detecting special patterns that can help healthcare administrators to better manage health treatments.

APA, Harvard, Vancouver, ISO, and other styles

21

Pinilla, Erwan. "Données de santé, dynamiques et enjeux de souveraineté." Electronic Thesis or Diss., Strasbourg, 2023. http://www.theses.fr/2023STRAA015.

Full text

Abstract:

Cette recherche a pour but de relever les dynamiques de la « donnée de santé » dans le champ de la souveraineté numérique : qui peut par là décrire, expliquer des situations, prédire des tendances, induire des comportements individuels et/ou populationnels, voire étatiques ? Que protéger donc en droit, comment? Nous rapportons et analysons le débordement des approches historiques de régulation, du fait de la diversification des acteurs, techniques et usages ; de la multiplication des sources de données et leur dissémination ; de l’ébranlement de catégories juridiques pourtant récemment fixées ; de la porosité des systèmes du fait d’interactions choisies ou non, dont les ingérences étrangères. En conséquence, nous analysons l’avènement accéléré d’outils inédits au niveau européen, dans des champs traditionnellement régaliens en matière d’infrastructures cyber, de qualifications (données, technologies, utilisations), et de garanties mutuelles contre les ingérences étatiques. D’autres défis nous semblent devoir être approfondis (ainsi la ré-identification ; les données synthétiques), dans une ère où la maîtrise technologique a cessé d’être l’apanage des Etats, et où la géopolitique s’est retendue avec des outils nouveaux
Aim of this research is to identify the dynamics of “health data” in the field of digital sovereignty: who can use it to describe and explain situations, predict trends, and induce individual and/or population, or even States, behaviours ? What is – and should be legally protected, and how ? We here report on and analyze the overflowing of historical approaches to regulation, due to the diversification of players, techniques and uses ; the multiplication of data sources and their dissemination, the shaking of legal categories despite their recent establishment ; the porosity of national and joint systems, due to conventional or agressive interactions. As a result, we analyze the accelerated advent of new rules at European level in traditionally regalian fields of cyber infrastructure, qualifications (data, technologies, uses), and mutual guarantees against interferences. Other challenges call for in-depth insight (such as reidentification & synthetic data), in an era where for long technological domination is no more a prerogative of States, and where geopolitics has been extended by new tools and practices

APA, Harvard, Vancouver, ISO, and other styles

22

Zorn, Caroline. "Données de santé et secret partagé : pour un droit de la personne à la protection de ses données de santé partagées." Thesis, Nancy 2, 2009. http://www.theses.fr/2009NAN20011.

Full text

Abstract:

Le secret partagé est une exception légale au secret professionnel, permettant à ceux qui prennent en charge le patient d'échanger des informations le concernant, sans être sanctionnés du fait de cette révélation d'informations protégées. Si les soignants depuis toujours communiquent au sujet du patient dans son intérêt, il n'y en a pas moins un équilibre à trouver entre l'échange d'informations nécessaire à la pratique médicale, et le respect de la vie privée qu'un partage trop large peu compromettre. Or, l'émergence de l'outil informatique, multipliant les possibilités de partage de données de santé, remet en cause un équilibre fondé sur des mécanismes traditionnels de protection de l'intimité de la personne. Le traitement de données de santé partagées doit alors s'analyser au regard des règles du secret partagé, des règles de la législation "Informatique et Libertés", mais également au jour d'un foisonnement vertigineux de normes relatives à la mise en oeuvre de dossiers spécifiques comme le Dossier médical personnel, le Dossier pharmaceutique ou l'Historique des remboursements. La mise en relief systématique de la place du consentement de la personne concernée conduit au constat de l'impérative inscription à la Constitution du droit de la personne à la protection de ses données de santé partagées
The medical professional secret is a legal exception to the professional secret; it allows a patient's caregivers to exchange health information that is relevant to that patient's care without being punished for revealing confidential information. That caregivers discuss patient's health information with other medical professional involved in that patient's care is to the benefit of the patient. Nonetheless, there is a fine balance to be struck between a "need to know" professional exchange of information, which is essential to care of the patient, and a broad exchange of information, which may ultimately comprise the confidentiality of the patient's private life. The emergence of an electronic tool, which multiplies the potential possibilities for data exchange, further disrupts this balance. Consequently, the manipulation of this shared health information must be subject to the medical professional secret, the "Informatique et Libertés" legislation, and all of the numerous norms and standards as defined by the French national electronic medical record (DMP), the pharmaceutical medical record (Dossier pharmaceutique), or the reimbursement repository (Historique des remboursements). As the patient's health information is increasingly shared between health care providers - through means such as the DMP or DP - the patient's right and ability to control the access to his/her health information have to become more and more important. A study regarding the importance of obtaining the patient's consent lead to the following proposal: to inscribe in the French Constitution the patient's right to confidentiality regarding health information

APA, Harvard, Vancouver, ISO, and other styles

23

Denis, Marie-Chantal. "Conception et réalisation d'un entrepôt de données institutionnel dans une perspective de support à la prise de décision." Thèse, Université du Québec à Trois-Rivières, 2008. http://depot-e.uqtr.ca/1267/1/030077904.pdf.

Full text

APA, Harvard, Vancouver, ISO, and other styles

24

Lelong, Romain. "Accès sémantique aux données massives et hétérogènes en santé." Thesis, Normandie, 2019. http://www.theses.fr/2019NORMR030/document.

Full text

Abstract:

Les données cliniques sont produites par différents professionnels de santé, dans divers lieux et sous diverses formes dans le cadre de la pratique de la médecine. Elles présentent par conséquent une hétérogénéité à la fois au niveau de leur nature et de leur structure mais également une volumétrie particulièrement importante et qualifiable de massive. Le travail réalisé dans le cadre de cette thèse s’attache à proposer une méthode de recherche d’information efficace au sein de ce type de données complexes et massives. L’accès aux données cliniques se heurte en premier lieu à la nécessité de modéliser l’informationclinique. Ceci peut notamment être réalisé au sein du dossier patient informatisé ou, dans une plus large mesure, au sein d’entrepôts de données. Je propose dans ce mémoire unepreuve de concept d’un moteur de recherche permettant d’accéder à l’information contenue au sein de l’entrepôt de données de santé sémantique du Centre Hospitalier Universitaire de Rouen. Grâce à un modèle de données générique, cet entrepôt adopte une vision de l’information assimilable à un graphe de données rendant possible la modélisation de cette information tout en préservant sa complexité conceptuelle. Afin de fournir des fonctionnalités de recherche adaptées à cette représentation générique, un langage de requêtes permettant l’accès à l’information clinique par le biais des diverses entités qui la composent a été développé et implémenté dans le cadre de cette thèse. En second lieu, la massivité des données cliniques constitue un défi technique majeur entravant la mise en oeuvre d’une recherche d’information efficace. L’implémentation initiale de la preuve de concept sur un système de gestion de base de données relationnel a permis d’objectiver les limites de ces derniers en terme de performances. Une migration vers un système NoSQL orienté clé-valeur a été réalisée. Bien qu’offrant de bonnes performances d’accès atomique aux données, cette migration a également nécessité des développements annexes et la définition d’une architecture matérielle et applicative propice à la mise en oeuvre des fonctionnalités de recherche et d’accès aux données. Enfin, l’apport de ce travail dans le contexte plus général de l’entrepôt de données de santé sémantique du CHU de Rouen a été évalué. La preuve de concept proposée dans ce travail a ainsi été exploitée pour accéder aux descriptions sémantiques afin de répondre à des critères d’inclusion et d’exclusion de patients dans des études cliniques. Dans cette évaluation, une réponse totale ou partielle a pu être apportée à 72,97% des critères. De plus, la généricité de l’outil a également permis de l’exploiter dans d’autres contextes tels que la recherche d’information documentaire et bibliographique en santé
Clinical data are produced as part of the practice of medicine by different health professionals, in several places and in various formats. They therefore present an heterogeneity both in terms of their nature and structure and are furthermore of a particularly large volume, which make them considered as Big Data. The work carried out in this thesis aims at proposing an effective information retrieval method within the context of this type of complex and massive data. First, the access to clinical data constrained by the need to model clinical information. This can be done within Electronic Health Records and, in a larger extent, within data Warehouses. In this thesis, I proposed a proof of concept of a search engine allowing the access to the information contained in the Semantic Health Data Warehouse of the Rouen University Hospital. A generic data model allows this data warehouse to view information as a graph of data, thus enabling to model the information while preserving its conceptual complexity. In order to provide search functionalities adapted to this generic representation of data, a query language allowing access to clinical information through the various entities of which it is composed has been developed and implemented as a part of this thesis’s work. Second, the massiveness of clinical data is also a major technical challenge that hinders the implementation of an efficient information retrieval. The initial implementation of the proof of concept highlighted the limits of a relational database management systems when used in the context of clinical data. A migration to a NoSQL key-value store has been then completed. Although offering good atomic data access performance, this migration nevertheless required additional developments and the design of a suitable hardware and applicative architecture toprovide advanced search functionalities. Finally, the contribution of this work within the general context of the Semantic Health Data Warehouse of the Rouen University Hospital was evaluated. The proof of concept proposed in this work was used to access semantic descriptions of information in order to meet the criteria for including and excluding patients in clinical studies. In this evaluation, a total or partial response is given to 72.97% of the criteria. In addition, the genericity of the tool has also made it possible to use it in other contexts such as documentary and bibliographic information retrieval in health

APA, Harvard, Vancouver, ISO, and other styles

25

Michel, Franck. "Intégrer des sources de données hétérogènes dans le Web de données." Thesis, Université Côte d'Azur (ComUE), 2017. http://www.theses.fr/2017AZUR4002/document.

Full text

Abstract:

Le succès du Web de Données repose largement sur notre capacité à atteindre les données stockées dans des silos invisibles du web. Dans les 15 dernières années, des travaux ont entrepris d’exposer divers types de données structurées au format RDF. Dans le même temps, le marché des bases de données (BdD) est devenu très hétérogène avec le succès massif des BdD NoSQL. Celles-ci sont potentiellement d’importants fournisseurs de données liées. Aussi, l’objectif de cette thèse est de permettre l’intégration en RDF de sources de données hétérogènes, et notamment d'alimenter le Web de Données avec les données issues des BdD NoSQL. Nous proposons un langage générique, xR2RML, pour décrire le mapping de sources hétérogènes vers une représentation RDF arbitraire. Ce langage étend des travaux précédents sur la traduction de sources relationnelles, CSV/TSV et XML en RDF. Sur cette base, nous proposons soit de matérialiser les données RDF, soit d'évaluer dynamiquement des requêtes SPARQL sur la base native. Dans ce dernier cas, nous proposons une approche en deux étapes : (i) traduction d’une requête SPARQL en une requête pivot, abstraite, en se basant sur le mapping xR2RML ; (ii) traduction de la requête abstraite en une requête concrète, prenant en compte les spécificités du langage de requête de la BdD cible. Un souci particulier est apporté à l'optimisation des requêtes, aux niveaux abstrait et concret. Nous démontrons l’applicabilité de notre approche via un prototype pour la populaire base MongoDB. Nous avons validé la méthode dans un cas d’utilisation réel issu du domaine des humanités numériques
To a great extent, the success of the Web of Data depends on the ability to reach out legacy data locked in silos inaccessible from the web. In the last 15 years, various works have tackled the problem of exposing various structured data in the Resource Description Format (RDF). Meanwhile, the overwhelming success of NoSQL databases has made the database landscape more diverse than ever. NoSQL databases are strong potential contributors of valuable linked open data. Hence, the object of this thesis is to enable RDF-based data integration over heterogeneous data sources and, in particular, to harness NoSQL databases to populate the Web of Data. We propose a generic mapping language, xR2RML, to describe the mapping of heterogeneous data sources into an arbitrary RDF representation. xR2RML relies on and extends previous works on the translation of RDBs, CSV/TSV and XML into RDF. With such an xR2RML mapping, we propose either to materialize RDF data or to dynamically evaluate SPARQL queries on the native database. In the latter, we follow a two-step approach. The first step performs the translation of a SPARQL query into a pivot abstract query based on the xR2RML mapping of the target database to RDF. In the second step, the abstract query is translated into a concrete query, taking into account the specificities of the database query language. Great care is taken of the query optimization opportunities, both at the abstract and the concrete levels. To demonstrate the effectiveness of our approach, we have developed a prototype implementation for MongoDB, the popular NoSQL document store. We have validated the method using a real-life use case in Digital Humanities

APA, Harvard, Vancouver, ISO, and other styles

26

Galbaud, du Fort Guillaume. "Epidémiologie et santé mentale du couple : etude comparée de données populationnelles et de données cliniques." Thesis, McGill University, 1991. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=59993.

Full text

Abstract:

In an epidemiological study of mental health in couples, individual and systemic approaches were compared in terms of their appropriateness for general versus clinical populations.
The primary results from the study of 845 couples in the general population suggest that there exists a significant spouse-similarity across the various mental health dimensions examined (psychological distress, general well-being, and role satisfaction).
The main results from the study of 17 couples in marital therapy suggest that significant sex differences exist in dyadic adjustment. Sex differences were also noted in the correlations between dyadic adjustment and depressive symptoms.
In conclusion, it appears that epidemiological research on the mental health of couples should have as its objective a simultaneous consideration of both the individual and the couple, as well as a simultaneous consideration of clinical and general populations, in order to create a double complementarity out of this apparent double dichotomy.

APA, Harvard, Vancouver, ISO, and other styles

27

Lechevalier, Fabien. "Les fiducies de données personnelles de santé : étude illustrée des enjeux et bénéfices d’une gestion collective de la propriété des données personnelles de santé." Master's thesis, Université Laval, 2020. http://hdl.handle.net/20.500.11794/67590.

Full text

Abstract:

Le phénomène numérique multiplie les pratiques de recueil de données dans tous les secteurs, mais c’est certainement dans le domaine de la santé, que celles-ci suscitent le plus de questions sur leur statut et sur leur partage. En effet, ces données relevant à la fois du bien commun de l’humanité et du plus profond de l’intime, nous poussent à nous interroger sur le régime juridique le plus adapté à leur appliquer afin préserver au mieux la vie privée des personnes. Alors que la réalité du partage et de l'analyse des données a changé, la théorie de la vie privée a pris du retard. Les théoriciens de la vie privée diffèrent notoirement et largement sur la conception appropriée de la vie privée mais ces nombreuses théories ont tendance à partager une hypothèse théorique sous-jacente. La plupart des théories dominantes de la vie privée analysent, en effet, cette notion à travers la lentille de l’individualisme. Partant, nos objectifs spécifiques sont de discuter du surinvestissement de la théorie de la vie privée dans les théories centrées sur l’individu et de la nécessité pour les décideurs politiques de s'engager pleinement dans le débat d’une gestion collective des droits qui y sont attachés afin d’apporter une solution idoine aux vulnérabilités crées par l’« ère Big Data ». Face aux limites inhérentes à l’approche individuelle, la solution d’une autonomie interactive et relationnelle, dans laquelle la personne gère ses données mais est intégrée à un projet collectif semble être la plus propice à répondre aux enjeux de notre objet. La problématique angulaire de la consécration de ce droit collectif sur les données est celui de l’inscrire dans un cadre légal. Or la majorité des véhicules juridiques reposent sur une logique de propriété qui est, dans une certaine mesure, antinomique à la naturelle extrapatrimonialité des données. Pourtant les fiducies de données offrent un modèle souple et inclusif qui permettrait aux gouvernements et à l’industrie d’harmoniser la réglementation avec les technologies tout en laissant favorisant l’émergence d’une nouvelle famille de communs. Si le recours à ce véhicule nécessite la reconnaissance préalable de la qualité de biens aux données, et donc d’un droit propriétaire, les fiducies de données pourraient, dans le domaine de la santé, tirer profit des structures actuelles de gouvernance juridique afin de protéger le public contre les atteintes à la vie privée et les pratiques de collecte et d’utilisation de leurs données personnelles contraires à l’éthique.

APA, Harvard, Vancouver, ISO, and other styles

28

Létourneau, François. "Analyse du potentiel de l'approche entrepôt de données pour l'intégration des métadonnées provenant d'un ensemble de géorépertoires disponibles sur Internet." Thesis, National Library of Canada = Bibliothèque nationale du Canada, 1998. http://www.collectionscanada.ca/obj/s4/f2/dsk2/tape17/PQDD_0007/MQ31752.pdf.

Full text

APA, Harvard, Vancouver, ISO, and other styles

29

Babilliot, Alain. "Typologie critique des méthodes informatiques pour l'analyse des données en épidémiologie." Paris 9, 1988. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=1988PA090033.

Full text

APA, Harvard, Vancouver, ISO, and other styles

30

Buekens, Pierre. "Utilisation des bases de données pour l'évaluation de l'efficacité des interventions obstétricales." Doctoral thesis, Universite Libre de Bruxelles, 1988. http://hdl.handle.net/2013/ULB-DIPOT:oai:dipot.ulb.ac.be:2013/213404.

Full text

APA, Harvard, Vancouver, ISO, and other styles

31

Megdiche, Bousarsar Imen. "Intégration holistique et entreposage automatique des données ouvertes." Thesis, Toulouse 3, 2015. http://www.theses.fr/2015TOU30214/document.

Full text

Abstract:

Les statistiques présentes dans les Open Data ou données ouvertes constituent des informations utiles pour alimenter un système décisionnel. Leur intégration et leur entreposage au sein du système décisionnel se fait à travers des processus ETL. Il faut automatiser ces processus afin de faciliter leur accessibilité à des non-experts. Ces processus doivent pallier aux problèmes de manque de schémas, d'hétérogénéité structurelle et sémantique qui caractérisent les données ouvertes. Afin de répondre à ces problématiques, nous proposons une nouvelle démarche ETL basée sur les graphes. Pour l'extraction du graphe d'un tableau, nous proposons des activités de détection et d'annotation automatiques. Pour la transformation, nous proposons un programme linéaire pour résoudre le problème d'appariement holistique de données structurelles provenant de plusieurs graphes. Ce modèle fournit une solution optimale et unique. Pour le chargement, nous proposons un processus progressif pour la définition du schéma multidimensionnel et l'augmentation du graphe intégré. Enfin, nous présentons un prototype et les résultats d'expérimentations
Statistical Open Data present useful information to feed up a decision-making system. Their integration and storage within these systems is achieved through ETL processes. It is necessary to automate these processes in order to facilitate their accessibility to non-experts. These processes have also need to face out the problems of lack of schemes and structural and sematic heterogeneity, which characterize the Open Data. To meet these issues, we propose a new ETL approach based on graphs. For the extraction, we propose automatic activities performing detection and annotations based on a model of a table. For the transformation, we propose a linear program fulfilling holistic integration of several graphs. This model supplies an optimal and a unique solution. For the loading, we propose a progressive process for the definition of the multidimensional schema and the augmentation of the integrated graph. Finally, we present a prototype and the experimental evaluations

APA, Harvard, Vancouver, ISO, and other styles

32

Weber-Baghdiguian, Lexane. "Santé, genre et qualité de l'emploi : une analyse sur données microéconomiques." Thesis, Paris Sciences et Lettres (ComUE), 2017. http://www.theses.fr/2017PSLED014/document.

Full text

Abstract:

Cette thèse étudie l'influence du travail sur la qualité de l'emploi et la qualité de vie des individus. Cette dernière est approximée par la perception que les individus ont de leur santé. Le premier chapitre étudie les conséquences de la perte d'emploi liée à la fermeture d'un établissement sur l'ensemble des dimensions de la qualité de l'emploi retrouvé. Nous montrons que ce choc induit une dégradation, y compris sur le long terme, des salaires, de l'insécurité de l'emploi perçue, de la qualité de l'environnement de travail et de la satisfaction des travailleurs. Les deux derniers chapitres tentent de comprendre les déterminants des différences de santé perçue selon le genre. Dans le deuxième chapitre, nous analysons le rôle de la santé mentale dans les écarts de santé déclarée selon le genre. Le troisième chapitre étudie l'influence des normes sociales au travail, sur la santé perçue. Nous montrons que les femmes comme les hommes travaillant dans des collectifs de travail féminins déclarent davantage de problèmes de santé spécifiques que celles et ceux travaillant dans des collectifs masculins. Ce travail souligne donc, d'une part, l'effet négatif de la perte d'emploi sur la qualité de l'emploi retrouvé et la satisfaction à long terme et, d'autre part, l'importance du mal-être et des normes sociales au travail pour comprendre les différences de santé perçue entre les genres
This thesis studies the influence of work on job and life quality, the latter being considered through the perception that individuals have of their own health. The first chapter focuses on the long-term effects of job losses due to plant closure on job quality. We show that job loss negatively affects wages, perceived job insecurity, the quality of the working environment and job satisfaction, including in the long run. The two last chapters investigate gender differences in self-reported health. The second chapter provides descriptive evidence on the relationships between self-assessed health, gender and mental health problems, i.e. depression and/or affective pains. Finally, in the last chapter, we study the influence of social norms as proxied by the gender structure of the workplace environment, on gender differences in self-reported health. We show that both women and men working in female-dominated environments report more specific health problems than those who work in male-dominated environments. The overall findings of this thesis are twofold. First, losing a job has a negative impact on several dimensions of job quality and satisfaction in the long run. Secondly, mental diseases and social norms at work are important to understand gender-related differences in health perceptions

APA, Harvard, Vancouver, ISO, and other styles

33

Teste, Olivier. "Modélisation et manipulation des systèmes OLAP : de l'intégration des documents à l'usager." Habilitation à diriger des recherches, Université Paul Sabatier - Toulouse III, 2009. http://tel.archives-ouvertes.fr/tel-00479460.

Full text

Abstract:

Mes travaux de recherche se situent dans le domaine de l'informatique décisionnelle, et portent en particulier sur les entrepôts de données (Data Warehouse) et l'analyse en ligne (OLAP, On-Line Analytical Processing). L'originalité de la démarche scientifique suivie par ces recherches réside dans une double orientation consistant à proposer des mécanismes de description couplés aux mécanismes de manipulation des données entreposées dans les systèmes OLAP. Les travaux que je mène depuis 2001 s'articulent en trois axes :  la modélisation et la manipulation des systèmes OLAP,  l'intégration des documents dans les systèmes OLAP, et  la prise en compte de l'usager par la personnalisation des systèmes OLAP. Malgré de nombreux travaux sur la modélisation et la manipulation dans les systèmes OLAP, il n'existe ni standard, ni consensus, que ce soit au niveau des modèles multidimensionnels ou des opérateurs OLAP. Mes premiers travaux ont donc consisté à définir un modèle conceptuel de représentation des données pour les systèmes OLAP basé sur trois concepts clairement formalisés. Ce socle homogène a permis dans un second temps de définir les manipulations OLAP au travers d'un noyau minimum fermé d'opérateurs OLAP. Ce fondement théorique nous permet aujourd'hui d'élaborer des langages assertionels et/ou graphiques dont la complétude au regard de l'algèbre OLAP garanti la couverture du modèle en constellation et la performance des manipulations incrémentales. Pour rendre opérant les systèmes OLAP sur l'ensemble des données d'une organisation, j'ai orienté mes recherches sur l'intégration des documents. Mes recherches ont débouché sur la proposition d'un modèle de représentation unificateur en galaxie. Ce modèle repose sur un unique mécanisme de description des données et supporte les documents dans la globalité de leurs spécificités (contenu, structure, métadonnées). Le défis essentiel a été de maintenir opérants les principes de navigation et d'interrogation des données définis par l'algèbre OLAP. Pour cela, une contribution importante de ces recherches est la spécification de mécanismes d'agrégation textuelle (TOP_KW et AVG_KW) permettant d'assurer des forages dans des amas multidimensionnels de données textuelles. Les systèmes OLAP se sont principalement attachés à faciliter l'accès aux données décisionnelles laissant la charge aux usagers d'expertiser les données par des restitutions destinées à un groupe d'usagers supposés partager des besoins identiques. J'ai donc élargi mes recherches à la personnalisation des systèmes OLAP, par une approche quantitative qui permet à l'usager de définir ses préférences dans une constellation et d'ancrer des annotations qui matérialisent ses analyses et son expertise décisionnelle autorisant ainsi une composante collaborative dans le système OLAP. Enfin, j'ai complété ces propositions par une approche qualitative qui exploite les préférences exprimées par des relations d'ordre pour définir un processus générique autorisant trois types de recommandations contextuelles lors des manipulations OLAP : alternatives, par anticipation et enrichissement. Ces recherches ont fait l'objet de développements dans trois prototypes et s'inscrivent dans le cadre de différents projets et collaborations industrielles notamment dans le milieu médical (Hôpitaux de Paris, Institut Claudius Regaud). Elles ont également donné lieu à plusieurs thèses de doctorat.

APA, Harvard, Vancouver, ISO, and other styles

34

Loudcher, Sabine. "Vers l'OLAP sémantique pour l'analyse en ligne des données complexes." Habilitation à diriger des recherches, Université Lumière - Lyon II, 2011. http://tel.archives-ouvertes.fr/tel-00606847.

Full text

Abstract:

L'analyse en ligne OLAP permet une navigation interactive dans les données, une visualisation rapide de l'information et une exploration de la structure multidimensionnelle des données. Une des limites est de se restreindre à des aspects exploratoires et navigationnels. De plus, avec l'avènement des données complexes (données multi-format et/ou multi-structure et/ou multi-source et/ou multi-modale et/ou multi-version), l'analyse en ligne doit s'adapter à la nature spécifique de ces données tout en gardant l'esprit de l'OLAP. Les opérateurs OLAP sont définis pour des données classiques et sont souvent inadaptés quand il s'agit de données complexes par exemple composées de textes, images, son ou vidéos. Les limites de l'OLAP ainsi que la spécificité des données complexes nécessitent une évolution ou adaptation de l'OLAP. Il devient nécessaire de : (1) enrichir les possibilités de l'analyse OLAP en la dotant de nouvelles possibilités ; (2) créer une analyse en ligne adaptée aux données complexes ; (3) faire évoluer l'OLAP vers une analyse sémantique des données. Dans cette vaste problématique, nous choisissons de traiter les questions d'agrégation et visualisation des données complexes, de réorganisation du cube pour identifier des régions d'analyse intéressantes, et d'étendre l'OLAP à des possibilités d'explication et de prédiction. Pour toutes ces questions, nous essayons également de tenir compte de la sémantique véhiculée par les données. Pour apporter des premières solutions, nous orientons vers une combinaison des principes de l'OLAP, de la fouille de données et de la recherche d'information. Afin d'introduire une analyse explicative dans l'OLAP, nous faisons une recherche guidée de règles d'association dans le cube. Cela nous conduit à modifier la définition du support et de la confiance d'une règle. Les arbres de régression nous permettent de proposer à l'utilisateur de faire de la prédiction dans le cube et d'avoir ainsi une démarche de type What If Analysis. Pour l'analyse des données complexes, deux méthodes factorielles (AFC et ACM) rendent possible la visualisation des faits dans un cube et la détection de régions intéressantes en réorganisant les dimensions du cube. Nous proposons également une agrégation sémantique des faits et une nouvelle hiérarchie de dimension construite automatiquement grâce aux principes d'une méthode de classification (CAH). Nos propositions sont une première démonstration de la faisabilité de combiner l'OLAP à d'autres techniques comme la fouille de données et la recherche d'information pour faire significativement évoluer l'analyse en ligne et s'adapter aux données complexes. L'OLAP a commencé à s'adapter à leur structure et à leur spécificité (XOLAP - XML OLAP, SOLAP - spatial OLAP). Mais il faut aller au delà et nous pensons qu'un des défis est d'extraire et d'analyser (en ligne) la sémantique contenue dans les données complexes. Ce point constitue un véritable verrou scientifique mais qui est que partiellement abordé par la communauté scientifique. Il faudrait également identifier tous les problèmes posés par les données complexes et ce quels que soient leur nature, contexte ou spécificités. Nous voulons poursuivre nos travaux dans cette voie et faire évoluer l'OLAP vers une nouvelle génération d'analyse en ligne : l'OLAP sémantique. Les problèmes majeurs à traiter seront comment : (1) modéliser toutes les formes de données complexes, leur sémantique et leurs liens ; (2) analyser en ligne les données complexes ; (3) Intégrer les connaissances de l'utilisateur dans le processus de l'analyse ?

APA, Harvard, Vancouver, ISO, and other styles

35

Rapin, Jérémy. "Décompositions parcimonieuses pour l'analyse avancée de données en spectrométrie pour la Santé." Thesis, Paris 11, 2014. http://www.theses.fr/2014PA112378/document.

Full text

Abstract:

La séparation de sources en aveugle (SSA) vise à rechercher des signaux sources inconnus et mélangés de manière inconnue au sein de plusieurs observations. Cette approche très générique et non-supervisée ne fournit cependant pas nécessairement des résultats exploitables. Il est alors nécessaire d’ajouter des contraintes, notamment physiques, afin de privilégier la recherche de sources ayant une structure particulière. La factorisation en matrices positives (non-negative matrix factorization, NMF) qui fait plus précisément l’objet de cette thèse recherche ainsi des sources positives observées au travers de mélanges linéaires positifs.L’ajout de davantage d’information reste cependant souvent nécessaire afin de pouvoir séparer les sources. Nous nous intéressons ainsi au concept de parcimonie qui permet d’améliorer le contraste entre celles-ci tout en produisant des approches très robustes, en particulier au bruit. Nous montrons qu’afin d’obtenir des solutions stables, les contraintes de positivité et la régularisation parcimonieuse doivent être appliqués de manière adéquate. Aussi, l’utilisation de la parcimonie dans un espace transformé potentiellement redondant, permettant de capturer la structure de la plu- part des signaux naturels, se révèle difficile à appliquer au côté de la contrainte de positivité dans l’espace direct. Nous proposons ainsi un nouvel algorithme de NMF parcimonieuse, appelé nGMCA (non-negative Generalized Morphological Component Analysis), qui surmonte ces difficultés via l’utilisation de techniques de calcul proximal. Des expérimentations sur des données simulées montrent que cet algorithme est robuste à une contamination par du bruit additif Gaussien, à l’aide d’une gestion automatique du paramètre de parcimonie. Des comparaisons avec des algorithmes de l’état-de-l’art en NMF sur des données réalistes montrent l’efficacité ainsi que la robustesse de l’approche proposée.Finalement, nous appliquerons nGMCA sur des données de chromatographie en phase liquide - spectrométrie de masse (liquid chromatography - mass spectrometry, LC-MS). L’observation de ces données montre qu’elles sont contaminées par du bruit multiplicatif, lequel détériore grandement les résultats des algorithmes de NMF. Une extension de nGMCA conçue pour prendre en compte ce type de bruit à l’aide d’un a priori non-stationnaire permet alors d’obtenir d’excellents résultats sur des données réelles annotées
Blind source separation aims at extracting unknown source signals from observations where these sources are mixed together by an unknown process. However, this very generic and non-supervised approach does not always provide exploitable results. Therefore, it is often necessary to add more constraints, generally arising from physical considerations, in order to favor the recovery of sources with a particular sought-after structure. Non-negative matrix factorization (NMF), which is the main focus of this thesis, aims at searching for non-negative sources which are observed through non-negative linear mixtures.In some cases, further information still remains necessary in order to correctly separate the sources. Here, we focus on the sparsity concept, which helps improving the contrast between the sources, while providing very robust approaches, even when the data are contaminated by noise. We show that in order to obtain stable solutions, the non-negativity and sparse constraints must be applied adequately. In addition, using sparsity in a potentially redundant transformed domain could allow to capture the structure of most of natural image, but this kind of regularization proves difficult to apply together with the non-negativity constraint in the direct domain. We therefore propose a sparse NMF algorithm, named nGMCA (non-negative Generalized Morphological Component Analysis), which overcomes these difficulties by making use of proximal calculus techniques. Experiments on simulated data show that this algorithm is robust to additive Gaussian noise contamination, with an automatic control of the sparsity parameter. This novel algorithm also proves to be more efficient and robust than other state-of-the-art NMF algorithms on realistic data.Finally, we apply nGMCA on liquid chromatography - mass spectrometry data. Observation of these data show that they are contaminated by multiplicative noise, which greatly deteriorates the results of the NMF algorithms. An extension of nGMCA was designed to take into account this type of noise, thanks to the use of a non-stationary prior. This extension is then able to obtain excellent results on annotated real data

APA, Harvard, Vancouver, ISO, and other styles

36

Flamant-Hulin, Marion. "Pollution intérieure et santé respiratoire : données issues des milieux urbain et rural." Paris 6, 2010. http://www.theses.fr/2010PA066721.

Full text

Abstract:

Les objectifs de cette thèse étaient (1) d’évaluer l’exposition des individus à la pollution intérieure en comparant les milieux urbain et rural, (2) d’estimer les liens pouvant exister entre maladies allergiques et respiratoires et plusieurs polluants de l’air intérieur, à partir de mesures objectives, et (3) d’étudier si les relations entre pollution et santé respiratoire dans ces deux environnements diffèrent par des mécanismes de protection ou de susceptibilité accrus. Pour cela les données issues de trois études épidémiologiques menées chez l’enfant et l’adulte ont été utilisées. Ces données ont permis de mettre en évidence des concentrations plus élevées dans les villes qu’à la campagne, en lien avec une contamination par un air extérieur moins pollué. Des associations ont pu être observées entre les prévalences de maladies allergiques et respiratoires et l’exposition aux particules fines à l’école et aux composés organiques volatils, notamment les hydrocarbures aromatiques, et aux moisissures à domicile, et ce même avec de faibles concentrations. En milieu rural, des associations spécifiques ont pu être estimées entre l’asthme et l’exposition aux moisissures et, dans une moindre mesure, au formaldéhyde. Ces observations conduisent à faire l’hypothèse que cette population pourrait présenter une réponse accrue vis-à-vis des irritants de l’air intérieur. Au total, ce travail de thèse souligne l’importance de mener des études supplémentaires sur l’impact potentiel des polluants de l’air intérieur sur la santé allergique et respiratoire pour mieux comprendre le rôle de cette pollution et ainsi pouvoir protéger au mieux les populations

APA, Harvard, Vancouver, ISO, and other styles

37

Virouleau, Alain. "Apprentissage statistique pour la détection de données aberrantes et application en santé." Thesis, Institut polytechnique de Paris, 2020. http://www.theses.fr/2020IPPAX028.

Full text

Abstract:

Le problème de la détection de données aberrantes et celui de régression robuste dans un contexte de grande dimension est fondamental en statistiques et a de nombreuses applications.Dans la lignée de récents travaux proposant de traiter conjointement ces deux problèmes de régression et de détection, nous considérons dans la première partie de ce travail un modèle linéaire gaussien en grande dimension avec ajout d'un paramètre individuel pour chaque observation.Nous proposons une nouvelle procédure pour simultanément estimer les coefficients de la régression linéaire et les paramètres individuels, en utilisant deux pénalités différentes basées toutes les deux sur une pénalisation convexe l1 ordonnée, nommée SLOPE. Nous faisons l'analyse théorique de ce problème: nous obtenons dans un premier temps une borne supérieure pour l'erreur d'estimation à la fois pour le vecteur des paramètres individuels et pour le vecteur des coefficients de régression. Puis nous obtenons un résultat asymptotique sur le contrôle du taux de fausse découverte et sur la puissance concernant la détection du support du vecteur des paramètres individuels.Nous comparons numériquement notre procédure avec les alternatives les plus récentes, à la fois sur des données simulées et sur des données réelles.La seconde partie de ce travail est motivée par un problème issu de la génétique. Des séquences particulières d'ADN, appelées multi-satellites, sont des indicateurs du développement d'un type de cancer colorectal. Le but est de trouver parmi ces séquences celles qui ont un taux de mutation bien plus élevé (resp. bien moindre) qu'attendu selon les biologistes. Ce problème mène à une modélisation probabiliste non-linéaire et n'entre ainsi pas dans le cadre abordé dans la première partie de cette thèse. Nous traitons ainsi dans cette partie le cas de modèles linéaires généralisés, avec de nouveau des paramètres individuels en plus du prédicteur linéaire, et analysons les propriétés statistiques d'une nouvelle procédure estimant simultanément les coefficients de régression et les paramètres individuels. Nous utilisons de nouveau la pénalisation SLOPE mais nous nous restreignons au cas de la petite dimension. La performance de l'estimateur est mesuré comme dans la première partie en terme d'erreur d'estimation des paramètres et de taux de fausse découverte concernant la recherche du support du vecteur des paramètres individuels
The problems of outliers detection and robust regression in a high-dimensional setting are fundamental in statistics, and have numerous applications.Following a recent set of works providing methods for simultaneous robust regression and outliers detection,we consider in a first part a model of linear regression with individual intercepts, in a high-dimensional setting.We introduce a new procedure for simultaneous estimation of the linear regression coefficients and intercepts, using two dedicated sorted-l1 convex penalizations, also called SLOPE.We develop a complete theory for this problem: first, we provide sharp upper bounds on the statistical estimation error of both the vector of individual intercepts and regression coefficients.Second, we give an asymptotic control on the False Discovery Rate (FDR) and statistical power for support selection of the individual intercepts.Numerical illustrations, with a comparison to recent alternative approaches, are provided on both simulated and several real-world datasets.Our second part is motivated by a genetic problem. Among some particular DNA sequences called multi-satellites, which are indicators of the development or colorectal cancer tumors, we want to find the sequences that have a much higher (resp. much lower) rate of mutation than expected by biologist experts. This problem leads to a non-linear probabilistic model and thus goes beyond the scope of the first part. In this second part we thus consider some generalized linear models with individual intercepts added to the linear predictor, and explore the statistical properties of a new procedure for simultaneous estimation of the regression coefficients and intercepts, using again the sorted-l1 penalization. We focus in this part only on the low-dimensional case and are again interested in the performance of our procedure in terms of statistical estimation error and FDR

APA, Harvard, Vancouver, ISO, and other styles

38

Baldi, Isabelle. "Santé et environnement en Aquitaine : bilan des données disponibles et perspectives épidémiologiques." Bordeaux 2, 1995. http://www.theses.fr/1995BOR23023.

Full text

APA, Harvard, Vancouver, ISO, and other styles

39

Faria, Maria Paula Marçal Grilo Lobato de. "Données génétiques informatisées : un nouveau défi à la protection du droit à la confidentialité des données personnelles de santé." Bordeaux 4, 1996. http://www.theses.fr/1996BOR40030.

Full text

Abstract:

Apres une description des dangers poses a la vie privee des personnes par la "nouvelle genetique" et l'informatique, cette these aboutit a la conclusion, par le biais d'une analyse des regimes juridiques portugais, dans une perspective de droit compare, du droit a la confidentialite, du secret medical et des lois de protection des donnees personnelles, que le droit contemporain aura besoin d'un statut special de confidentialite des donnees genetiques personnelles de sante, a defaut duquel les droits fondamentaux de la personne humaine seront menaces
After a description of the dangers posed to human privacy by "new genetics" and informatics, this thesis leads to the conclusion, by means of an analysis of the portuguese juridical framework, in a compared law perspective, of the right to confidentiality, medical secrecy and personal data protection laws, that contemporary law needs a special legal statute to rule the confidentiality of personal health genetic data without which fundamental human rights will be in threat

APA, Harvard, Vancouver, ISO, and other styles

40

Pacitti, Esther. "Réplication asynchrone des données dans trois contextes: entrepôts, grappes et systèmes pair-à-pair." Habilitation à diriger des recherches, Université de Nantes, 2008. http://tel.archives-ouvertes.fr/tel-00473969.

Full text

Abstract:

Dans une base de données répartie, la réplication de données peut servir à augmenter la fiabilité et la disponibilité de données ainsi que les performances d'accès. En général, l'unité de réplication (copie ou replique) est un table relationnelle (ou un fragment), un document ou un fichier. La réplication consiste alors en placer plusieurs copies sur différents noeuds distincts. Cela fournit une grande disponibilité de données. Si un noeud devient non opérationnel à la suite d'une panne par exemple, une autre copie est toujours accessible sur un autre noeud. La réplication permet aussi aussi de améliorer les performances d'accès en augmentant la localité des références. Lorsque le coût de communication est un facteur dominant, le placement d'une copie sur le noeud où il est le plus souvent accédé favorise les accès locaux et évite l'accès au réseau. Les avantages apportés par la réplication sont à comparer avec la complexité et les coûts supplémentaires de maintenance des copies qui doivent, en théorie rester identiques à tout moment. La mise à jour d'une copie doit être répercutée automatiquement sur toutes ses repliques. Le problème est compliqué par la présence de pannes de noeud ou réseau. Le compromis recherché entre performance d'accès en consultation et en mise à jour des données rend difficile le choix du niveau de réplication. Celui-ci est très dépendant de la charge de travail demandée par les applications. Face à ces défis dans mes travaux de recherche nous avons focalisé sur la gestion de la cohérence pour réplication asynchrone pour plusieurs contextes : entrepôts de données, grappes et applications collaboratives et en pair à pair (P2P). 1. Entrepôts de Données Dans les architectures proposes pour la gestion de entrepôts de données les configurations mono- maître sont souvent utilisés. Dans la réplication mono-maître, plusieurs types configurations acycliques dirigés sont possibles: diffusion, mono-consolidation multi-consolidation, triangulaire. La gestion de la cohérence se pose surtout pour certaines configurations comme dans la multi-consolidation et triangulaire et ses généralisations en combinant les configurations de base. 2. Grappes Les applications dans lesquelles sont utilisées les grappes sont typiquement des applications de lectures intensives, ce qui rend plus facile l'exploitation du parallélisme. Cependant, les grappes peuvent également être utilisées dans un nouveau modèle économique, les Fournisseurs de Services d'Applicatons ASP - Application Service Providers. Dans un contexte ASP, les applications et les bases de données des clients sont stockées chez le fournisseur et sont disponibles, typiquement depuis Internet, aussi efficacement que si elles étaient locales pour les clients. Pour améliorer les performances, les applications et les données peuvent être répliquées sur plusieurs noeuds. Ainsi, les clients peuvent être servis par n'importe quel noeud en fonction de la charge. Cet arrangement fournit également une haute disponibilité: dans le cas de la panne d'un noeud, d'autres noeuds peuvent effectuer le même travail. Le défie est de gérer la réplication multimaître totale et partiel en assurant la cohérence forte et toute en passant à l'échelle. 3 Applications Collaboratives en P2P Les systèmes P2P adoptent une approche complètement décentralisée au partage des ressources. En distribuant données et traitements sur tous les pairs du réseau, ils peuvent passer à très grande échelle sans recourir à des serveurs très puissants. La réplication de données dans les systèmes P2P devient un enjeu majeur pour les applications collaboratives, comme les forums de discussion, les calendriers partagés, ou les catalogues e-commerce, etc. En effet, les données partagées doivent pouvoir être mises à jour en parallèle par différents pairs. Les premiers systèmes P2P existants supposent que les données sont statiques et n'intègrent aucun mécanisme de gestion des mises à jour et de réplication. Une mise à jour d'une donnée par le pair qui la possède implique une nouvelle version non propagée à ceux répliquant cette donnée. Cela résulte en diverses versions sous le même identifiant et l'utilisateur accède à celle stockée par le pair qu'il contacte. Aucune forme de cohérence entre les répliques n'est alors garantie. Le défi est gérer la cohérence éventuelle face au dynamisme des pairs tout en passant à l'échelle.

APA, Harvard, Vancouver, ISO, and other styles

41

Triki, Salah. "Sécurisation des entrepôts de données : de la conception à l’exploitation." Thesis, Lyon 2, 2013. http://www.theses.fr/2013LYO22026.

Full text

Abstract:

Les entrepôts des données centralisent des données critiques et sensibles qui sont nécessaires pour l'analyse et la prise de décisions. La centralisation permet une gestion efficace et une administration aisée, par contre de point de vu sécurité, centraliser les données critiques dans un seul endroit ; l'entrepôt de données, attire la convoitise des pirates. En 2011 par exemple, les entreprises SONY et RSA, ont été victime d'attaques qui ont engendré des pertes considérables. En plus, les entreprises sont de plus en plus dépendantes des entrepôts des données du faite qu'ils génèrent de plus en plus de données. Le cabinet d'analyse IDC indique que les quantités des données générées par les entreprise sont en train d'exploser et que en 2015, la quantité des données atteindra 8 billion TB. La sécurisation des entrepôts de données est donc primordiale. Dans ce contexte, nos travaux de thèse consiste a proposer une architecture pour la sécurisation des entrepôts de données de la conception à l'exploitation. Au niveau conceptuel, nous proposons un profil UML pour la définition des autorisations et les niveaux de sensibilités des données, une méthode pour la prévention des inférences, et des règles pour analyser la cohérence des autorisations. Au niveau exploitation, une méthode pour renforcer les autorisations définis au niveau conception, une méthode pour la prévention des inférences, une méthode pour respecter les contraintes d'additivités.Afin de valider l'architecture que nous proposons et montrer son applicabilité, nous l'avons tester le benchmark Star Schema Benchmark
Companies have to make strategic decisions that involve competitive advantages. In the context of decision making, the data warehouse concept has emerged in the nineties. A data warehouse is a special kind of database that consolidates and historizes data from the operational information system of a company. Moreover, a company's data are proprietary and sensitive and should not be sold without controls. Indeed, some data are personal and may harm their owners when they are disclosed, for example, medical data, religious or ideological beliefs. Thus, many governments have enacted laws to protect the private lives of their citizens. Faced with these laws, organizations are, therefore, forced to implement strict security measures to comply with these laws. Our work takes place in the context of secure data warehouses that can be addressed at two levels: (i) design that aims to develop a secure data storage level, and (ii) operating level, which aims to strengthen the rights access / user entitlements, and any malicious data to infer prohibited from data it has access to user banned. For securing the design level, we have made three contributions. The first contribution is a specification language for secure storage. This language is a UML profile called SECDW+, which is an extended version of SECDW for consideration of conflicts of interest in design level. SECDW is a UML profile for specifying some concepts of security in a data warehouse by adopting the standard models of RBAC security and MAC. Although SECDW allows the designer to specify what role has access to any part of the data warehouse, it does not take into account conflicts of interest. Thus, through stereotypes and tagged values , we extended SECDW to allow the definition of conflict of interest for the various elements of a multidimensional model. Our second contribution, at this level, is an approach to detect potential inferences from conception. Our approach is based on the class diagram of the power sources to detect inferences conceptual level. Note that prevention inferences at this level reduces the cost of administering the OLAP server used to manage access to a data warehouse. Finally, our third contribution to the design of a secure warehouse consists of rules for analyzing the consistency of authorizations modeled. As for safety operating level, we proposed: an architecture for enhancing the permissions for configuration, a method for the prevention of inferences, and a method to meet the constraints of additive measures. The proposed architecture adds to system access control, typically present in any secure DBMS, a module to prevent inferences. This takes our security methods against inferences and respect for additivity constraints. Our method of preventing inferences operates for both types of inferences: precise and partial. For accurate inferences, our method is based on Bayesian networks. It builds Bayesian networks corresponding to user queries using the MAX and MIN functions, and prohibits those that are likely to generate inferences. We proposed a set of definitions to translate the result of a query in Bayesian networks. Based on these definitions, we have developed algorithms for constructing Bayesian networks to prohibit those that are likely to generate inferences. In addition, to provide a reasonable response time needed to deal with the prevention treatment, we proposed a technique for predicting potential applications to prohibit. The technique is based on the frequency of inheritance queries to determine the most common query that could follow a request being processed. In addition to specific inferences (performed through queries using the MIN and MAX functions), our method is also facing partial inferences made through queries using the SUM function. Inspired by statistical techniques, our method relies on the distribution of data in the warehouse to decide to prohibit or allow the execution of queries

APA, Harvard, Vancouver, ISO, and other styles

42

Teste, Olivier. "Modélisation et manipulation d'entrepôts de données complexes et historisées." Phd thesis, Université Paul Sabatier - Toulouse III, 2000. http://tel.archives-ouvertes.fr/tel-00088986.

Full text

Abstract:

Le mémoire de cette thèse traite de la modélisation conceptuelle et de la manipulation des données (par des algèbres) dans les systèmes d'aide à la décision. Notre thèse repose sur la dichotomie de deux espaces de stockage : l'entrepôt de données regroupe les extraits des bases sources utiles pour les décideurs et les magasins de données sont déduits de l'entrepôt et dédiés à un besoin d'analyse particulier.
Au niveau de l'entrepôt, nous définissons un modèle de données permettant de décrire l'évolution temporelle des objets complexes. Dans notre proposition, l'objet entrepôt intègre des états courants, passés et archivés modélisant les données décisionnelles et leurs évolutions. L'extension du concept d'objet engendre une extension du concept de classe. Cette extension est composée de filtres (temporels et d'archives) pour construire les états passés et archivés ainsi que d'une fonction de construction modélisant le processus d'extraction (origine source). Nous introduisons également le concept d'environnement qui définit des parties temporelles cohérentes de tailles adaptées aux exigences des décideurs. La manipulation des données est une extension des algèbres objet prenant en compte les caractéristiques du modèle de représentation de l'entrepôt. L'extension se situe au niveau des opérateurs temporels et des opérateurs de manipulation des ensembles d'états.
Au niveau des magasins, nous définissons un modèle de données multidimensionnelles permettant de représenter l'information en une constellation de faits ainsi que de dimensions munies de hiérarchies multiples. La manipulation des données s'appuie sur une algèbre englobant l'ensemble des opérations multidimensionnelles et offrant des opérations spécifiques à notre modèle. Nous proposons une démarche d'élaboration des magasins à partir de l'entrepôt.
Pour valider nos propositions, nous présentons le logiciel GEDOOH (Générateur d'Entrepôts de Données Orientées Objet et Historisées) d'aide à la conception et à la création des entrepôts dans le cadre de l'application médicale REANIMATIC.

APA, Harvard, Vancouver, ISO, and other styles

43

Cury, Alexandre. "Techniques d'anormalité appliquées à la surveillance de santé structurale." Phd thesis, Université Paris-Est, 2010. http://tel.archives-ouvertes.fr/tel-00581772.

Full text

Abstract:

Le paradigme de la surveillance de santé structurale repose sur l'introduction d'indicateurs fiables et robustes permettant de détecter, localiser, quantifier et prédire un endommagement de manière précoce. En effet, la détection d'une modification structurale susceptible de devenir critique peut éviter l'occurrence de dysfonctionnements majeurs associés à des conséquences sociales, économiques et environnementales très importantes.Ces dernières années, de nombreuses recherches se fait de l'évaluation dynamique un élément de diagnostic. La plupart des méthodes reposent sur une analyse temporelle ou fréquentielle des signaux pour en extraire une information compressée au travers de quelques caractéristiques modales ou d'indicateurs évolués construits sur ces caractéristiques. Ces indicateurs ont montré leur efficacité, mais le problème de leur sensibilité, de la nécessité de disposer d'un état de référence, et de leur fiabilité en terme de la probabilité de détection et de fausses alarmes, reste entier. De plus, le fait d'utiliser des mesures dynamiques (particulièrement si plusieurs voies de mesures sont considérées) mène au stockage de grands volumes de données.Dans ce contexte, il est important d'employer des techniques permettant d'utiliser autant des données brutes que les propriétés modales de manière pratique et pertinente. Pour cela, des représentations adaptées ont été développées pour améliorer la manipulation et le stockage des données. Ces représentations sont connues sous le nom de og données symboliques fg . Elles permettent de caractériser la variabilité et l'incertitude qui entachent chacune des variables. Le développement de nouvelles méthodes d'analyse adéquates pour traiter ces données est le but de l'Analyse de Données Symboliques (ADS).L'objectif de cette thèse est double : le premier consiste à utiliser différentes méthodes couplées à l'ADS pour détecter un endommagement structural. L'idée est d'appliquer des procédures de classification non supervisée (e.g. divisions hiérarchiques, agglomérations hiérarchiques et nuées dynamiques) et supervisée (e.g., arbres de décision Bayésiens, réseaux de neurones et machines à vecteurs supports) afin de discriminer les différents états de santé d'une structure. Dans le cadre de cette thèse, l'ADS est appliquée aux mesures dynamiques acquises emph{in situ} (accélérations) et aux paramètres modaux identifiés. Le deuxième objectif est la compréhension de l'impact des effets environnementaux, notamment de ceux liés à la variation thermique, sur les paramètres modaux. Pour cela, des techniques de régression des données sont proposées.Afin d'évaluer la pertinence des démarches proposées, des études de sensibilité sont menées sur des exemples numériques et des investigations expérimentales. Il est montré que le couplage de l'ADS aux méthodes de classification de données permet de discriminer des états structuraux avec un taux de réussite élevé. Par ailleurs, la démarche proposée permet de vérifier l'importance d'utiliser des techniques permettant de corriger les propriétés modales identifiées des effets thermiques, afin de produire un processus de détection d'endommagements efficace

APA, Harvard, Vancouver, ISO, and other styles

44

Tremblay, Bénédicte L. "Analyse intégrée des données omiques dans l'impact de l'alimentation sur la santé cardiométabolique." Doctoral thesis, Université Laval, 2021. http://hdl.handle.net/20.500.11794/69041.

Full text

Abstract:

Au Canada, les maladies cardiovasculaires (MCV) sont la deuxième cause de mortalité après le cancer, et l'une des principales causes d'hospitalisation. La prise en charge des individus souffrant de MCV repose sur l'évaluation et le traitement de plusieurs facteurs de risque cardiométabolique, lesquels comprennent le syndrome métabolique, l'activité physique et l'alimentation. L'adoption de saines habitudes de vie, incluant notamment une alimentation équilibrée, demeure la pierre angulaire de la prévention des MCV. En effet, une alimentation riche en fruits et légumes est inversement reliée à l'incidence de MCV. Les biomarqueurs d'exposition à la diète permettent par ailleurs d'étudier l'impact des facteurs alimentaires sur le développement des MCV. Les caroténoïdes plasmatiques, qui sont des biomarqueurs de la consommation de fruits et de légumes, sont associés à la santé cardiométabolique. L'alimentation influence en plus une multitude de facteurs omiques, modulant ainsi le risque de MCV. Les sciences omiques étudient l'ensemble complexe des molécules qui composent le corps. Parmi ces sciences, la génomique, l'épigénomique, la transcriptomique et la métabolomique s'intéressent respectivement à l'étude à grande échelle des gènes, de la méthylation de l'ADN, de l'expression génique et des métabolites. Étant donné qu'un seul type de données omiques ne permet généralement pas de saisir la complexité des processus biologiques, une approche intégrative combinant plusieurs données omiques s'avère idéale afin de déchiffrer la physiopathologie des traits complexes. La biologie des systèmes étudie les interactions complexes des différentes données omiques entre elles, et avec l'environnement ainsi que leur influence sur un trait d'intérêt, tel que la santé. Il existe plusieurs méthodes pour analyser et intégrer des données omiques. La génétique quantitative permet d'estimer les contributions des effets génétiques et environnementaux dans la variance de traits complexes. L'analyse de réseaux de corrélations pondérées permet de mettre en relation un grand nombre de données omiques interreliées avec un trait, comme par exemple un ensemble de facteurs de risque de maladies complexes. L'objectif général de cette thèse est d'étudier l'impact des déterminants omiques sur la relation entre l'alimentation et la santé cardiométabolique. Le premier objectif spécifique, utilisant une approche de la génétique quantitative, est de caractériser l'héritabilité des données omiques et des caroténoïdes plasmatiques ainsi que de vérifier si le lien avec des facteurs de risque cardiométabolique peut être expliqué par des facteurs génétiques et environnementaux. Le deuxième objectif spécifique, utilisant une approche de réseaux de corrélations pondérées, est d'évaluer le rôle des données omiques individuelles et combinées dans la relation entre les caroténoïdes plasmatiques et le profil lipidique. Ce projet de doctorat repose sur l'étude observationnelle GENERATION qui comprend 48 sujets en bonne santé répartis en 16 familles. Toutes les données omiques étudiées et les caroténoïdes plasmatiques ont démontré iii des ressemblances familiales dues, à des degrés divers, à l'effet de la génétique et de l'environnement partagé. La génétique et l'environnement sont également impliqués dans le lien entre la méthylation de l'ADN et l'expression génique ainsi qu'entre les métabolites, les caroténoïdes et les facteurs de risque cardiométabolique. L'utilisation de réseaux de corrélations pondérées a en outre permis de mieux comprendre le système moléculaire interactif qui relie les caroténoïdes, la méthylation de l'ADN, l'expression génique et le profil lipidique. En conclusion, ces travaux basés sur des données omiques individuelles et combinées analysées dans des approches de la génétique quantitative et de réseaux de corrélations pondérées ont mis en lumière la relation entre l'alimentation et la santé cardiométabolique.
After cancer, cardiovascular disease (CVD) is the second leading cause of death and one of the leading causes of hospitalization in Canada. CVD management is based on the assessment and treatment of several cardiometabolic risk factors, which include metabolic syndrome, physical activity, and diet. A healthy lifestyle, including a balanced diet, remains the key to prevent CVD. A diet rich in fruits and vegetables is inversely associated with CVD incidence. Biomarkers of exposure to diet are used to study the impact of dietary factors on the development of CVD. Plasma carotenoids, a biomarker of fruit and vegetable consumption, are associated with cardiometabolic health. Diet also influences a myriad of omics factors, thus modulating CVD risk. Omics sciences study the complex set of molecules that make up the body. Among these sciences, genomics, epigenomics, transcriptomics, and metabolomics consider the large-scale study of genes, DNA methylation, gene expression, and metabolites, respectively. Given that a single type of omics data usually does not capture the complexity of biological processes, an integrative approach combining multiple omics data proves ideal to elucidate the pathophysiology of diseases. Systems biology studies the complex interactions of different omics data among themselves and with the environment on a trait such as health. There are several methods for analyzing and integrating omics data. Quantitative genetics estimates the contributions of genetic and environmental effects to the variance of complex traits such as omics data. Weighted correlation network analysis allows the association of a large number of omics data with a trait such as risk factors for diseases. The general objective of this thesis is to study the impact of omics determinants in the link between diet and cardiometabolic health. The first specific objective, using a quantitative genetics approach, is to characterize the heritability of omics data and plasma carotenoids as well as to check if their link with cardiometabolic risk factors can be explained by genetic and environmental factors. The second specific objective, using a weighted correlation network approach, is to assess the role of individual and combined omics data in the relationship between plasma carotenoids and lipid profile. This project is based on the GENERATION observational study, which includes 48 healthy subjects from 16 families. All omics data studied showed familial resemblances due, to varying degrees, to genetic and common environmental effects. Genetics and environment are also involved in the link between DNA methylation and gene expression, as well as between metabolites, carotenoids, and cardiometabolic risk factors. Moreover, weighted correlation network analysis has provided insight into the interactive molecular system that links carotenoids, DNA methylation, gene expression, and lipid profile. In conclusion, the present study, using approaches from quantitative genetics and weighted correlation network analysis, brought to light the impact of some individual and combined omics data in the link between diet and cardiometabolic health

APA, Harvard, Vancouver, ISO, and other styles

45

Evans, David. "L'estimation des effets des interventions de santé publique à partir des données observationnelles." Paris 6, 2013. http://www.theses.fr/2013PA066694.

Full text

Abstract:

The work in this thesis considered the ways in which epidemiological analyses could be more directly informative for the design of policy and interventions in public health. For this, we proposed features of “policy-“ or “intervention-focused” epidemiological analyses, identified the methodological principles which these implied, and developed them in two research articles. In the first article, we focused on directed acyclic graphs (DAGs) as a means of showing assumptions about variable relationships, leading to a new approach to adjustment-variable selection which combined DAGs with a statistical selection method (change-in-estimate procedure). In the second article, we estimated the relationship between the number of peritoneal dialysis patients treated in a centre (“volume”) and patient outcomes in France, using DAGs to describe the data-generating context, assumptions about mechanisms, and adjustment-variable choices; applying probabilistic sensitivity analysis; and estimating the effects of plausible interventions to change centre volume. A standard analysis gave a strongly protective volume effect for transfer to haemodialysis, but the “policy-focused” analysis gave only modest-to-small predicted positive effects. Overall, this work raised several conceptual and technical questions which provide ample opportunity for further research
Dans cette thèse, nous nous sommes intéressés à la façon de mener une analyse épidémiologique afin de la rendre plus directement informative pour la prise de décision politique et pour la conceptualisation des interventions. Cette approche nous a amené à privilégier certains principes et approches méthodologiques qui ont connu des avancées conceptuelles et techniques récentes. Ces approches ont été explorées et développées dans les deux articles publiés dans le cadre de cette thèse. Dans le premier article, nous avons proposé une approche de sélection des variables d’ajustement dans une analyse épidémiologique qui combine les hypothèses a priori encodées dans un GAO avec une méthode de sélection de covariables, en l’occurrence la procédure dite de « changement de l’estimation d’effet ». Dans le deuxième article, nous avons estimé l’association entre le nombre de patients traités par la dialyse péritonéale dans un centre et les résultats du traitement, en utilisant les GAO pour présenter les hypothèses et pour justifier le choix de variables d’ajustement, une analyse de sensibilité probabiliste et une estimation des effets des interventions pour changer le nombre de patients traités dans les centres. Dans l’analyse standard, il y avait une association protectrice entre le nombre de patients traités et le risque de transfert en hémodialyse ; dans l’analyse centrée sur la politique, l’effet était toujours protecteur mais d’une moindre importance. Ce travail a soulevé plusieurs questions conceptuelles et techniques qui pourraient être le sujet des recherches futures

APA, Harvard, Vancouver, ISO, and other styles

46

Taiello, Riccardo. "Apprentissage automatique sécurisé pour l'analyse collaborative des données de santé à grande échelle." Electronic Thesis or Diss., Université Côte d'Azur, 2024. http://www.theses.fr/2024COAZ4031.

Full text

Abstract:

Cette thèse de doctorat explore l'intégration de la préservation de la confidentialité, de l'imagerie médicale et de l'apprentissage fédéré (FL) à l'aide de méthodes cryptographiques avancées. Dans le cadre de l'analyse d'images médicales, nous développons un cadre de recalage d'images préservant la confidentialité (PPIR). Ce cadre aborde le défi du recalage des images de manière confidentielle, sans révéler leur contenu. En étendant les paradigmes de recalage classiques, nous incorporons des outils cryptographiques tels que le calcul multipartite sécurisé et le chiffrement homomorphe pour effectuer ces opérations en toute sécurité. Ces outils sont essentiels car ils empêchent les fuites de données pendant le traitement. Étant donné les défis associés à la performance et à l'évolutivité des méthodes cryptographiques dans les données de haute dimension, nous optimisons nos opérations de recalage d'images en utilisant des approximations de gradient. Notre attention se porte sur des méthodes de recalage de plus en plus complexes, telles que les approches rigides, affines et non linéaires utilisant des splines cubiques ou des difféomorphismes, paramétrées par des champs de vitesses variables dans le temps. Nous démontrons comment ces méthodes de recalage sophistiquées peuvent intégrer des mécanismes de préservation de la confidentialité de manière efficace dans diverses tâches.Parallèlement, la thèse aborde le défi des retardataires dans l'apprentissage fédéré, en mettant l'accent sur le rôle de l'agrégation sécurisée (SA) dans l'entraînement collaboratif des modèles. Nous introduisons "Eagle", un schéma SA synchrone conçu pour optimiser la participation des dispositifs arrivant tardivement, améliorant ainsi considérablement les efficacités computationnelle et de communication. Nous présentons également "Owl", adapté aux environnements FL asynchrones tamponnés, surpassant constamment les solutions antérieures. En outre, dans le domaine de la Buffered AsyncSA, nous proposons deux nouvelles approches : "Buffalo" et "Buffalo+". "Buffalo" fait progresser les techniques de SA pour la Buffered AsyncSA, tandis que "Buffalo+" contrecarre les attaques sophistiquées que les méthodes traditionnelles ne parviennent pas à détecter. Cette solution exploite les propriétés des fonctions de hachage incrémentielles et explore la parcimonie dans la quantification des gradients locaux des modèles clients. "Buffalo" et "Buffalo+" sont validés théoriquement et expérimentalement, démontrant leur efficacité dans une nouvelle tâche de FL inter-dispositifs pour les dispositifs médicaux.Enfin, cette thèse a accordé une attention particulière à la traduction des outils de préservation de la confidentialité dans des applications réelles, notamment grâce au cadre open-source FL Fed-BioMed. Les contributions concernent l'introduction de l'une des premières implémentations pratiques de SA spécifiquement conçues pour le FL inter-silos entre hôpitaux, mettant en évidence plusieurs cas d'utilisation pratiques
This PhD thesis explores the integration of privacy preservation, medical imaging, and Federated Learning (FL) using advanced cryptographic methods. Within the context of medical image analysis, we develop a privacy-preserving image registration (PPIR) framework. This framework addresses the challenge of registering images confidentially, without revealing their contents. By extending classical registration paradigms, we incorporate cryptographic tools like secure multi-party computation and homomorphic encryption to perform these operations securely. These tools are vital as they prevent data leakage during processing. Given the challenges associated with the performance and scalability of cryptographic methods in high-dimensional data, we optimize our image registration operations using gradient approximations. Our focus extends to increasingly complex registration methods, such as rigid, affine, and non-linear approaches using cubic splines or diffeomorphisms, parameterized by time-varying velocity fields. We demonstrate how these sophisticated registration methods can integrate privacy-preserving mechanisms effectively across various tasks. Concurrently, the thesis addresses the challenge of stragglers in FL, emphasizing the role of Secure Aggregation (SA) in collaborative model training. We introduce "Eagle", a synchronous SA scheme designed to optimize participation by late-arriving devices, significantly enhancing computational and communication efficiencies. We also present "Owl", tailored for buffered asynchronous FL settings, consistently outperforming earlier solutions. Furthermore, in the realm of Buffered AsyncSA, we propose two novel approaches: "Buffalo" and "Buffalo+". "Buffalo" advances SA techniques for Buffered AsyncSA, while "Buffalo+" counters sophisticated attacks that traditional methods fail to detect, such as model replacement. This solution leverages the properties of incremental hash functions and explores the sparsity in the quantization of local gradients from client models. Both Buffalo and Buffalo+ are validated theoretically and experimentally, demonstrating their effectiveness in a new cross-device FL task for medical devices.Finally, this thesis has devoted particular attention to the translation of privacy-preserving tools in real-world applications, notably through the FL open-source framework Fed-BioMed. Contributions concern the introduction of one of the first practical SA implementations specifically designed for cross-silo FL among hospitals, showcasing several practical use cases

APA, Harvard, Vancouver, ISO, and other styles

47

Ravat, Franck. "Modèles et outils pour la conception et la manipulation de systèmes d'aide à la décision." Habilitation à diriger des recherches, Université des Sciences Sociales - Toulouse I, 2007. http://tel.archives-ouvertes.fr/tel-00379779.

Full text

Abstract:

Nos travaux se situent dans le cadre des Systèmes d'Aide à la Décision (SAD). Au début de nos travaux, nous étions en présence de solutions d'ordre technique pour l'alimentation des SAD (vues matérialisées) ainsi que de quelques solutions parcellaires pour la modélisation et les manipulations multidimensionnelles. Durant ces dernières années, notre objectif a été d'offrir une solution globale pour la conception et la manipulation de SAD. Dans un premier temps, nous avons identifié deux espaces de stockage pour les données décisionnelles : un Entrepôt de Données (ED) et des Magasins de Données (MD). Un ED centralise et historise les données issues des sources de production et chaque MD présente les données à un décideur pour faciliter ses prises de décisions.
Pour les ED, notre objectif a été d'apporter des solutions pour la modélisation de l'évolution des données décisionnelles (extension de modèle objet) et pour l'intégration de données textuelles sans en fixer le schéma à priori. Pour les MD, nous avons proposé un modèle multidimensionnel de base avec différentes extensions répondant aux besoins des décideurs. Ces extensions permettent de prendre en compte la gestion d'indicateurs et de données textuelles, l'évolution temporelle (versions), la cohérence des données et de ses analyses (contraintes sémantiques), l'intégration et la capitalisation de l'expertise des décideurs (annotations) ainsi que la personnalisation des schémas multidimensionnels (poids). Ces travaux ont été complétés par la proposition d'une démarche de conception qui présente l'avantage de prendre en compte les besoins des décideurs et les sources de données. Cette démarche permet de modéliser aussi bien l'aspect statique (données décisionnelles) que l'aspect dynamique (processus d'alimentation du SAD).
D'un point de vue manipulation des données, nous avons proposé une algèbre complétée d'un langage graphique orienté décideur et d'un langage déclaratif. Nos propositions ont été validées par la participation à différents projets ainsi que le co-encadrement de 5 thèses de doctorat et le suivi de travaux de plusieurs Master Recherche.

APA, Harvard, Vancouver, ISO, and other styles

48

Ahmad, Houda. "Une approche matérialisée basée sur les vues pour l'intégration de documents XML." Phd thesis, Grenoble 1, 2009. http://www.theses.fr/2009GRE10086.

Full text

Abstract:

Les données semi-structurées occupent une place croissante dans l'évolution du Web par le biais du langag, XML. La gestion de telles données ne s'appuie pas sur un schéma prédéfini, comme dans le cas de données structurées, gérées par exemple par le modèle relationnel. Le schéma de chaque document est auto-contenu dans le document même, et des documents similaires peuvent être représentés par des schémas différents. C'est pourquoi les algorithmes et les techniques d'intégration et d'interrogation de telles sources de données sont souvent plus complexes que ceux définis pour l'intégration et l'interrogation de sources de données structurées. L'objectif de notre travail est l'intégration de données XML en utilisant les principes d'Osiris, un prototype de SGBD¬BC, dont le concept central est celui de vue. Dans ce système, une famille d'objets est définie par une hiérarchie de vues, où chaque vue est définie par ses vues mères, ses attributs et contraintes propres. Osiris appartient à la famille des logiques de description, la vue minimale d'une famille d'objets étant assimilée à un concept primitif et ses autres vues à des concepts défmis. Vn objet d'une famille satisfait certaines de ses vues. Pour chaque famille d'objets, Osiris construit, par analyse des contraintes définies dans toutes ses vues, un espace de classement n-dimensionnel. Cet espace sert de support au classement d'objets et aussi à leur indexation. Dans cette thèse nous avons étudié l'apport des principales fonctionnalités d'Osiris - classement, indexation et optimisation sémantique des requêtes - à l'intégration de documents XML. Pour cela nous produisons un schéma cible (XML schema abstrait), qui représente un schéma Osiris; chaque document satisfaisant un schéma source (XML schema concret) est réécrit en termes du schéma cible avant de subir l'extraction des valeurs de ses entités. Les objets correspondant à ces entités sont alors classés et indexés. Le mécanisme d'optimisation sémantique des requêtes d'Osiris peut dès lors être utilisé pour extraire les objets d'intérêt pour une requête. Nous avons réalisé un prototype, nommé OSIX (Osiris-based System for the Integration ofXML sources) et nous l'avons appliqué à l'intégration et l'interrogation de documents XML simulant les données d'un hôpital
Semi-structured data play an increasing role in the development of the Web through the use ofXML. However, the management of semi-structured data poses specific problems because semi-structured data, contrary to classical databases, do not rely on a predefined schema. The schema of a document is contained in the document itself and similar documents may be represented by different schemas. Consequently, the techniques and algorithms used for querying or integrating this data are more complex than those used for structured data. The objective of our work is the integration of XML data by using the principles of Osiris, a prototype of KB-DBMS, in which views are a central concept. Ln this system, a family of objects is defined by a hierarchy of views, where a view is defined by its parent views and its own attributes and constraints. Osiris belongs to the family of Description Logics; the minimal view of a family of objects is assimilated to a primitive concept and its other views to defined concepts. An object of a family satisfies sorne ofits views. For each family of objects, Osiris builds a n-dimensional classification space by analysing the constraints defined in all of its views. This space is used for object classification and indexation. Ln this the sis we study the contribution of the main features of Osiris - classification, indexation and semantic query optimization - to the integration ofXML documents. For this purpose we produce a target schema (an abstract XML schema), who represents an Osiris schema; every document satisfying a source schema (concrete XML schema) is rewritten in terrns of the target schema before undergoing the extraction of the values ofits entities. The objects corresponding to these entities are then classified and indexed. The Osiris mechanism for semantic query optimization can then be used to extract the objects of interest of a query

APA, Harvard, Vancouver, ISO, and other styles

49

Ahmad, Houda. "Une approche matérialisée basée sur les vues pour l'intégration de documents XML." Phd thesis, Université Joseph Fourier (Grenoble), 2009. http://tel.archives-ouvertes.fr/tel-00957148.

Full text

Abstract:

Les données semi-structurées occupent une place croissante dans l'évolution du Web par le biais du langage XML. La gestion de telles données ne s'appuie pas sur un schéma pré-dé fini, comme dans le cas de données structurées, gérées par exemple par le modèle relationnel. Le schéma de chaque document est auto-contenu dans le document même, et des documents similaires peuvent être représentés par des schémas différents. C'est pourquoi les algorithmes et les techniques d'intégration et d'interrogation de telles sources de données sont souvent plus complexes que ceux défi nis pour l'intégration et l'interrogation de sources de données structurées. L'objectif de notre travail est l'intégration de données XML en utilisant les principes d'Osiris, un prototype de SGBD-BC, dont le concept central est celui de vue. Dans ce système, une famille d'objets est défi nie par une hiérarchie de vues, où chaque vue est défi nie par ses vues mères, ses attributs et contraintes propres. Osiris appartient à la famille des logiques de description, la vue minimale d'une famille d'objets étant assimilée à un concept primitif et ses autres vues à des concepts définis. Un objet d'une famille satisfait certaines de ses vues. Pour chaque famille d'objets, Osiris construit, par analyse des contraintes dé finies dans toutes ses vues, un espace de classement n-dimensionnel. Cet espace sert de support au classement d'objets et aussi à leur indexation. Dans cette thèse nous avons étudié l'apport des principales fonctionnalités d'Osiris - classement, indexation et optimisation sémantique des requêtes à l'intégration de documents XML. Pour cela nous produisons un schéma cible (XML schema abstrait), qui représente un schéma Osiris ; chaque document satisfaisant un schéma source (XML schema concret) est réécrit en termes du schéma cible avant de subir l'extraction des valeurs de ses entités. Les objets correspondant à ces entités sont alors classés et indexés. Le mécanisme d'optimisation sémantique des requêtes d'Osiris peut dès lors être utilisé pour extraire les objets d'intérêt pour une requête. Nous avons réalisé un prototype, nommé OSIX (Osiris-based System for the Integration of XML sources) et nous l'avons appliqué à l'intégration et l'interrogation de documents XML simulant les données d'un hôpital.

APA, Harvard, Vancouver, ISO, and other styles

50

Roatis, Alexandra. "Efficient Querying and Analytics of Semantic Web Data." Thesis, Paris 11, 2014. http://www.theses.fr/2014PA112218/document.

Full text

Abstract:

L'utilité et la pertinence des données se trouvent dans l'information qui peut en être extraite.Le taux élevé de publication des données et leur complexité accrue, par exemple dans le cas des données du Web sémantique autodescriptives et hétérogènes, motivent l'intérêt de techniques efficaces pour la manipulation de données.Dans cette thèse, nous utilisons la technologie mature de gestion de données relationnelles pour l'interrogation des données du Web sémantique.La première partie se concentre sur l'apport de réponse aux requêtes sur les données soumises à des contraintes RDFS, stockées dans un système de gestion de données relationnelles. L'information implicite, résultant du raisonnement RDF est nécessaire pour répondre correctement à ces requêtes.Nous introduisons le fragment des bases de données RDF, allant au-delà de l'expressivité des fragments étudiés précédemment.Nous élaborons de nouvelles techniques pour répondre aux requêtes dans ce fragment, en étendant deux approches connues de manipulation de données sémantiques RDF, notamment par saturation de graphes et reformulation de requêtes.En particulier, nous considérons les mises à jour de graphe au sein de chaque approche et proposerons un procédé incrémental de maintenance de saturation. Nous étudions expérimentalement les performances de nos techniques, pouvant être déployées au-dessus de tout moteur de gestion de données relationnelles.La deuxième partie de cette thèse considère les nouvelles exigences pour les outils et méthodes d'analyse de données, issues de l'évolution du Web sémantique.Nous revisitons intégralement les concepts et les outils pour l'analyse de données, dans le contexte de RDF.Nous proposons le premier cadre formel pour l'analyse d'entrepôts RDF. Notamment, nous définissons des schémas analytiques adaptés aux graphes RDF hétérogènes à sémantique riche, des requêtes analytiques qui (au-delà de cubes relationnels) permettent l'interrogation flexible des données et schémas, ainsi que des opérations d'agrégation puissantes de type OLAP. Des expériences sur une plateforme entièrement implémentée démontrent l'intérêt pratique de notre approche
The utility and relevance of data lie in the information that can be extracted from it.The high rate of data publication and its increased complexity, for instance the heterogeneous, self-describing Semantic Web data, motivate the interest in efficient techniques for data manipulation.In this thesis we leverage mature relational data management technology for querying Semantic Web data.The first part focuses on query answering over data subject to RDFS constraints, stored in relational data management systems. The implicit information resulting from RDF reasoning is required to correctly answer such queries. We introduce the database fragment of RDF, going beyond the expressive power of previously studied fragments. We devise novel techniques for answering Basic Graph Pattern queries within this fragment, exploring the two established approaches for handling RDF semantics, namely graph saturation and query reformulation. In particular, we consider graph updates within each approach and propose a method for incrementally maintaining the saturation. We experimentally study the performance trade-offs of our techniques, which can be deployed on top of any relational data management engine.The second part of this thesis considers the new requirements for data analytics tools and methods emerging from the development of the Semantic Web. We fully redesign, from the bottom up, core data analytics concepts and tools in the context of RDF data. We propose the first complete formal framework for warehouse-style RDF analytics. Notably, we define analytical schemas tailored to heterogeneous, semantic-rich RDF graphs, analytical queries which (beyond relational cubes) allow flexible querying of the data and the schema as well as powerful aggregation and OLAP-style operations. Experiments on a fully-implemented platform demonstrate the practical interest of our approach

APA, Harvard, Vancouver, ISO, and other styles

We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!