Accedi

Bibliografie tematiche / Plan de Gestion de Données / Tesi

Tesi sul tema "Plan de Gestion de Données"

Segui questo link per vedere altri tipi di pubblicazioni sul tema: Plan de Gestion de Données.

Autore: Grafiati

Pubblicato: 7 luglio 2024

Cita una fonte nei formati APA, MLA, Chicago, Harvard e in molti altri stili

Scegli il tipo di fonte:

Vedi i top-50 saggi (tesi di laurea o di dottorato) per l'attività di ricerca sul tema "Plan de Gestion de Données".

Accanto a ogni fonte nell'elenco di riferimenti c'è un pulsante "Aggiungi alla bibliografia". Premilo e genereremo automaticamente la citazione bibliografica dell'opera scelta nello stile citazionale di cui hai bisogno: APA, MLA, Harvard, Chicago, Vancouver ecc.

Puoi anche scaricare il testo completo della pubblicazione scientifica nel formato .pdf e leggere online l'abstract (il sommario) dell'opera se è presente nei metadati.

Vedi le tesi di molte aree scientifiche e compila una bibliografia corretta.

1

Destrieux, Doriane. "Résidus de médicaments d'un cours d'eau urbain : constitution d'une base de données pour la gestion des risques écotoxicologiques". Thesis, Toulouse 3, 2018. http://www.theses.fr/2018TOU30114/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les Résidus de Médicaments (RM) sont des molécules biologiquement actives et leur présence dans l'environnement peut induire des effets sur les écosystèmes. Afin de caractériser l'impact écotoxicologique lié à l'utilisation de ces molécules dans la région toulousaine, 26 RM ont été recherchés dans les eaux usées de deux Stations de Traitement des Eaux Usées (STEU) de la ville de Toulouse et dans le milieu récepteur de leurs rejets, la Garonne. Dans la Garonne, les prélèvements ont été réalisés en amont et en aval des effluents des STEU afin d'étudier l'impact de ces effluents sur le risque associé à la présence de ces RM dans le fleuve. Le risque écotoxicologique potentiel a été évalué en comparant, pour chacun des RM étudiés, les concentrations mesurées in situ (exposition) et les concentrations écotoxiques (danger). Ces comparaisons ont permis la définition de quotient de risque (RQ) en fonction du temps et de l'espace. Les résultats des analyses ont montré que, malgré le fait que la plupart des molécules soient détectées dans la Garonne en amont des rejets des STEU, certains RM ont présenté des concentrations significativement plus importantes dans la Garonne en aval des rejets. Ces résultats soulignent l'impact des effluents toulousains sur le risque associé à la la présence de RM dans la Garonne. Dans le cadre de ces travaux de recherches une base de données (BDD) a été développée qui intègre 1/ des données d'écotoxicité issues de la littérature scientifique (1237 données issues de bio-essais, modélisations et bio-marqueurs et 382 Predicted No Effect Concentrations (PNEC)) ; 2/ des données d'exposition à l'échelle de l'agglomération toulousaine (125 échantillons récoltés). L'étude des RQ, à partir des plus basses PNEC actuellement disponibles dans la BDD, a montré des risques écotoxicologiques potentiels liés à la présence de 7 RM dans la Garonne sur les 26 recherchés. Ces 7 RM sont, dans l'ordre décroissant des pourcentages d'occurrence des risques associés, Carbamazépine (anti-épileptique) (100%), Clarithromycine (100%), Diclofénac (anti-inflammatoires non stéroïdiens (AINS)) (100%), Estrone (hormone sexuelles) (100%), Ofloxacine (antibiotiques) (93%), Ibuprofène (AINS) (62%) et Propranolol (cardiovasculaire) (31%). L'étude des concentrations écotoxiques inclues dans la BDD ont montré des variabilités intramoléculaires importantes. Pour l'évaluation des risques environnementaux (ERE), la réglementation européenne recommande d'utiliser une seule donnée d'écotoxicité pour définir le seuil toxique requis pour l'ERE (PNEC). Ces variabilités intramoléculaires démontrent que le déploiement de la démarche proposée par la réglementation pour l'ERE peut générer une sous-estimation des risques écotoxicologiques. De plus, la variabilité temporelle des données d'exposition engendre, pour les 7 RM identifiés comme potentiellement dangereux, 1/ l'alternance des périodes à risque et à non risque pour le Ibuprofène, Ofloxacine et Propranolol; 2/ des risques avérés quelle que soit la période considérée pour la Carbamazépine, Clarithromycine, Diclofénac et Estrone. Ces résultats suggèrent que, la variabilité des concentrations, qu'elles soient prédites (PEC) ou mesurées (MEC), doit être prise en compte pour mesurer l'impact de la présence de RM sur les écosystèmes aquatiques. Avec un meilleur accès aux soins de santé et une population vieillissante menant à une poly-médication, la production, l'utilisation et l'élimination des produits pharmaceutiques devraient augmenter. De par le rôle des médicaments dans la santé publique et les impacts potentiels sur les écosystèmes, cette problématique associée à la présence de RM dans les milieux aquatiques doit être prise en charge par une action concertée afin de prévenir, réduire et gérer l'introduction des RM dans l'environnement
Drug residues (DR) are biologically active molecules and their environmental occurrence can produce negatives effects on the ecosystems. In order to identify the ecotoxicological impact linked to their use in the Toulouse area, 26 DR were searched in two waste water treatment plant (WWTP) of Toulouse, inlet and outlet, and into the natural water receiving the WWTP releases, the Garonne river. In the Garonne river, sampling were carried out upstream and downstream of WWTP outlets in order to study impact of their releases on the ecotoxicological risks linked to the DR occurrence in the river. Ecotoxicological risks were estimated with the ratio between measured environmental concentrations (exposure) and environmental hazard threshold (hazard) for each drug. These ratios allowed to define hazard quotients (HQ) according to time and space. Despite the fact that most of DR were detected in the Garonne upstream of WWTP releases, some of them showed significant greater concentrations downstream the WWTP releases. For these last ones, results highlight that WWTP releases are responsible for the ecotoxicological risks linked to the presence of DR in the Garonne river. As part of this study, a database was made, including 1/ ecotoxicity data coming from scientific literature (1237 data provided from bioassays, modellings and biomarkers and 382 Predicted No Effect Concentrations (PNEC)); 2/ exposition data from Toulouse city (125 collected samplings). Since the lowest PNEC available in the database, the HQ study showed ecotoxicological risks linked to the occurrence of 7 DR in the Garonne among the 26 searched. In the decreasing order of the risks percentage occurrence, these 7 DR are Carbamazepine (antiepileptic) (100%), Clarithromycin (antibiotic) (100%), Diclofenac (non-steroidal anti-inflammatory drug (NSAID)) (100%), Estrone (sexual hormone) (100%), Ofloxacin (antibiotic) (93%), Ibuprofen (NSAID) (62%) and Propranolol (cardiovascular) (31%). The ecotoxicity concentrations integrated in the database showed important intra-molecular variabilities. For environmental risk assessment (ERA), european regulation recommends to use only one ecotoxicity data to define the environmental threshold required for the ERA (PNEC). These intra-molecular variabilities demonstrate that implementation of the ERA process proposed by regulation could create under-estimations of the ecotoxicological risks. Moreover, exposure data temporel variability for the 7 DR identified as potentially hazardous causes 1/ alternation of risked and non-risked periods for Ibuprofen, Ofloxacin and Propranolol; 2/ proven risks whatever the considered period for Carbamazepine, Clarithromycin, Diclofenac and Estrone. These results suggest that concentrations variability, whether predicted (PEC) or measured (MEC), should be taken into account to assess the DR impact on the aquatics ecosystems. With better access to health care and an ageing population leading to a multiple medication, the production, the use and the pharmaceuticals elimination should increase. Because of their role in the public health and their potential impact on the ecosystems, the presence of DR in the aquatic environments is an issue that should be taken in hand by a concerted action in order to prevent, reduce and manage DR release in the environment

2

Verriez, Quentin. "Rationaliser les pratiques numériques en archéologie : l'exemple des chantiers de fouilles de Bibracte". Electronic Thesis or Diss., Bourgogne Franche-Comté, 2023. http://www.theses.fr/2023UBFCH035.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Cette thèse explore la transition vers une archéologie numérique et ouverte. Elle se penche sur la faisabilité d'une fouille archéologique basée sur des logiciels libres, produisant des données transparentes, structurées et aux formats ouverts. Ces vingt dernières années correspondent en effet à une intensification majeure des usages de technologies numériques en archéologie, impactant la collecte, le traitement, la gestion, la conservation et la diffusion des données. L'approche de la science ouverte offre alors les solutions pour contrôler, exploiter et assurer la conservation de ces nouvelles données. Prenant pour cadre d'expérimentation quatre années de fouilles sur l'oppidum de Bibracte, ce travail examine ainsi les défis d'aligner la production de données sur les principes de la science ouverte, dès la phase de terrain. Il cherche également à sortir des considérations techniques pour éclairer les effets de l'archéologie numérique sur l'utilisateur et son environnement. Ce projet souhaite ainsi contribuer à la modernisation des méthodes archéologiques, en développant des pratiques numériques qui prennent en considération les objectifs des archéologues sur le terrain, en plus d'inscrire leur démarche dans un processus de maîtrise, de partage et de pérennisation de la connaissance archéologique
The thesis examines the move to open, digital archaeology. It investigates the feasibility of free software-based archaeological excavations producing transparent, structured data in open formats. Over the past two decades, the integration of digital technologies in the field of archaeology has increased considerably, affecting the collection, processing, management, preservation and dissemination of data. The open science approach offers solutions for the management, use and protection of this new type of data. This study uses a four-year excavation of the Bibracte Oppidum as a framework to test how open science principles can guide data production during fieldwork. Moreover, it aims to offer insights into the impacts of digital archaeology on its users and surroundings beyond technical concerns. The project aims to modernise archaeological methods by developing digital practices that consider fieldworkers' objectives and integrate their approach into a process of mastering, sharing and preserving archaeological knowledge

3

Saif, Abdulqawi. "Experimental Methods for the Evaluation of Big Data Systems". Electronic Thesis or Diss., Université de Lorraine, 2020. http://www.theses.fr/2020LORR0001.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

À l’ère du big data, de nombreux systèmes et applications sont créés pour collecter, stocker et analyser des données volumineuses dans des domaines divers. Bien que les systèmes big data fassent l’objet de multiples évaluations au cours de leur cycle de développement, les secteurs de recherches public et privé encouragent les chercheurs à faire des expérimentations supplémentaires afin d’assurer la qualité de leurs services et comprendre leur performance dans des contextes et des configurations variées. Cependant, les défis expérimentaux des systèmes big data ne sont pas triviaux. Alors que de nombreux travaux de recherche utilisent encore de vieilles méthodes expérimentales pour faire face à de tels défis, nous pensons que l’activité d’expérimentation peut être améliorée en proposant des méthodes expérimentales flexibles et à jour. Dans cette thèse, nous abordons des défis particuliers pour améliorer le contexte expérimental et l’observabilité des expériences big data. Premièrement, nous permettons la personnalisation de la performance de ressources environnementales où les expériences s’exécutent, en encourageant les chercheurs à effectuer des expériences à l’échelle sur des configurations hétérogènes. Nous contribuons ensuite aux outils expérimentaux IOscope et MonEx pour améliorer l’observabilité. IOscope permet d’effectuer des observations de bas niveau sur la pile d’entrée/sortie afin de détecter d’éventuels problèmes de performance sur l’environnement d’exécution. IOscope est développé pour convaincre que les techniques d’évaluation de haut niveau doivent être accompagnées par ces outils complémentaires afin de comprendre la performance. En revanche, le framework MonEx fonctionne aux niveaux supérieurs pour faciliter la collecte de données expérimentales. MonEx est le premier outil qui fait du monitoring autour des expériences indépendamment des environnements expérimentaux sous-jacents. Nous appliquons enfin des statistiques pour améliorer les conceptions expérimentales, en réduisant le nombre de scénarios expérimentaux et en obtenant un ensemble raffiné de facteurs expérimentaux aussi rapidement que possible. Enfin, toutes les contributions se complètent pour faciliter l’activité d’expérimentation en travaillant sur presque toutes les phases du cycle de vie des expériences big data
In the era of big data, many systems and applications are created to collect, to store, and to analyze massive data in multiple domains. Although those – big data systems – are subjected to multiple evaluations during their development life-cycle, academia and industry encourage further experimentation to ensure their quality of service and to understand their performance under various contexts and configurations. However, the experimental challenges of big data systems are not trivial. While many pieces of research still employ legacy experimental methods to face such challenges, we argue that experimentation activity can be improved by proposing flexible experimental methods. In this thesis, we address particular challenges to improve experimental context and observability for big data experiments. We firstly enable experiments to customize the performance of their environmental resources, encouraging researchers to perform scalable experiments over heterogeneous configurations. We then introduce two experimental tools: IOscope and MonEx to improve observability. IOscope allows performing low-level observations on the I/O stack to detect potential performance issues in target systems, convincing that the high-level evaluation techniques should be accompanied by such complementary tools to understand systems’ performance. In contrast, MonEx framework works on higher levels to facilitate experimental data collection. MonEx opens directions to practice experiment-based monitoring independently from the underlying experimental environments. We finally apply statistics to improve experimental designs, reducing the number of experimental scenarios and obtaining a refined set of experimental factors as fast as possible. At last, all contributions complement each other to facilitate the experimentation activity by working almost on all phases of big data experiments’ life-cycle

4

Fanton, Pierre. "Edmes : un systeme expert pour la gestion et la conception de plans d'experiences en photo-lithographie". Grenoble INPG, 1994. http://www.theses.fr/1994INPG0163.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Ce travail a pour but de demontrer l'interet d'un systeme expert pour la gestion de plans d'experiences, en micro-lithographie, et de concevoir et realiser un tel systeme. Le premier chapitre presente la micro-lithographie en explicitant son role dans la fabrication des circuits integres, et sa sensibilite a un grand nombre de facteurs. Ce chapitre met en evidence la necessite d'un outil pour minimiser le cout de mise au point des nouveaux procedes. Cet outil s'appuie sur la technique des plans d'experiences. Les chapitres deux et trois sont consacres a la description de cette technique et font apparaitre le besoin d'un systeme informatique capable de gerer les plans d'experiences en micro-lithographie. Ce systeme comprend une base de donnees destinee a stocker les informations recueillies sur les procedes, un systeme expert qui aide l'utilisateur a generer et analyser un plan d'experiences, un logiciel d'analyse statistique, et une interface utilisateur. Les resultats des anciens plans sont reutilises par le systeme expert lors de la generation d'un nouveau plan. Une technique de modelisation alternative a la regression polynomiale utilisee habituellement en plans d'experiences est evaluee. Enfin, un algorithme original d'optimisation interactif est presente. Un chapitre de validation est consacre a l'etude du fonctionnement du systeme complet sur des cas reels. L'adaptation de ce systeme a un autre domaine, la micro-gravure, est discutee en conclusion

5

Medina, Marquez Alejandro. "L'analyse des données évolutives". Paris 9, 1985. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=1985PA090022.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

6

Le, Béchec Antony. "Gestion, analyse et intégration des données transcriptomiques". Rennes 1, 2007. http://www.theses.fr/2007REN1S051.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Dans le cadre de l'étude des mécanismes moléculaires impliqués dans les processus biologiques liés aux pathologies, la transcriptomique permet d’étudier l’expression de plusieurs milliers de gènes en une seule expérience. Les standards internationaux permettent actuellement de gérer la grande quantité de données générées par cette technologie et de nombreux algorithmes permettent le traitement et l’analyse des données d’expression. Le grand défi d’aujourd’hui réside dans l’interprétation des données, notamment par l’intégration de connaissances biologiques supplémentaires permettant la création d’un contexte d’étude aidant à la compréhension des mécanismes biologiques. Afin de répondre aux besoins liés à l’exploitation de ces données transcriptomiques, un environnement complet et évolutif a été développé, M@IA (Micro@rray Integrated Application), permettant de gérer les expériences de puces à ADN mais également traiter et analyser les données d’expression. Une méthode de biologie intégrative combinant de multiples sources de données a été conçue pour exploiter des listes de gènes différentiellement exprimés par l’interprétation de réseaux de gènes représentés sous forme de graphes d’interaction. Egalement, une méthode de méta-analyse de données d’expression de gènes issues de la bibliographie a permis de sélectionner et combiner des études similaires associées à la progression tumorale du foie. En conclusion, ces travaux s’intègrent totalement à l’actuel développement de la biologie intégrative, indispensable à la résolution des mécanismes physiopathologiques
Aiming at a better understanding of diseases, transcriptomic approaches allow the analysis of several thousands of genes in a single experiment. To date, international standard initiatives have allowed the utilization of large quantity of data generated using transcriptomic approaches by the whole scientific community, and a large number of algorithms are available to process and analyze the data sets. However, the major challenge remaining to tackle is now to provide biological interpretations to these large sets of data. In particular, their integration with additional biological knowledge would certainly lead to an improved understanding of complex biological mechanisms. In my thesis work, I have developed a novel and evolutive environment for the management and analysis of transcriptomic data. Micro@rray Integrated Application (M@IA) allows for management, processing and analysis of large scale expression data sets. In addition, I elaborated a computational method to combine multiple data sources and represent differentially expressed gene networks as interaction graphs. Finally, I used a meta-analysis of gene expression data extracted from the literature to select and combine similar studies associated with the progression of liver cancer. In conclusion, this work provides a novel tool and original analytical methodologies thus contributing to the emerging field of integrative biology and indispensable for a better understanding of complex pathophysiological processes

7

Maniu, Silviu. "Gestion des données dans les réseaux sociaux". Thesis, Paris, ENST, 2012. http://www.theses.fr/2012ENST0053/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Nous abordons dans cette thèse quelques-unes des questions soulevées par I'émergence d'applications sociales sur le Web, en se concentrant sur deux axes importants: l'efficacité de recherche sociale dans les applications Web et l'inférence de liens sociaux signés à partir des interactions entre les utilisateurs dans les applications Web collaboratives. Nous commençons par examiner la recherche sociale dans les applications de "tag- ging". Ce problème nécessite une adaptation importante des techniques existantes, qui n'utilisent pas des informations sociaux. Dans un contexte ou le réseau est importante, on peut (et on devrait) d'exploiter les liens sociaux, ce qui peut indiquer la façon dont les utilisateurs se rapportent au demandeur et combien de poids leurs actions de "tagging" devrait avoir dans le résultat. Nous proposons un algorithme qui a le potentiel d'évoluer avec la taille des applications actuelles, et on le valide par des expériences approfondies. Comme les applications de recherche sociale peut être considérée comme faisant partie d'une catégorie plus large des applications sensibles au contexte, nous étudions le problème de répondre aux requêtes à partir des vues, en se concentrant sur deux sous-problèmes importants. En premier, la manipulation des éventuelles différences de contexte entre les différents points de vue et une requête d'entrée conduit à des résultats avec des score incertains, valables pour le nouveau contexte. En conséquence, les algorithmes top-k actuels ne sont plus directement applicables et doivent être adaptés aux telle incertitudes dans les scores des objets. Deuxièmement, les techniques adaptées de sélection de vue sont nécessaires, qui peuvent s’appuyer sur les descriptions des requêtes et des statistiques sur leurs résultats. Enfin, nous présentons une approche pour déduire un réseau signé (un "réseau de confiance") à partir de contenu généré dans Wikipedia. Nous étudions les mécanismes pour deduire des relations entre les contributeurs Wikipédia - sous forme de liens dirigés signés - en fonction de leurs interactions. Notre étude met en lumière un réseau qui est capturée par l’interaction sociale. Nous examinons si ce réseau entre contributeurs Wikipedia représente en effet une configuration plausible des liens signes, par l’étude de ses propriétés globaux et locaux du reseau, et en évaluant son impact sur le classement des articles de Wikipedia
We address in this thesis some of the issues raised by the emergence of social applications on the Web, focusing on two important directions: efficient social search inonline applications and the inference of signed social links from interactions between users in collaborative Web applications. We start by considering social search in tagging (or bookmarking) applications. This problem requires a significant departure from existing, socially agnostic techniques. In a network-aware context, one can (and should) exploit the social links, which can indicate how users relate to the seeker and how much weight their tagging actions should have in the result build-up. We propose an algorithm that has the potential to scale to current applications, and validate it via extensive experiments. As social search applications can be thought of as part of a wider class of context-aware applications, we consider context-aware query optimization based on views, focusing on two important sub-problems. First, handling the possible differences in context between the various views and an input query leads to view results having uncertain scores, i.e., score ranges valid for the new context. As a consequence, current top-k algorithms are no longer directly applicable and need to be adapted to handle such uncertainty in object scores. Second, adapted view selection techniques are needed, which can leverage both the descriptions of queries and statistics over their results. Finally, we present an approach for inferring a signed network (a "web of trust")from user-generated content in Wikipedia. We investigate mechanisms by which relationships between Wikipedia contributors - in the form of signed directed links - can be inferred based their interactions. Our study sheds light into principles underlying a signed network that is captured by social interaction. We investigate whether this network over Wikipedia contributors represents indeed a plausible configuration of link signs, by studying its global and local network properties, and at an application level, by assessing its impact in the classification of Wikipedia articles.javascript:nouvelleZone('abstract');_ajtAbstract('abstract')

8

Maniu, Silviu. "Gestion des données dans les réseaux sociaux". Electronic Thesis or Diss., Paris, ENST, 2012. http://www.theses.fr/2012ENST0053.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Nous abordons dans cette thèse quelques-unes des questions soulevées par I'émergence d'applications sociales sur le Web, en se concentrant sur deux axes importants: l'efficacité de recherche sociale dans les applications Web et l'inférence de liens sociaux signés à partir des interactions entre les utilisateurs dans les applications Web collaboratives. Nous commençons par examiner la recherche sociale dans les applications de "tag- ging". Ce problème nécessite une adaptation importante des techniques existantes, qui n'utilisent pas des informations sociaux. Dans un contexte ou le réseau est importante, on peut (et on devrait) d'exploiter les liens sociaux, ce qui peut indiquer la façon dont les utilisateurs se rapportent au demandeur et combien de poids leurs actions de "tagging" devrait avoir dans le résultat. Nous proposons un algorithme qui a le potentiel d'évoluer avec la taille des applications actuelles, et on le valide par des expériences approfondies. Comme les applications de recherche sociale peut être considérée comme faisant partie d'une catégorie plus large des applications sensibles au contexte, nous étudions le problème de répondre aux requêtes à partir des vues, en se concentrant sur deux sous-problèmes importants. En premier, la manipulation des éventuelles différences de contexte entre les différents points de vue et une requête d'entrée conduit à des résultats avec des score incertains, valables pour le nouveau contexte. En conséquence, les algorithmes top-k actuels ne sont plus directement applicables et doivent être adaptés aux telle incertitudes dans les scores des objets. Deuxièmement, les techniques adaptées de sélection de vue sont nécessaires, qui peuvent s’appuyer sur les descriptions des requêtes et des statistiques sur leurs résultats. Enfin, nous présentons une approche pour déduire un réseau signé (un "réseau de confiance") à partir de contenu généré dans Wikipedia. Nous étudions les mécanismes pour deduire des relations entre les contributeurs Wikipédia - sous forme de liens dirigés signés - en fonction de leurs interactions. Notre étude met en lumière un réseau qui est capturée par l’interaction sociale. Nous examinons si ce réseau entre contributeurs Wikipedia représente en effet une configuration plausible des liens signes, par l’étude de ses propriétés globaux et locaux du reseau, et en évaluant son impact sur le classement des articles de Wikipedia
We address in this thesis some of the issues raised by the emergence of social applications on the Web, focusing on two important directions: efficient social search inonline applications and the inference of signed social links from interactions between users in collaborative Web applications. We start by considering social search in tagging (or bookmarking) applications. This problem requires a significant departure from existing, socially agnostic techniques. In a network-aware context, one can (and should) exploit the social links, which can indicate how users relate to the seeker and how much weight their tagging actions should have in the result build-up. We propose an algorithm that has the potential to scale to current applications, and validate it via extensive experiments. As social search applications can be thought of as part of a wider class of context-aware applications, we consider context-aware query optimization based on views, focusing on two important sub-problems. First, handling the possible differences in context between the various views and an input query leads to view results having uncertain scores, i.e., score ranges valid for the new context. As a consequence, current top-k algorithms are no longer directly applicable and need to be adapted to handle such uncertainty in object scores. Second, adapted view selection techniques are needed, which can leverage both the descriptions of queries and statistics over their results. Finally, we present an approach for inferring a signed network (a "web of trust")from user-generated content in Wikipedia. We investigate mechanisms by which relationships between Wikipedia contributors - in the form of signed directed links - can be inferred based their interactions. Our study sheds light into principles underlying a signed network that is captured by social interaction. We investigate whether this network over Wikipedia contributors represents indeed a plausible configuration of link signs, by studying its global and local network properties, and at an application level, by assessing its impact in the classification of Wikipedia articles.javascript:nouvelleZone('abstract');_ajtAbstract('abstract')

9

Benchkron, Said Soumia. "Bases de données et logiciels intégrés". Paris 9, 1985. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=1985PA090025.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

10

Castelltort, Arnaud. "Historisation de données dans les bases de données NoSQLorientées graphes". Thesis, Montpellier 2, 2014. http://www.theses.fr/2014MON20076.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Cette thèse porte sur l'historisation des données dans les bases de données graphes. La problématique des données en graphes existe depuis longtemps mais leur exploitation par des moteurs de système de gestion de bases de données, principalement dans les moteurs NoSQL, est récente. Cette apparition est notamment liée à l'émergence des thématiques Big Data dont les propriétés intrinsèques, souvent décrites à l'aide des propriétés 3V (variété, volume, vélocité), ont révélé les limites des bases de données relationnelles classiques. L'historisation quant à elle, est un enjeu majeur des SI qui a été longtemps abordé seulement pour des raisons techniques de sauvegarde, de maintenance ou plus récemment pour des raisons décisionnelles (suites applicatives de Business Intelligence). Cependant, cet aspect s'avère maintenant prendre une place prédominante dans les applications de gestion. Dans ce contexte, les bases de données graphes qui sont de plus en plus utilisées n'ont que très peu bénéficié des apports récents de l'historisation. La première contribution consiste à étudier le nouveau poids des données historisées dans les SI de gestion. Cette analyse repose sur l'hypothèse selon laquelle les applications de gestion intègrent de plus en plus en leur sein les enjeux d'historisation. Nous discutons ce positionnement au regard de l'analyse de l'évolution des SI par rapport à cette problématique. La deuxième contribution vise, au-delà de l'étude de l'évolution des sytèmes d'information, à proposer un modèle innovant de gestion de l'historisation dans les bases de données NoSQL en graphes. Cette proposition consiste d'une part en l'élaboration d'un système unique et générique de représentation de l'historique au sein des BD NoSQL en graphes et d'autre part à proposer des modes d'interrogation (requêtes). Nous montrons qu'il est possible d'utiliser ce système aussi bien pour des requêtes simples (c'est-à-dire correspondant à ce que l'on attend en première intention d'un système d'historisation~: récupérer les précédentes versions d'une donnée) mais aussi de requêtes plus complexes qui permettent de tirer parti aussi bien de la notion d'historisation que des possibilités offertes par les bases de données graphes (par exemple, la reconnaissance de motifs dans le temps)
This thesis deals with data historization in the context of graphs. Graph data have been dealt with for many years but their exploitation in information systems, especially in NoSQL engines, is recent. The emerging Big Data and 3V contexts (Variety, Volume, Velocity) have revealed the limits of classical relational databases. Historization, on its side, has been considered for a long time as only linked with technical and backups issues, and more recently with decisional reasons (Business Intelligence). However, historization is now taking more and more importance in management applications.In this framework, graph databases that are often used have received little attention regarding historization. Our first contribution consists in studying the impact of historized data in management information systems. This analysis relies on the hypothesis that historization is taking more and more importance. Our second contribution aims at proposing an original model for managing historization in NoSQL graph databases.This proposition consists on the one hand in elaborating a unique and generic system for representing the history and on the other hand in proposing query features.We show that the system can support both simple and complex queries.Our contributions have been implemented and tested over synthetic and real databases

11

Chardonnens, Anne. "La gestion des données d'autorité archivistiques dans le cadre du Web de données". Doctoral thesis, Universite Libre de Bruxelles, 2020. https://dipot.ulb.ac.be/dspace/bitstream/2013/315804/5/Contrat.pdf.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Dans un contexte archivistique en transition, marqué par l'évolution des normes internationales de description archivistique et le passage vers une logique de graphes d'entités, cette thèse se concentre plus spécifiquement sur la gestion des données d'autorité relatives à des personnes physiques. Elle vise à explorer comment le secteur des archives peut bénéficier du développement du Web de données pour favoriser une gestion soutenable de ses données d'autorité :de leur création à leur mise à disposition, en passant par leur maintenance et leur interconnexion avec d'autres ressources.La première partie de la thèse est dédiée à un état de l'art englobant tant les récentes évolutions des normes internationales de description archivistique que le développement de l'écosystème Wikibase. La seconde partie vise à analyser les possibilités et les limites d'une approche faisant appel au logiciel libre Wikibase. Cette seconde partie s'appuie sur une étude empirique menée dans le contexte du Centre d'Études et de Documentation Guerre et Sociétés Contemporaines (CegeSoma). Elle permet de tester les perspectives dont disposent des institutions possédant des ressources limitées et n'ayant pas encore adopté la logique du Web de données. Par le biais de jeux de données relatifs à des personnes liées à la Seconde Guerre mondiale, elle dissèque les différentes étapes conduisant à leur publication sous forme de données ouvertes et liées. L'expérience menée en seconde partie de thèse montre comment une base de connaissance mue par un logiciel tel que Wikibase rationalise la création de données d'autorité structurées multilingues. Des exemples illustrent la façon dont ces entités peuvent ensuite être réutilisées et enrichies à l'aide de données externes dans le cadre d'interfaces destinées au grand public. Tout en soulignant les limites propres à l'utilisation de Wikibase, cette thèse met en lumière ses possibilités, en particulier dans le cadre de la maintenance des données. Grâce à son caractère empirique et aux recommandations qu'elle formule, cette recherche contribue ainsi aux efforts et réflexions menés dans le cadre de la transition des métadonnées archivistiques.
The subject of this thesis is the management of authority records for persons. The research was conducted in an archival context in transition, which was marked by the evolution of international standards of archival description and a shift towards the application of knowledge graphs. The aim of this thesis is to explore how the archival sector can benefit from the developments concerning Linked Data in order to ensure the sustainable management of authority records. Attention is not only devoted to the creation of the records and how they are made available but also to their maintenance and their interlinking with other resources.The first part of this thesis addresses the state of the art of the developments concerning the international standards of archival description as well as those regarding the Wikibase ecosystem. The second part presents an analysis of the possibilities and limits associated with an approach in which the free software Wikibase is used. The analysis is based on an empirical study carried out with data of the Study and Documentation Centre War and Contemporary Society (CegeSoma). It explores the options that are available to institutions that have limited resources and that have not yet implemented Linked Data. Datasets that contain information of people linked to the Second World War were used to examine the different stages involved in the publication of data as Linked Open Data.The experiment carried out in the second part of the thesis shows how a knowledge base driven by software such as Wikibase streamlines the creation of multilingual structured authority data. Examples illustrate how these entities can then be reused and enriched by using external data in interfaces aimed at the general public. This thesis highlights the possibilities of Wikibase, particularly in the context of data maintenance, without ignoring the limitations associated with its use. Due to its empirical nature and the formulated recommendations, this thesis contributes to the efforts and reflections carried out within the framework of the transition of archival metadata.
Doctorat en Information et communication
info:eu-repo/semantics/nonPublished

12

Tos, Uras. "Réplication de données dans les systèmes de gestion de données à grande échelle". Thesis, Toulouse 3, 2017. http://www.theses.fr/2017TOU30066/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Ces dernières années, la popularité croissante des applications, e.g. les expériences scientifiques, Internet des objets et les réseaux sociaux, a conduit à la génération de gros volumes de données. La gestion de telles données qui de plus, sont hétérogènes et distribuées à grande échelle, constitue un défi important. Dans les systèmes traditionnels tels que les systèmes distribués et parallèles, les systèmes pair-à-pair et les systèmes de grille, répondre à des objectifs tels que l'obtention de performances acceptables tout en garantissant une bonne disponibilité de données constituent des objectifs majeurs pour l'utilisateur, en particulier lorsque ces données sont réparties à travers le monde. Dans ce contexte, la réplication de données, une technique très connue, permet notamment: (i) d'augmenter la disponibilité de données, (ii) de réduire les coûts d'accès aux données et (iii) d'assurer une meilleure tolérance aux pannes. Néanmoins, répliquer les données sur tous les nœuds est une solution non réaliste vu qu'elle génère une consommation importante de la bande passante en plus de l'espace limité de stockage. Définir des stratégies de réplication constitue la solution à apporter à ces problématiques. Les stratégies de réplication de données qui ont été proposées pour les systèmes traditionnels cités précédemment ont pour objectif l'amélioration des performances pour l'utilisateur. Elles sont difficiles à adapter dans les systèmes de cloud. En effet, le fournisseur de cloud a pour but de générer un profit en plus de répondre aux exigences des locataires. Satisfaire les attentes de ces locataire en matière de performances sans sacrifier le profit du fournisseur d'un coté et la gestion élastiques des ressources avec une tarification suivant le modèle 'pay-as-you-go' d'un autre coté, constituent des principes fondamentaux dans les systèmes cloud. Dans cette thèse, nous proposons une stratégie de réplication de données pour satisfaire les exigences du locataire, e.g. les performances, tout en garantissant le profit économique du fournisseur. En se basant sur un modèle de coût, nous estimons le temps de réponse nécessaire pour l'exécution d'une requête distribuée. La réplication de données n'est envisagée que si le temps de réponse estimé dépasse un seuil fixé auparavant dans le contrat établi entre le fournisseur et le client. Ensuite, cette réplication doit être profitable du point de vue économique pour le fournisseur. Dans ce contexte, nous proposons un modèle économique prenant en compte aussi bien les dépenses et les revenus du fournisseur lors de l'exécution de cette requête. Nous proposons une heuristique pour le placement des répliques afin de réduire les temps d'accès à ces nouvelles répliques. De plus, un ajustement du nombre de répliques est adopté afin de permettre une gestion élastique des ressources. Nous validons la stratégie proposée par une évaluation basée sur une simulation. Nous comparons les performances de notre stratégie à celles d'une autre stratégie de réplication proposée dans les clouds. L'analyse des résultats obtenus a montré que les deux stratégies comparées répondent à l'objectif de performances pour le locataire. Néanmoins, une réplique de données n'est crée, avec notre stratégie, que si cette réplication est profitable pour le fournisseur
In recent years, growing popularity of large-scale applications, e.g. scientific experiments, Internet of things and social networking, led to generation of large volumes of data. The management of this data presents a significant challenge as the data is heterogeneous and distributed on a large scale. In traditional systems including distributed and parallel systems, peer-to-peer systems and grid systems, meeting objectives such as achieving acceptable performance while ensuring good availability of data are major challenges for service providers, especially when the data is distributed around the world. In this context, data replication, as a well-known technique, allows: (i) increased data availability, (ii) reduced data access costs, and (iii) improved fault-tolerance. However, replicating data on all nodes is an unrealistic solution as it generates significant bandwidth consumption in addition to exhausting limited storage space. Defining good replication strategies is a solution to these problems. The data replication strategies that have been proposed for the traditional systems mentioned above are intended to improve performance for the user. They are difficult to adapt to cloud systems. Indeed, cloud providers aim to generate a profit in addition to meeting tenant requirements. Meeting the performance expectations of the tenants without sacrificing the provider's profit, as well as managing resource elasticities with a pay-as-you-go pricing model, are the fundamentals of cloud systems. In this thesis, we propose a data replication strategy that satisfies the requirements of the tenant, such as performance, while guaranteeing the economic profit of the provider. Based on a cost model, we estimate the response time required to execute a distributed database query. Data replication is only considered if, for any query, the estimated response time exceeds a threshold previously set in the contract between the provider and the tenant. Then, the planned replication must also be economically beneficial to the provider. In this context, we propose an economic model that takes into account both the expenditures and the revenues of the provider during the execution of any particular database query. Once the data replication is decided to go through, a heuristic placement approach is used to find the placement for new replicas in order to reduce the access time. In addition, a dynamic adjustment of the number of replicas is adopted to allow elastic management of resources. Proposed strategy is validated in an experimental evaluation carried out in a simulation environment. Compared with another data replication strategy proposed in the cloud systems, the analysis of the obtained results shows that the two compared strategies respond to the performance objective for the tenant. Nevertheless, a replica of data is created, with our strategy, only if this replication is profitable for the provider

13

Duquet, Mario. "Gestion des données agrométéorologiques pour l'autoroute de l'information". Thesis, National Library of Canada = Bibliothèque nationale du Canada, 2001. http://www.collectionscanada.ca/obj/s4/f2/dsk3/ftp04/MQ61339.pdf.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

14

Rhin, Christophe. "Modélisation et gestion de données géographiques multi-sources". Versailles-St Quentin en Yvelines, 1997. http://www.theses.fr/1997VERS0010.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Le nombre de données géographiques disponibles augmente très rapidement à cause de la multiplication des sources de production et de distribution. Les logiciels dédiés à la gestion des données géographiques doivent donc manipuler de gros volumes de données, dont les structures et les représentations sont différentes. Ces logiciels doivent aussi garantir les mêmes fonctionnalités que les systèmes de gestion de bases de données : sûreté de fonctionnement et accès concurrents. Après avoir montré pourquoi les solutions existantes ne peuvent assurer l'ensemble de ces fonctionnalités, nous proposons d'abord un modèle conceptuel de données adapté aux données géographiques multi-sources. Ensuite nous proposons une architecture logicielle qui s'appuie sur un système de gestion de base de données orienté objet et qui conserve l'évolutivité et l'adaptabilité du modèle conceptuel. Cette architecture permet à la fois de garantir les fonctionnalités de base de données et de fournir des méthodes d'accès performantes. L'efficacité de cette architecture est obtenue grâce à l'intégration d'un index spatial au cœur du sgbdoo, au même niveau que les index standards. Nous étudions en détail le comportement d'un index spatial intègré, pour des requêtes de pointe et pour des requêtes de fenêtrage avec des fenêtres de taille variable. De plus, à travers la comparaison avec les comportements du même index spatial non intègré et d'un index standard du sgbdoo, nous mesurons précisément les gains de performance. Enfin nous décrivons les différentes stratégies possibles pour un interpréteur de requêtes comportant des critères thématiques et des critères spatiaux, afin d'utiliser au mieux les index spatiaux

15

Zelasco, José Francisco. "Gestion des données : contrôle de qualité des modèles numériques des bases de données géographiques". Thesis, Montpellier 2, 2010. http://www.theses.fr/2010MON20232.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les modèles numériques de terrain, cas particulier de modèles numériques de surfaces, n'ont pas la même erreur quadratique moyenne en planimétrie qu'en altimétrie. Différentes solutions ont été envisagées pour déterminer séparément l'erreur en altimétrie et l'erreur planimétrique, disposant, bien entendu, d'un modèle numérique plus précis comme référence. La démarche envisagée consiste à déterminer les paramètres des ellipsoïdes d'erreur, centrées dans la surface de référence. Dans un premier temps, l'étude a été limitée aux profils de référence avec l'ellipse d'erreur correspondante. Les paramètres de cette ellipse sont déterminés à partir des distances qui séparent les tangentes à l'ellipse du centre de cette même ellipse. Remarquons que cette distance est la moyenne quadratique des distances qui séparent le profil de référence des points du modèle numérique à évaluer, c'est à dire la racine de la variance marginale dans la direction normale à la tangente. Nous généralisons à l'ellipsoïde de révolution. C'est le cas ou l'erreur planimétrique est la même dans toutes les directions du plan horizontal (ce n'est pas le cas des MNT obtenus, par exemple, par interférométrie radar). Dans ce cas nous montrons que le problème de simulation se réduit à l'ellipse génératrice et la pente du profil correspondant à la droite de pente maximale du plan appartenant à la surface de référence. Finalement, pour évaluer les trois paramètres d'un ellipsoïde, cas où les erreurs dans les directions des trois axes sont différentes (MNT obtenus par Interférométrie SAR), la quantité des points nécessaires pour la simulation doit être importante et la surface tr ès accidentée. Le cas échéant, il est difficile d'estimer les erreurs en x et en y. Néanmoins, nous avons remarqué, qu'il s'agisse de l'ellipsoïde de révolution ou non, que dans tous les cas, l'estimation de l'erreur en z (altimétrie) donne des résultats tout à fait satisfaisants
A Digital Surface Model (DSM) is a numerical surface model which is formed by a set of points, arranged as a grid, to study some physical surface, Digital Elevation Models (DEM), or other possible applications, such as a face, or some anatomical organ, etc. The study of the precision of these models, which is of particular interest for DEMs, has been the object of several studies in the last decades. The measurement of the precision of a DSM model, in relation to another model of the same physical surface, consists in estimating the expectancy of the squares of differences between pairs of points, called homologous points, one in each model which corresponds to the same feature of the physical surface. But these pairs are not easily discernable, the grids may not be coincident, and the differences between the homologous points, corresponding to benchmarks in the physical surface, might be subject to special conditions such as more careful measurements than on ordinary points, which imply a different precision. The generally used procedure to avoid these inconveniences has been to use the squares of vertical distances between the models, which only address the vertical component of the error, thus giving a biased estimate when the surface is not horizontal. The Perpendicular Distance Evaluation Method (PDEM) which avoids this bias, provides estimates for vertical and horizontal components of errors, and is thus a useful tool for detection of discrepancies in Digital Surface Models (DSM) like DEMs. The solution includes a special reference to the simplification which arises when the error does not vary in all horizontal directions. The PDEM is also assessed with DEM's obtained by means of the Interferometry SAR Technique

16

Cridlig, Vincent. "Sécurité du plan de gestion des réseaux IP". Phd thesis, Université Henri Poincaré - Nancy I, 2006. http://tel.archives-ouvertes.fr/tel-00134670.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Au cours des dernières années, l'évolution rapide des réseaux a provoqué une explosion de la diversité et du nombre des équipements gérés et, par conséquent, du nombre de plateformes de supervision de réseaux. Chacune de ces plateformes induit un environnement de gestion à la fois clos de part la spécificité de son architecture et de son protocole de communication mais également non isolé de part la nature des ressources gérées. En effet, bien qu'hétérogènes, les modèles de données de ces plateformes se recouvrent au moins partiellement. Il s'ensuit un fort problème de sécurité puisque chacune de ces plateformes de supervision met en œuvre sa propre architecture de sécurité avec ses paramètres associés. Le problème apparaît également au sein d'une même plateforme qui autoriserait plusieurs modèles de sécurité ou plusieurs protocoles sous-jacents. Jusqu'à maintenant, il n'y a pas eu de véritable réflexion sur les conséquences de cet environnement et les solutions envisageables. Dans cette thèse, nous proposons des architectures inter-plateformes de distribution automatique des droits d'accès de façon à limiter les différences de permissions et aboutir à une meilleure cohérence des politiques de sécurité. Nous définissons également un modèle de vérification des droits d'accès pour assurer une cohérence locale au sein d'un même équipement. Ce modèle exprime dans un référentiel commun des politiques hétérogènes de façon à en extraire les différences de permissions. Nous avons également étendu le protocole Netconf avec un modèle de contrôle d'accès basé sur les rôles. Cette proposition a été implantée et a donné lieu à étude de l'impact des règles d'accès et des services de sécurité mis en œuvre sur les performances.

17

Sandoval, Gomez Maria Del Rosario. "Conception et réalisation du système de gestion de multibases de données MUSE : architecture de schéma multibase et gestion du catalogue des données". Paris 6, 1989. http://www.theses.fr/1989PA066657.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Durant ces dernieres annees, une nouvelle demarche a ete proposee pour faire face aux problemes poses par l'integration de bases de donnees existantes. C'est la demarche consistant a faire cooperer plusieurs bases sans obligation d'avoir un schema conceptuel global. Elle est connue sous le nom de multibases de donnees. Le systeme que nous presentons, muse, est base sur cette nouvelle demarche. Des questions relatives a l'autonomie des sites et a l'architecture du systeme sont discutees. Dans muse, une multibase se presente comme une collection de base de donnees autonomes et des schemas exportes/importes. Ces schemas sont stockes dans des catalogues d'exportation/importation. Les utilisateurs manipulent les donnees et adressent leurs requetes par moyen du langage d-sql

18

Liroz, Miguel. "Partitionnement dans les systèmes de gestion de données parallèles". Phd thesis, Université Montpellier II - Sciences et Techniques du Languedoc, 2013. http://tel.archives-ouvertes.fr/tel-01023039.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Au cours des dernières années, le volume des données qui sont capturées et générées a explosé. Les progrès des technologies informatiques, qui fournissent du stockage à bas prix et une très forte puissance de calcul, ont permis aux organisations d'exécuter des analyses complexes de leurs données et d'en extraire des connaissances précieuses. Cette tendance a été très importante non seulement pour l'industrie, mais a également pour la science, où les meilleures instruments et les simulations les plus complexes ont besoin d'une gestion efficace des quantités énormes de données.Le parallélisme est une technique fondamentale dans la gestion de données extrêmement volumineuses car il tire parti de l'utilisation simultanée de plusieurs ressources informatiques. Pour profiter du calcul parallèle, nous avons besoin de techniques de partitionnement de données efficaces, qui sont en charge de la division de l'ensemble des données en plusieurs partitions et leur attribution aux nœuds de calculs. Le partitionnement de données est un problème complexe, car il doit prendre en compte des questions différentes et souvent contradictoires telles que la localité des données, la répartition de charge et la maximisation du parallélisme.Dans cette thèse, nous étudions le problème de partitionnement de données, en particulier dans les bases de données parallèles scientifiques qui sont continuellement en croissance. Nous étudions également ces partitionnements dans le cadre MapReduce.Dans le premier cas, nous considérons le partitionnement de très grandes bases de données dans lesquelles des nouveaux éléments sont ajoutés en permanence, avec pour exemple une application aux données astronomiques. Les approches existantes sont limitées à cause de la complexité de la charge de travail et l'ajout en continu de nouvelles données limitent l'utilisation d'approches traditionnelles. Nous proposons deux algorithmes de partitionnement dynamique qui attribuent les nouvelles données aux partitions en utilisant une technique basée sur l'affinité. Nos algorithmes permettent d'obtenir de très bons partitionnements des données en un temps d'exécution réduit comparé aux approches traditionnelles.Nous étudions également comment améliorer la performance du framework MapReduce en utilisant des techniques de partitionnement de données. En particulier, nous sommes intéressés par le partitionnement efficient de données d'entrée

19

Petit, Loïc. "Gestion de flux de données pour l'observation de systèmes". Phd thesis, Université de Grenoble, 2012. http://tel.archives-ouvertes.fr/tel-00849106.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La popularisation de la technologie a permis d'implanter des dispositifs et des applications de plus en plus développés à la portée d'utilisateurs non experts. Ces systèmes produisent des flux ainsi que des données persistantes dont les schémas et les dynamiques sont hétérogènes. Cette thèse s'intéresse à pouvoir observer les données de ces systèmes pour aider à les comprendre et à les diagnostiquer. Nous proposons tout d'abord un modèle algébrique Astral capable de traiter sans ambiguïtés sémantiques des données provenant de flux ou relations. Le moteur d'exécution Astronef a été développé sur l'architecture à composants orientés services pour permettre une grande adaptabilité. Il est doté d'un constructeur de requête permettant de choisir un plan d'exécution efficace. Son extension Asteroid permet de s'interfacer avec un SGBD pour gérer des données persistantes de manière intégrée. Nos contributions sont confrontées à la pratique par la mise en œuvre d'un système d'observation du réseau domestique ainsi que par l'étude des performances. Enfin, nous nous sommes intéressés à la mise en place de la personnalisation des résultats dans notre système par l'introduction d'un modèle de préférences top-k.

20

Liroz-Gistau, Miguel. "Partitionnement dans les Systèmes de Gestion de Données Parallèles". Phd thesis, Université Montpellier II - Sciences et Techniques du Languedoc, 2013. http://tel.archives-ouvertes.fr/tel-00920615.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Au cours des dernières années, le volume des données qui sont capturées et générées a explosé. Les progrès des technologies informatiques, qui fournissent du stockage à bas prix et une très forte puissance de calcul, ont permis aux organisations d'exécuter des analyses complexes de leurs données et d'en extraire des connaissances précieuses. Cette tendance a été très importante non seulement pour l'industrie, mais a également pour la science, où les meilleures instruments et les simulations les plus complexes ont besoin d'une gestion efficace des quantités énormes de données. Le parallélisme est une technique fondamentale dans la gestion de données extrêmement volumineuses car il tire parti de l'utilisation simultanée de plusieurs ressources informatiques. Pour profiter du calcul parallèle, nous avons besoin de techniques de partitionnement de données efficaces, qui sont en charge de la division de l'ensemble des données en plusieurs partitions et leur attribution aux nœuds de calculs. Le partitionnement de données est un problème complexe, car il doit prendre en compte des questions différentes et souvent contradictoires telles que la localité des données, la répartition de charge et la maximisation du parallélisme. Dans cette thèse, nous étudions le problème de partitionnement de données, en particulier dans les bases de données parallèles scientifiques qui sont continuellement en croissance. Nous étudions également ces partitionnements dans le cadre MapReduce. Dans le premier cas, nous considérons le partitionnement de très grandes bases de données dans lesquelles des nouveaux éléments sont ajoutés en permanence, avec pour exemple une application aux données astronomiques. Les approches existantes sont limitées à cause de la complexité de la charge de travail et l'ajout en continu de nouvelles données limitent l'utilisation d'approches traditionnelles. Nous proposons deux algorithmes de partitionnement dynamique qui attribuent les nouvelles données aux partitions en utilisant une technique basée sur l'affinité. Nos algorithmes permettent d'obtenir de très bons partitionnements des données en un temps d'exécution réduit comparé aux approches traditionnelles. Nous étudions également comment améliorer la performance du framework MapReduce en utilisant des techniques de partitionnement de données. En particulier, nous sommes intéressés par le partitionnement efficient de données d'entrée avec l'objectif de réduire la quantité de données qui devront être transférées dans la phase intermédiaire, connu aussi comme " shuffle ". Nous concevons et mettons en œuvre une stratégie qui, en capturant les relations entre les tuples d'entrée et les clés intermédiaires, obtient un partitionnement efficace qui peut être utilisé pour réduire de manière significative le surcharge de communications dans MapReduce.

21

Gürgen, Levent. "Gestion à grande échelle de données de capteurs hétérogènes". Grenoble INPG, 2007. http://www.theses.fr/2007INPG0093.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Cette thèse traite les aspects liés à la gestion à grande échelle de données issues de capteurs hétérogènes. En effet, les capteurs sont de moins en moins chers, de plus en plus nombreux et hétérogènes dans les applications. Ceci implique naturellement le problème de passage à l'échelle et la nécessité de pouvoir exploiter les données provenant de différents types de capteurs. Nous proposons une architecture distribuée et orientée services dans laquelle les tâches de traitement de données sont réparties sur plusieurs niveaux. Les fonctionnalités de gestion de données sont fournies en termes de < > afin de cacher l'hétérogénéité des capteurs sous des services génériques. Nous traitons également les aspects liés à l'administration de parc de capteurs, un sujet non abordé dans ce contexte
This dissertation deals with the issues related to scalable management of heterogeneous sensor data. Ln fact, sensors are becoming less and less expensive, more and more numerous and heterogeneous. This naturally raises the scalability problem and the need for integrating data gathered from heterogeneous sensors. We propose a distributed and service-oriented architecture in which data processing tasks are distributed at severallevels in the architecture. Data management functionalities are provided in terms of "services", in order to hide sensor heterogeneity behind generic services. We equally deal with system management issues in sensor farms, a subject not yet explored in this context

22

Liroz, Gistau Miguel. "Partitionnement dans les systèmes de gestion de données parallèles". Thesis, Montpellier 2, 2013. http://www.theses.fr/2013MON20117/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Au cours des dernières années, le volume des données qui sont capturées et générées a explosé. Les progrès des technologies informatiques, qui fournissent du stockage à bas prix et une très forte puissance de calcul, ont permis aux organisations d'exécuter des analyses complexes de leurs données et d'en extraire des connaissances précieuses. Cette tendance a été très importante non seulement pour l'industrie, mais a également pour la science, où les meilleures instruments et les simulations les plus complexes ont besoin d'une gestion efficace des quantités énormes de données.Le parallélisme est une technique fondamentale dans la gestion de données extrêmement volumineuses car il tire parti de l'utilisation simultanée de plusieurs ressources informatiques. Pour profiter du calcul parallèle, nous avons besoin de techniques de partitionnement de données efficaces, qui sont en charge de la division de l'ensemble des données en plusieurs partitions et leur attribution aux nœuds de calculs. Le partitionnement de données est un problème complexe, car il doit prendre en compte des questions différentes et souvent contradictoires telles que la localité des données, la répartition de charge et la maximisation du parallélisme.Dans cette thèse, nous étudions le problème de partitionnement de données, en particulier dans les bases de données parallèles scientifiques qui sont continuellement en croissance. Nous étudions également ces partitionnements dans le cadre MapReduce.Dans le premier cas, nous considérons le partitionnement de très grandes bases de données dans lesquelles des nouveaux éléments sont ajoutés en permanence, avec pour exemple une application aux données astronomiques. Les approches existantes sont limitées à cause de la complexité de la charge de travail et l'ajout en continu de nouvelles données limitent l'utilisation d'approches traditionnelles. Nous proposons deux algorithmes de partitionnement dynamique qui attribuent les nouvelles données aux partitions en utilisant une technique basée sur l'affinité. Nos algorithmes permettent d'obtenir de très bons partitionnements des données en un temps d'exécution réduit comparé aux approches traditionnelles.Nous étudions également comment améliorer la performance du framework MapReduce en utilisant des techniques de partitionnement de données. En particulier, nous sommes intéressés par le partitionnement efficient de données d'entrée
During the last years, the volume of data that is captured and generated has exploded. Advances in computer technologies, which provide cheap storage and increased computing capabilities, have allowed organizations to perform complex analysis on this data and to extract valuable knowledge from it. This trend has been very important not only for industry, but has also had a significant impact on science, where enhanced instruments and more complex simulations call for an efficient management of huge quantities of data.Parallel computing is a fundamental technique in the management of large quantities of data as it leverages on the concurrent utilization of multiple computing resources. To take advantage of parallel computing, we need efficient data partitioning techniques which are in charge of dividing the whole data and assigning the partitions to the processing nodes. Data partitioning is a complex problem, as it has to consider different and often contradicting issues, such as data locality, load balancing and maximizing parallelism.In this thesis, we study the problem of data partitioning, particularly in scientific parallel databases that are continuously growing and in the MapReduce framework.In the case of scientific databases, we consider data partitioning in very large databases in which new data is appended continuously to the database, e.g. astronomical applications. Existing approaches are limited since the complexity of the workload and continuous appends restrict the applicability of traditional approaches. We propose two partitioning algorithms that dynamically partition new data elements by a technique based on data affinity. Our algorithms enable us to obtain very good data partitions in a low execution time compared to traditional approaches.We also study how to improve the performance of MapReduce framework using data partitioning techniques. In particular, we are interested in efficient data partitioning of the input datasets to reduce the amount of data that has to be transferred in the shuffle phase. We design and implement a strategy which, by capturing the relationships between input tuples and intermediate keys, obtains an efficient partitioning that can be used to reduce significantly the MapReduce's communication overhead

23

Etien-Gnoan, N'Da Brigitte. "L'encadrement juridique de la gestion électronique des données médicales". Thesis, Lille 2, 2014. http://www.theses.fr/2014LIL20022/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La gestion électronique des données médicales consiste autant dans le simple traitement automatisé des données personnelles que dans le partage et l'échange de données relatives à la santé. Son encadrement juridique est assuré, à la fois, par les règles communes au traitement automatisé de toutes les données personnelles et par celles spécifiques au traitement des données médicales. Cette gestion, même si elle constitue une source d'économie, engendre des problèmes de protection de la vie privée auxquels le gouvernement français tente de faire face en créant l'un des meilleurs cadres juridiques au monde, en la matière. Mais, de grands chantiers comme celui du dossier médical personnel attendent toujours d'être réalisés et le droit de la santé se voit devancer et entraîner par les progrès technologiques. Le développement de la télésanté bouleverse les relations au sein du colloque singulier entre le soignant et le soigné. L'extension des droits des patients, le partage de responsabilité, l'augmentation du nombre d'intervenants, le secret médical partagé constituent de nouveaux enjeux avec lesquels il faut, désormais compter. Une autre question cruciale est celle posée par le manque d'harmonisation des législations augmentant les risques en cas de partage transfrontalier de données médicales
The electronic management of medical data is as much in the simple automated processing of personal data in the sharing and exchange of health data . Its legal framework is provided both by the common rules to the automated processing of all personal data and those specific to the processing of medical data . This management , even if it is a source of economy, creates protection issues of privacy which the French government tries to cope by creating one of the best legal framework in the world in this field. However , major projects such as the personal health record still waiting to be made and the right to health is seen ahead and lead by technological advances . The development of e-health disrupts relationships within one dialogue between the caregiver and the patient . The extension of the rights of patients , sharing responsibility , increasing the number of players , the shared medical confidentiality pose new challenges with which we must now count. Another crucial question is posed by the lack of harmonization of legislation increasing the risks in cross-border sharing of medical

24

Gueye, Modou. "Gestion de données de recommandation à très large échelle". Electronic Thesis or Diss., Paris, ENST, 2014. http://www.theses.fr/2014ENST0083.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Cette thèse s'intéresse à la problématique de passage à l'échelle des systèmes de recommandations. Dans ce cadre, nous proposons deux algorithmes de recommandation passant à l'échelle tout en délivrant une bonne qualité de recommandation. Dans nos premiers travaux, nous considérons l'utilisation de la factorisation de matrice pour prédire les avis des utilisateurs dans des contextes dynamiques où les utilisateurs soumettent sans cesse de nouveaux avis sur des objets. Il est difficile d'y tenir un modèle de prédiction à jour. Nous proposons un modèle de factorisation utilisant plusieurs biais locaux décrivant de façon plus élaborée les comportements des utilisateurs. Leur coût de calcul faible permet de les ajuster à la volée, lorsque de nouvelles notes arrivent. Ils assurent ainsi la robustesse du modèle dans un contexte dynamique, tout en garantissant une meilleure qualité au cours le temps. Nous nous sommes aussi intéressés à la recommandation de tags dans les réseaux sociaux. Notre proposition s'appuie sur l'algorithme des plus proches voisins. Cependant, nous déterminons dynamiquement le nombre optimal de voisins à utiliser. Notre approche prend en compte les avis des voisins indirects en étendant la relation de proximité entre les utilisateurs. Nos expérimentations ont démontré l'efficacité de cette approche qui peut être adaptée à bien d'autres types de recommandation. Enfin, nous proposons une technique d'optimisation du nombre d'objets à recommander en fonction du contexte. L'idée étant ici de chercher le nombre optimal d'objets à proposer à l'utilisateur, de telle sorte que la probabilité qu'il les choisisse tous soit la plus élevée
In this thesis, we address the scalability problem of recommender systems. We propose accu rate and scalable algorithms. We first consider the case of matrix factorization techniques in a dynamic context, where new ratings..are continuously produced. ln such case, it is not possible to have an up to date model, due to the incompressible time needed to compute it. This happens even if a distributed technique is used for matrix factorization. At least, the ratings produced during the model computation will be missing. Our solution reduces the loss of the quality of the recommendations over time, by introducing some stable biases which track users' behavior deviation. These biases are continuously updated with the new ratings, in order to maintain the quality of recommendations at a high leve for a longer time. We also consider the context of online social networks and tag recommendation. We propose an algorithm that takes account of the popularity of the tags and the opinions of the users' neighborhood. But, unlike common nearest neighbors' approaches, our algorithm doe not rely on a fixed number of neighbors when computing a recommendation. We use a heuristic that bounds the network traversai in a way that allows to faster compute the recommendations while preserving the quality of the recommendations. Finally, we propose a novel approach that improves the accuracy of the recommendations for top-k algorithms. Instead of a fixed list size, we adjust the number of items to recommend in a way that optimizes the likelihood that ail the recommended items will be chosen by the user, and find the best candidate sub-list to recommend to the user

25

Djellalil, Jilani. "Conception et réalisation de multibases de données". Lyon 3, 1989. http://www.theses.fr/1989LYO3A003.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

26

Faye, David Célestin. "Médiation de données sémantique dans SenPeer, un système pair-à-pair de gestion de données". Phd thesis, Université de Nantes, 2007. http://tel.archives-ouvertes.fr/tel-00481311.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La société de l'information demande un accès efficace à un ensemble d'informations qui sont souvent hétérogènes et distribuées. Dans le but d'un partage efficace de cette information, plusieurs solutions techniques ont été proposées. L'infrastructure Pair-à-Pair (P2P) est un paradigme émergent et offrant de nouvelles opportunités pour la mise en place de systèmes distribués à grande échelle. D'autre part, le concept de base de données distribuée a été introduit dans le but d'organiser une collection multiple de bases de données logiquement liées et distribuées sur un réseau d'ordinateurs. Récemment, les systèmes P2P de gestion de données communément appelés PDMS (Peer Data Management System) ont vu le jour. Ils combinent les avantages des systèmes P2P avec ceux des bases de données distribuées. Dans le but de contribuer à la recherche sur la gestion de données dans un contexte P2P, nous proposons le PDMS SenPeer. SenPeer suit une topologie super-pair basée sur l'organisation des pairs en communautés sémantiques en fonction de leur thème d'intérêt. Pour faciliter l'échange de données entre pairs nous établissons des processus de découverte de correspondances sémantiques et de reformulation de requêtes en présence de plusieurs modèles de données. Ces correspondances sémantiques, en combinaison avec les schémas des pairs sont à la base d'une topologie sémantique au dessus du réseau physique et utilisée pour un routage efficace des requêtes. Les requêtes sont échangées à travers un format commun d'échange de requête et un processus d'optimisation distribué permet de choisir le meilleur plan d'exécution de la requête en fonction des caractéristiques du PDMS. Une validation expérimentale par la mise en place d'un simulateur permet d'affirmer l'utilité et la performance des techniques proposées.

27

Cho, Choong-Ho. "Structuration des données et caractérisation des ordonnancements admissibles des systèmes de production". Lyon, INSA, 1989. http://www.theses.fr/1989ISAL0053.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Dans ce mémoire, nous proposons, dans une phase préliminaire, la spécification et la modélisation de la base de données pour l'ordonnancement au sein d'une architecture hiérarchique de gestion de production, et de façon plus approfondie, la spécification analytique des ensembles de solutions admissibles pour aider à l'ordonnancement de trois types d'ateliers différents : - l'un, composé de plusieurs machines en en considérant les temps de réglage comme important sous des contraintes ensemblistes et Cou séquentielles, "flow-shop", un critère potentielles - un autre, composé d'une machine seule, avec des contraintes de dates limite de lots, la machine étant assimilée à une cellule de gestion au sein de l'atelier, et le "job-shop" classique, avec les trois contraintes précédentes: ensemblistes, potentielles, et dates limite. Un des caractères originaux de ce travail notamment, l'introduction d'une nouvelle structure de pour modéliser des familles de séquences de tâches
This work deals, on the one band, with the specification and the modelization of data bases for the scheduling problems in a hierarchical architecture of manufacturing systems, on the other hand, with the analytical specification of the set of feasible solutions for the decision support scheduling problems about three different types of workshops: - first, made up several machines (flowshop: sequences of operations are the same for all jobs), considering the important cri teri on as the set up times under set tasks groups) and potential. Constraints, - second, with only one machine, under the given due dates of jobs constraints, finally, organised in a jobshop, under the three previous constraints: set, potential and due dates. One of original researchs concerns the new structure: PQR trees, to characterise the set of feasible sequences of tasks

28

Saci, Djelloul. "Plan comptable d'entreprise, contexte socio-politique et degré de développement économique : l'expérience algérienne". Paris 9, 1986. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=1986PA090106.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

L'ambition de ce travail est de tenter de répondre aux deux interrogations fondamentales suivantes : - est-il possible à la comptabilité de s'affranchir du droit pour assurer correctement la fonction économique qui lui est de plus en plus assignée ? - l'information comptable en général, et celle produite selon le modèle du plan comptable national (P. C. N. ) Algérien, peut-elle valablement satisfaire les demandes exprimées à la fois par l'entreprise et par l'Etat? Pour répondre à cette double interrogation, nous avons articulé nos investigations en deux parties : première partie : les différentes demandes d'information faites à l'instrument comptable. Après avoir défini le paradigme comptable, sa nature et son domaine, nous avons montré qu'un consensus était possible entre les différents destinataires de l'information produite par la comptabilité, grâce au recours à un langage normalisé et notamment à l'élaboration d'un plan comptable. Nous avons bien souligné que celui-ci ne saurait être réduit à sa dimension technique - liste des comptes, règles de fonctionnement et d'évaluation mais il traduit les options prises par les auteurs, en fonction des objectifs assignés à l'entreprise évoluant dans un environnement socio-économique donné. Deuxième partie : les réponses faites par l'instrument comptable. - nous avons tenté d'abord d'apprécier la pertinence de l'information produite. La qualité de celle-ci conditionne son utilisation à des fins économiques. -l'examen de la validité des réponses fournies, tant au niveau de l'entreprise qu'au niveau global de la nation, montre qu'une comptabilité active tournée vers les sphères décisionnelles suppose : primo : la révision des principes comptables concernant la mesure des faits économiques. Secundo : la conception d'une comptabilité analytique opérationnelle. Ces deux conditions ne sont pas réalisées par le P. C. N. Et expliquent l'insuffisance des réponses fournies
This study's main intention is to answer the following questions : -can the accountancy become free from law for ensuring correctly the economic function it has to fulfill ? -can the accounting information in general and especially those which is produced by the Algerian national chart of accounts (P. C. N. ) perform the both requirements of the enterprise and the government ? We have divided our study into two parts in order to solve these questions. Part. 1 : the requirements for accounting information. After describing the accounting paradigm what its consists of, and what it covers, we have shown that a consensus is possible between the users of accounting information, thanks to the recourse to a normalized language and, in particular, thanks to the elaboration of a chart of accounts. We have clearly underlined that any chart of accounts can't be reduced to its technical dimension (processing, measurement, recording) but its compiles the options taken by its authors, regarding the purposes of the enterprise within a certain socio-economic environment. Part. 2 : accounting answers. -we have first attempted to appreciate the accounting information's relevance because we think that only a relevant data allow to be used for economic aims. - the study of the validity of answers the accounting does in the both levels of the firm and the nation, shows a dynamic management accounting involves. A) -first : a review of basic accounting principles concerning the measurement of economic facts. B) -second : an operational cost accounting system must be conceived the two conditions are not fulfilled by the Algerian P. C. N. And explain that this latter is in need of a great improvement

29

Guégot, Françoise. "Gestion d'une base de données mixte, texte et image : application à la gestion médicale dentaire". Paris 9, 1989. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=1989PA090042.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Dans le cadre de l’informatique des organisations, nous avons montré sur un exemple concret - cabinet dentaire - que l’apport de l’image peut être décisif pour l’aide à la décision. Cette démonstration est là pour fixer les principes d’un système de gestion de base de données mixtes. Une base de données textuelles est constituée grâce à un générateur de SIAD, ainsi que les traitements nécessaires sur ces données, une base de données d’images est définie en parallèle après un inventaire des différentes techniques de traitement de l’image, enfin une liaison est réalisée entre les deux pour constituer un système de gestion de bases de données mixtes
In the frame work of organizational data processing, we have shown, on an actual example -a dental surgeon cabinet- that image display constitutes a bonus which may prove decisive in decision making. This should be considered to play down the principles governing a mixed data basic managering system. A basis of text data will be constituted through an S. I. A. D generator which will also perform the necessary processing of the said data. A basis of image data will be established. In parallel with the former, from an inventory of the various image processing techniques. Finally, both basis will be connected to form the mixed data managerial system

30

Le, Mahec G. "Gestion des bases de données biologiques sur grilles de calculs". Phd thesis, Université Blaise Pascal - Clermont-Ferrand II, 2008. http://tel.archives-ouvertes.fr/tel-00462306.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Depuis le début des années 80, les bases de données biologiques n'ont cessé de gagner en volume. Une recherche sur ces bases qui ne prenait que quelques minutes peut désormais nécessiter plusieurs jours. En parallèle, la communauté de recherche en bioinformatique s'est développée et des laboratoires spécialisés sont nés partout dans le monde. La collaboration et l'échange de données entre équipes de recherche parfois géographiquement très éloignées a conduit à considérer la grille comme un moyen adapté à la fois aux nouveaux besoins en terme de puissance de calcul mais aussi comme outil de partage et de distribution des données biologiques entre chercheurs. L'utilisation de la grille pour la recherche en biologie et bioinformatique est un atout considérable, cependant de nouvelles problématiques apparaissent quant `a la gestion des données ainsi que dans l'ordonnancement des tâches qui doit prendre en compte la taille et la disponibilité des données. Cette thèse aborde ces problématiques nouvelles en prenant en compte les spécificités des bases de données biologiques pour une utilisation efficace de la grille. Nous montrons l'intérêt des approches semi-statiques joignant réplications de données et ordonnancement des tâches. Pour cela, nous avons procédé en trois étapes : une analyse théorique, une première validation par simulation et enfin une implantation sur plateforme réelle. La mise en place de la plateforme a mené à la conception d'un nouveau gestionnaire de données pour l'intergiciel DIET : DAGDA. Au-delà des applications de bioinformatique, ce gestionnaire de données peut répondre aux besoins de nombreuses applications portées sur les grilles de calcul

31

Pierkot, Christelle. "Gestion de la Mise à Jour de Données Géographiques Répliquées". Phd thesis, Université Paul Sabatier - Toulouse III, 2008. http://tel.archives-ouvertes.fr/tel-00366442.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

De nos jours, l'information géographique constitue une ressource incontournable dans un contexte de prise de décision et les données numériques spatiales sont de plus en plus fréquemment exploitées comme support et aide à la décision par de nombreuses organisations.
L'institution militaire utilise elle aussi les données spatiales comme soutien et aide à la décision. A chaque étape d'une mission, des informations géographiques de tous types sont employées (données numériques, cartes papiers, photographies aériennes...) pour aider les unités dans leurs choix stratégiques. Par ailleurs, l'utilisation de réseaux de communication favorise le partage et l'échange des données spatiales entre producteurs et utilisateurs situés à des endroits différents. L'information n'est pas centralisée, les données sont répliquées sur chaque site et les utilisateurs peuvent ponctuellement être déconnectés du réseau, par exemple lorsqu'une unité mobile va faire des mesures sur le terrain.
La problématique principale concerne donc la gestion dans un contexte militaire, d'une application collaborative permettant la mise à jour asynchrone et symétrique de données géographiques répliquées selon un protocole à cohérence faible optimiste. Cela nécessite de définir un modèle de cohérence approprié au contexte militaire, un mécanisme de détection des mises à jour conflictuelles lié au type de données manipulées et des procédures de réconciliation des écritures divergentes adaptées aux besoins des unités participant à la mission.
L'analyse des travaux montre que plusieurs protocoles ont été définis dans les communautés systèmes (Cederqvist :2001 ; Kermarrec :2001) et bases de données (Oracle :2003 ; Seshadri :2000) pour gérer la réplication des données. Cependant, les solutions apportées sont souvent fonctions du besoin spécifique de l'application et ne sont donc pas réutilisables dans un contexte différent, ou supposent l'existence d'un serveur de référence centralisant les données. Les mécanismes employés en information géographique pour gérer les données et les mises à jour ne sont pas non plus appropriés à notre étude car ils supposent que les données soient verrouillées aux autres utilisateurs jusqu'à ce que les mises à jour aient été intégrée (approche check in-check out (ESRI :2004), ou utilisent un serveur centralisé contenant les données de référence (versionnement : Cellary :1990).
Notre objectif est donc de proposer des solutions permettant l'intégration cohérente et autant que possible automatique, des mises à jour de données spatiales dans un environnement de réplication optimiste, multimaître et asynchrone.
Nous proposons une stratégie globale d'intégration des mises à jour spatiales basée sur une vérification de la cohérence couplé à des sessions de mises à jour. L'originalité de cette stratégie réside dans le fait qu'elle s'appuie sur des métadonnées pour fournir des solutions de réconciliation adaptées au contexte particulier d'une mission militaire.
La contribution de cette thèse est double. Premièrement, elle s'inscrit dans le domaine de la gestion de la mise à jour des données spatiales, domaine toujours très actif du fait de la complexité et de l'hétérogénéité des données (Nous limitons néanmoins notre étude aux données géographiques vectorielles) et de la relative «jeunesse » des travaux sur le sujet. Deuxièmement, elle s'inscrit dans le domaine de la gestion de la cohérence des données répliquées selon un protocole optimiste, en spécifiant en particulier, de nouveaux algorithmes pour la détection et la réconciliation de données conflictuelles, dans le domaine applicatif de l'information géographique.

32

Gagnon, Bertrand. "Gestion d'information sur les procédés thermiques par base de données". Thesis, McGill University, 1986. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=65447.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

33

Antoine, Émilien. "Gestion des données distribuées avec le langage de règles: Webdamlog". Phd thesis, Université Paris Sud - Paris XI, 2013. http://tel.archives-ouvertes.fr/tel-00908155.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Notre but est de permettre à un utilisateur du Web d'organiser la gestion de ses données distribuées en place, c'est à dire sans l'obliger à centraliser ses données chez un unique hôte. Par conséquent, notre système diffère de Facebook et des autres systèmes centralisés, et propose une alternative permettant aux utilisateurs de lancer leurs propres pairs sur leurs machines gérant localement leurs données personnelles et collaborant éventuellement avec des services Web externes. Dans ma thèse, je présente Webdamlog, un langage dérivé de datalog pour la gestion de données et de connaissances distribuées. Le langage étend datalog de plusieurs manières, principalement avec une nouvelle propriété la délégation, autorisant les pairs à échanger non seulement des faits (les données) mais aussi des règles (la connaissance). J'ai ensuite mené une étude utilisateur pour démontrer l'utilisation du langage. Enfin je décris le moteur d'évaluation de Webdamlog qui étend un moteur d'évaluation de datalog distribué nommé Bud, en ajoutant le support de la délégation et d'autres innovations telles que la possibilité d'avoir des variables pour les noms de pairs et des relations. J'aborde de nouvelles techniques d'optimisation, notamment basées sur la provenance des faits et des règles. Je présente des expérimentations qui démontrent que le coût du support des nouvelles propriétés de Webdamlog reste raisonnable même pour de gros volumes de données. Finalement, je présente l'implémentation d'un pair Webdamlog qui fournit l'environnement pour le moteur. En particulier, certains adaptateurs permettant aux pairs Webdamlog d'échanger des données avec d'autres pairs sur Internet. Pour illustrer l'utilisation de ces pairs, j'ai implémenté une application de partage de photos dans un réseau social en Webdamlog.

34

Le, Mahec Gaël. "Gestion des bases de données biologiques sur grilles de calcul". Clermont-Ferrand 2, 2008. http://www.theses.fr/2008CLF21891.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

L'utilisation de la grille pour la recherche en biologie et bioinformatique est un atout considérable, cependant de nouvelles problématiques apparaissent quant à la gestion des données ainsi que dans l'ordonnancement des tâches qui doit prendre en compte la taille et la disponibilité des données. Cette thèse aborde ces problématiques nouvelles en prenant en compte les spécificités des bases de données biologiques pour une utilisation efficace de la grille. Nous montrons l'intérêt des approches semi-statiques joignant réplications de données et ordonnancement des tâches. La mise en place d'une plateforme de soumission de requêtes BLAST a mené à la conception d'un nouveau gestionnaire de données pour l'intergiciel DIET : DAGDA. Au delà des applications de bioinformatique, ce gestionnaire de données peut répondre aux besoins de nombreuses applications portées sur les grilles de calcul

35

Cheballah, Kamal. "Aides à la gestion des données techniques des produits industriels". Ecully, Ecole centrale de Lyon, 1992. http://www.theses.fr/1992ECDL0003.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Le travail presente dans cette these se situe dans le contexte de l'approche cim (computer integrated manufacturing) qui a pour but de supporter et d'organiser l'ensemble des taches d'elaboration de produits industriels a l'aide d'outils informatiques. Nous proposons une contribution a la mise en place d'un systeme global pour la realisation concrete de quelques maillons essentiels. Le premier chapitre introduit un modele d'organisation du processus d'elaboration au niveau logique et physique. Le second chapitre introduit un outil audros (systeme d'aide a l'utilisation de documents dans un reseau d'ordinateurs) qui permet aux utilisateurs de conduire l'elaboration a un niveau strictement logique. Tous les problemes du niveau physique (localisation des donnees, organisation, transport, etc. . . ) sont pris en charge automatiquement. Le chapitre 3 presente l'outil logiciel gelabor (gestion d'elaboration de produits) qui permet de gerer la coherence entre les produits d'une base de donnees techniques. En conclusion, apres validation de la demarche proposee, nous presentons un schema plus general prenant mieux en compte l'aspect concurrentiel et cooperatif des taches d'elaboration. Cette approche est illustree par la specification de gelabor 2 organisant la cooperation d'entites independantes par l'intermediaire d'un blackboard.

36

Cobéna, Grégory. "Gestion des changements pour les données semi-structurés du Web". Palaiseau, Ecole polytechnique, 2003. http://www.theses.fr/2003EPXX0027.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

37

Peerbocus, Mohamed Ally. "Gestion de l'évolution spatiotemporelle dans une base de données géographiques". Paris 9, 2001. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=2001PA090055.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Cette thèse traite de la mise à jour des bases de données géographiques, en particulier pour des applications cartographiques. Cette opération est complexe, souvent longue, en particulier lorsqu'il est nécessaire de représenter la nature dynamique des entités géographiques. Dans cette thèse, une nouvelle approche, appelée l'approche des cartes spatio-temporelles documentées, CSD, est proposée pour la mise à jour des bases de données géographiques et la gestion de l'évolution spatio-temporelle. Les changements géographiques sont étudiés selon trois perspectives : monde réel, carte et bases de données. L'approche CSD permet aux utilisateurs d'avoir accès à des versions passées ou alternatives d'une carte, de comparer les différentes versions d'un objet géographique, d'identifier les changements et de comprendre les raisons de ces changements, en particulier dans le contexte d'échange de données entre producteurs et clients. De plus, cette approche permet d'offrir une histoire documentée de l'évolution des objets géographiques. Par ailleurs, L'approche CSD assure la non-duplication des données dans la base de données géographiques. L'approche CSD permet de prendre en compte d'autres besoins des utilisateurs du domaine géographique : 1. Elle peut aider à la gestion des transactions de longue durée dans le processus de mise à jour des bases de données géographiques. 2. Elle peut être un outil efficace pour la gestion de l'information géographique dans des projets : des versions de carte peuvent être créées à la demande montrant les différentes étapes du projet, voire les alternatives. 3. Elle peut servir à organiser une équipe autour d'un projet en permettant aux différents intervenants de travailler sur différentes versions du projet et ensuite permettre leur fusion. 4. Elle peut être utile comme un outil de prévention dans la gestion des risques en permettant aux spécialistes de suivre l'évolution de limites de zones à risque.

38

Ichiba, Abdellah. "Données radar bande X et gestion prédictive en hydrologie urbaine". Thesis, Paris Est, 2016. http://www.theses.fr/2016PESC1007/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

L'objectif principal de cette thèse était de parvenir à un outil de gestion fiable des bassins de rétention d'eaux pluviales en utilisant les données radar en bande X. Il s’est avéré que cela nécessite plusieurs développements de recherche. Le cas d’étude considéré comprend un bassin de 10000 m3 situé en Val-de-Marne et construit en aval d'un bassin versant urbain de 2.15 km2. Il assure un double rôle de traitement des eaux pluviales et de prévention des inondations par stockage du volume. Opérationnellement les modes de gestion associés à chacun de ces objectifs sont antagonistes si bien qu’une gestion prédictive a été mise en place ; exploitation routinière en mode anti-pollution et basculement vers le mode anti-inondation en cas de besoin. Il doit se faire sur la base d’une connaissance sûre de la situation pluvieuse prévue à court terme. Une façon courante de répondre aux besoins opérationnels de la gestion prédictive est de mettre en place un système d’alerte basé sur l’utilisation des données radar. Le système CALAMAR par exemple, repose sur l’utilisation des données radar brutes à mono polarisation du réseau radar de Météo-France; traitées avec des méthodes de conversion classiques Z-R et une calibration avec des pluviomètres. Cependant, la fiabilité de ce système fait débat, notamment vis-à-vis de la qualité de la mesure radar obtenue. Une nouvelle méthodologie de comparaison de produits radar a été développée au cours de cette thèse. Elle repose sur le cadre théorique des multifractals et permet une comparaison de la structure et de la morphologie des champs de précipitations dans l'espace et le temps à travers les échelles. Cette méthode a d'abord été appliquée sur les produits CALAMR et Météo-France, puis, pour confirmer certains des résultats, sur les premières données d’un radar bande X, acquis par l’Ecole des Ponts ParisTech dans le cadre du projet Européen RainGain et fournissant des mesures de précipitations à des échelles plus fines (jusqu’à 100m en espace et 1 min en temps). Les résultats obtenus mettent en évidence non seulement l'influence cruciale des méthodes de traitement des données brutes sur la variabilité spatio-temporelle à travers les échelles, mais permettent également de prédéfinir les conditions dans lesquelles la calibration CALAMAR peut aggraver la qualité des mesures. Elles seraient très difficiles à détecter par les méthodes classiques largement répandues, n’impliquant qu’un nombre très limité de pixels radar (seulement ceux correspondants aux pluviomètres au sol). Des extensions de la méthodologie proposée ouvriront de nouveaux horizons pour la calibration des données de pluie. Alors que la littérature scientifique, notamment autour expériences TOMACS au Japon et CASA aux Etats-Unis, souligne l’importance opérationnelle d’une mesure de pluie plus détaillée grâce au radar en bande X, son impact sur les performances des modèles hydrologiques fait encore débat. Les recherches antérieures, basée pour la plupart sur des modèles conceptuels, ne sont pas concluantes. Ainsi pour dépasser ces limites, nous avons utilisé deux modèles impliquant des approches de modélisation différentes : CANOE (semi-distribué et conceptuel) et Multi-Hydro (distribué et à base physique ; développé à l’ENPC). Une version opérationnelle de CANOE et une nouvelle configuration plus fine améliorant considérablement la sensibilité du modèle à la variabilité de la pluie ont été utilisées. Plusieurs développements ont été apportés à Multi-Hydro, y compris une optimisation de sa résolution, ce qui améliore grandement l'ensemble de ses fonctionnalités. Il ressort de ce travail qu’en prenant en compte la variabilité spatio-temporelle des précipitations à petite échelle, la performance des modèles hydrologiques peut être augmentée jusqu'à 20%.Nous pensons que cette thèse a contribué à la mise au point de nouveaux outils opérationnels, fiables ayant la capacité de prendre en compte les données en bande X haute résolution
The main goal of this thesis was to achieve a reliable management tool of storm water storage basins using high resolution X-band radar. It turned out that it required several research developments. The analysed case study includes a retention basin of 10000 m3 located in Val de Marne county downstream of a 2.15 km2 urban catchment. It has a twofold goal: storm water decontamination and flood protection by volume storage. Operationally the management strategies associated with these two aims are conflicting; hence, a predictive management has been set up: a routine exploitation of the basin in the anti-pollution mode, and a switch to the flood protection mode when needed. It should be based a reliable knowledge of short-term rainfall forecasts. A common way to respond to operational needs of the predictive management is to set up a warning system based on the use of radar data. For example, the CALAMAR system relies on the use of single-polarization raw radar data, coming from Meteo-France radar network, being processed with the conventional Z-R conversion methods followed by a calibration with rain gauge. However, the reliability of such warning systems has been subject to debate, often due to a questionable quality of the resulting radar rainfall estimates, compared to local rain gauges. Therefore a new methodology for more meaningful comparison of radar rainfall field products was developed during this PhD project. Being rooted to the multifractal theory, it allows a comparison of the structure and the morphology of rainfall fields in both space and time through scales. It was initially tested on CALAMAR and Meteo-France rainfall products before being applied for results confirmation on initial data from a X band radar, acquired by Ecole des Ponts ParisTech in the framework of the European project RainGain and providing data at higher resolution (up to 100 m in space and 1 min in time). The obtained results not only highlight the crucial influence of raw data processing on the scaling behaviour, but also permit to pre-define the conditions when the CALAMAR optimization may worsen the quality of rainfall estimates. Such conditions would be very difficult to detect with widely used conventional methods, which rely on a very limited number of radar pixels (only those containing rain gauges). Further extensions of the proposed methodology open new horizons for the rainfall data merging. While the scientific literature, notably around the TOMACS experiment in Japan and CASA one in the United States, highlights the operational benefits of higher resolution rainfall measurements thanks to X-band radars, its impact on the performance of hydrological models still remains a subject of debate. Indeed previous research, mainly based on conceptual models remains inconclusive. To overcome these limitations, we used two models relying on two very distinct modelling approaches: CANOE (semi-distributed and conceptual) and Multi-Hydro (fully distributed and physically based research model developed at ENPC). An operational version of CANOE and a new much finer configuration, which increases the sensitivity of the model to spatio-temporal variability of small-scale rainfall, were used. Several extensions of the Multi-Hydro were developed, including an optimization of its resolution, which greatly improves its whole functionality. It appears from this work that by taking into account the spatial and temporal variability of small-scale rainfall, the performance of hydrologic models can be increased up to 20%.Overall, we believe that this dissertation contributes to the development of new, reliable, operational tools to use in their full extent the high-resolution X-band data

39

Derakhshannia, Marzieh. "Gestion et optimisation de l’architecture logistique de lacs de données". Thesis, Université de Montpellier (2022-….), 2022. http://www.theses.fr/2022UMONS022.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Le monde numérique en constante évolution donne naissance au précieux concept "data" que l’on appelle l’or noir. Conformément à cette évolution, les systèmes de gestion de données, qui jouent des rôles importants dans la valorisation des données générées, deviennent un élément essentiel dans les systèmes d’information et pour les processus de prise de décision. Avec la révolution digitale, les données sont générées chaque seconde en gros volumes, par de multiples sources et dans différents formats. Il est communément admis que ces données brutes peuvent être exploitées pour extraire de la valeur. L’hétérogénéité des données sources se traduit par un besoin de systèmes intégrés pour stocker, traiter et analyser efficacement des données massives et éparpillées. Le phénomène de données massives, qui est connu sous le nom de mégadonnées, exige un système décisionnel avec une architecture souple qui stocke les données hétérogènes et soutient les caractéristiques principales de mégadonnées comme le volume, la variété, la vélocité, la vitesse et la véracité. Le lac de données, qui est un système de stockage centralisé, est une bonne réponse à ces problèmes posés afin accueillir à grande échelle des données brutes sous leurs formats natifs. Par rapport à cet objectif, il est évident que l’architecture et l’infrastructure du lac de données ont un impact significatif sur la rentabilité et la fonctionnalité du système global. À cet égard, la conception et la gestion de la structure du lac de données nécessitent des méthodes pratiques et innovantes afin de réaliser un référentiel centralisé intégré et optimal. En considérant la structure systématique du lac de données ainsi que l’architecture globale des systèmes, une vision logistique pourrait nous conduire aux objectifs définis.La chaîne d’approvisionnement est un bon exemple de systèmes logistiques où les participants hiérar- chiques se coordonnent au sein d’un réseau intégré afin de préparer un produit ou de rendre des services aux consommateurs ciblés. La structure logistique ainsi que les stratégies de gestion de la chaîne d’ap- provisionnement pourraient être une source d’inspiration innovante pour concevoir, gérer et optimiser un système de gestion de données basé sur une vision logistique. Pour cette raison, la mise en œuvre de la méthode analogique entre structures systématiques clarifie dans quelle mesure on pourrait tirer parti des stratégies gestionnaires dérivées de la chaîne d’approvisionnement pour développer l’architecture et les performances du lac de données.Dans cette thèse, nous émettons l’hypothèse qu’il est possible de décrire un lac de données et ses fonctionnalités en le comparant à la structure logistique d’une chaîne d’approvisionnement. Sur la base de ces objectifs :Dans un premier temps, nous nous intéressons à plusieurs architectures de lacs de données et vérifions l’efficacité de ces architectures sur la performance de lac de données notamment par rapport à la gouvernance des données et la qualité de service. Dans un deuxième temps, nous introduisons la chaîne d’approvisionnement, gestion de la chaîne logistique et les méthodes qui sont utilisés fréquemment pour optimiser la chaîne d’approvisionnement. En outre nous comparons tous les éléments de ce système logistique avec un lac de données et nous nous focalisons sur leurs points similaires afin d’utiliser les methodes de gestion de la chaîne d’approvisionnement pour le lac de données. Dans un troisième temps, nous proposons une nouvelle architecture pour les lacs de données basée sur la définition de chaîne d’approvisionnement grâce au processus évolutif de modélisation des structures des lacs de données. Nous terminons ce travail en optimisant l’architecture de lac de données proposée avec des stratégies de conception de réseau de chaîne d’approvisionnement et proposons des méthodes pour résoudre le modèle d’optimisation mathématique défini
The digital world with constantly evolution gives rise to the precious concept , "data" that is known as the black gold. In accordance with this evolution, database management systems, which play an important role in data valuation, are becoming an essential element of information systems and decision- making processes. With respect to the digital revolution, data is generated every second in a huge volume, by multiple sources and with different formats.Despite the fact that managing large and dispersed data is a problematic issue , we could not neglect the precious value that could potentially be gained through raw data exploration. This heterogeneity translates into the need for an integrated system to efficiently store, process and analyze the huge amount of scattered data. The phenomenon of huge data, known as big data, requires a decision-making system with an appropriate architecture that stores the heterogeneous data and supports the main characteristics of the big data environment, such as the data volume, the veracity, velocity and veracity. The data lake, which is a centralized storage system, is a good answer to these arising problems to receive raw data on a large scale in their native formats. Concerning this goal, it is clear that the infrastructure and architecture of the data lake have a significant impact on the profitability and functionality of the overall system. In this regard, the design and management of the data lake structure requires practical and innovative methods in order to achieve an integrated and optimal centralized repository. By considering the systematic structure of the data lake as well as the hierarchical architecture of the systems, a logistical vision could lead us to the defined objectives.The supply chain is a good example of logistics systems where hierarchical participants are coordi- nated within an integrated network in order to prepare a product or render services to targeted consumers. The logistics structure as well as the supply chain management strategies could be an innovative source of inspiration to design, manage and optimize a data management system based on a logistics vision.For this reason, the implementation of the analog method between systematic structures clarifies to what extent one could take advantage of management strategies derived from the supply chain to develop the architecture and performance of the data lake.In this thesis, we hypothesize that it is possible to describe a data lake and its functionality by comparing it to the logistical structure of a supply chain. On the basis of these objectives:First, we are interested in relying on several data lake architectures and verifying the effectiveness of these architectures on the performance of the data lake, in particular in relation to data governance and the quality of services.In a second step, we introduce the supply chain, supply chain management and the methods that are used frequently to optimize the supply chain. Furthermore we compare all the elements of this data lake logistics system and focus on their similar points in order to use the data lake supply chain management methods.Thirdly, we propose a new architecture for data lake based on supply chain definition thanks to the evolutionary process of modeling the structures of data lakes. We finish this work by optimizing the proposed data lake architecture with supply chain network design strategies and propose the methods to solve the defined mathematical optimization model

40

Bourgaux, Camille. "Gestion des incohérences pour l'accès aux données en présence d'ontologies". Thesis, Université Paris-Saclay (ComUE), 2016. http://www.theses.fr/2016SACLS292/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Interroger des bases de connaissances avec des requêtes conjonctives a été une préoccupation majeure de la recherche récente en logique de description. Une question importante qui se pose dans ce contexte est la gestion de données incohérentes avec l'ontologie. En effet, une théorie logique incohérente impliquant toute formule sous la sémantique classique, l'utilisation de sémantiques tolérantes aux incohérences est nécessaire pour obtenir des réponses pertinentes. Le but de cette thèse est de développer des méthodes pour gérer des bases de connaissances incohérentes en utilisant trois sémantiques naturelles (AR, IAR et brave) proposées dans la littérature et qui reposent sur la notion de réparation, définie comme un sous-ensemble maximal des données cohérent avec l'ontologie. Nous utilisons ces trois sémantiques conjointement pour identifier les réponses associées à différents niveaux de confiance. En plus de développer des algorithmes efficaces pour interroger des bases de connaissances DL-Lite incohérentes, nous abordons trois problèmes : (i) l'explication des résultats des requêtes, pour aider l'utilisateur à comprendre pourquoi une réponse est (ou n'est pas) obtenue sous une des trois sémantiques, (ii) la réparation des données guidée par les requêtes, pour améliorer la qualité des données en capitalisant sur les retours des utilisateurs sur les résultats de la requête, et (iii) la définition de variantes des sémantiques à l'aide de réparations préférées pour prendre en compte la fiabilité des données. Pour chacune de ces trois questions, nous développons un cadre formel, analysons la complexité des problèmes de raisonnement associés, et proposons et mettons en œuvre des algorithmes, qui sont étudiés empiriquement sur un jeu de bases de connaissance DL-Lite incohérentes que nous avons construit. Nos résultats indiquent que même si les problèmes à traiter sont théoriquement durs, ils peuvent souvent être résolus efficacement dans la pratique en utilisant des approximations et des fonctionnalités des SAT solveurs modernes
The problem of querying description logic knowledge bases using database-style queries (in particular, conjunctive queries) has been a major focus of recent description logic research. An important issue that arises in this context is how to handle the case in which the data is inconsistent with the ontology. Indeed, since in classical logic an inconsistent logical theory implies every formula, inconsistency-tolerant semantics are needed to obtain meaningful answers. This thesis aims to develop methods for dealing with inconsistent description logic knowledge bases using three natural semantics (AR, IAR, and brave) previously proposed in the literature and that rely on the notion of a repair, which is an inclusion-maximal subset of the data consistent with the ontology. In our framework, these three semantics are used conjointly to identify answers with different levels of confidence. In addition to developing efficient algorithms for query answering over inconsistent DL-Lite knowledge bases, we address three problems that should support the adoption of this framework: (i) query result explanation, to help the user to understand why a given answer was (not) obtained under one of the three semantics, (ii) query-driven repairing, to exploit user feedback about errors or omissions in the query results to improve the data quality, and (iii) preferred repair semantics, to take into account the reliability of the data. For each of these three topics, we developed a formal framework, analyzed the complexity of the relevant reasoning problems, and proposed and implemented algorithms, which we empirically studied over an inconsistent DL-Lite benchmark we built. Our results indicate that even if the problems related to dealing with inconsistent DL-Lite knowledge bases are theoretically hard, they can often be solved efficiently in practice by using tractable approximations and features of modern SAT solvers

41

Dia, Amadou Fall. "Filtrage sémantique et gestion distribuée de flux de données massives". Electronic Thesis or Diss., Sorbonne université, 2018. http://www.theses.fr/2018SORUS495.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Notre utilisation quotidienne de l’Internet et des technologies connexes génère, de manière continue et à des vitesses rapides et variables, de grandes quantités de données hétérogènes issues des réseaux de capteurs, des logs de moteurs de recherches génériques ou spécialisés, des données de sites de contenu multimédia, des données de mesure de stations météorologiques, de la géolocalisation, des applications IoT (l’Internet des objets), etc. Traiter de telles données dans les bases de données conventionnelles (Systèmes de Gestion de Bases de Données Relationnelles) peut être très coûteux en ressources temporelles et mémoires. Pour répondre efficacement aux besoins et aider à la prise de décision, ces flots d’informations nécessitent des traitements en temps réel. Les Systèmes de Gestion de Flux de Données (SGFDs) posent et évaluent des requêtes sur les données récentes d’un flux dans des structures appelées fenêtre. Les données en entrée des SGFDs sont de différents formats bruts tels que CSV, XML, RSS, ou encore JSON. Ce verrou d’hétérogénéité émane de la nature des flux de données et doit être levé. Pour cela, plusieurs groupes de recherche ont bénéficié des avantages des technologies du web sémantique (RDF et SPARQL) en proposant des systèmes de traitement de flux de données RDF appelés RSPs. Cependant, la volumétrie des données, le débit d’entrée élevé, les requêtes concurrentes, le croisement des flux RDF à de larges volumes de données stockées et les calculs coûteux baissent considérablement les performances de ces systèmes. Il faut prévoir une nouvelle approche de réduction de la charge de traitement des flux de données RDF. Dans cette thèse, nous proposons plusieurs solutions pour réduire la charge de traitement de flux de données en mode centralisé. Une approche d’échantillonnage à la volée de flux de graphes RDF est proposée afin de réduire la charge de données et du traitement des flux tout en préservant les liens sémantiques. Cette approche est approfondie en adoptant une méthode de résumé orienté graphe pour extraire des graphes RDF les informations les plus pertinentes en utilisant des mesures de centralité issues de l’Analyse des Réseaux Sociaux. Nous adoptons également un format compressé des données RDF et proposons une approche d’interrogation de données RDF compressées sans phase de décompression. Pour assurer une gestion parallèle et distribuée des flux de données, le travail présenté propose deux solutions supplémentaires de réduction de la charge de traitement en mode distribué : un moteur de traitement parallèle et distribué de flux de graphes RDF et une approche de traitement optimisé des opérations de croisement entre données statiques et dynamiques sont présentés
Our daily use of the Internet and related technologies generates, at a rapid and variable speeds, large volumes of heterogeneous data issued from sensor networks, search engine logs, multimedia content sites, weather forecasting, geolocation, Internet of Things (IoT) applications, etc. Processing such data in conventional databases (Relational Database Management Systems) may be very expensive in terms of time and memory storage resources. To effectively respond to the needs of rapid decision-making, these streams require real-time processing. Data Stream Management Systems (SGFDs) evaluate queries on the recent data of a stream within structures called windows. The input data are different formats such as CSV, XML, RSS, or JSON. This heterogeneity lock comes from the nature of the data streams and must be resolved. For this, several research groups have benefited from the advantages of semantic web technologies (RDF and SPARQL) by proposing RDF data streams processing systems called RSPs. However, large volumes of RDF data, high input streams, concurrent queries, combination of RDF streams and large volumes of stored RDF data and expensive processing drastically reduce the performance of these systems. A new approach is required to considerably reduce the processing load of RDF data streams. In this thesis, we propose several complementary solutions to reduce the processing load in centralized environment. An on-the-fly RDF graphs streams sampling approach is proposed to reduce data and processing load while preserving semantic links. This approach is deepened by adopting a graph-oriented summary approach to extract the most relevant information from RDF graphs by using centrality measures issued from the Social Networks Analysis. We also adopt a compressed format of RDF data and propose an approach for querying compressed RDF data without decompression phase. To ensure parallel and distributed data streams management, the presented work also proposes two solutions for reducing the processing load in distributed environment. An engine and parallel processing approaches and distributed RDF graphs streams. Finally, an optimized processing approach for static and dynamic data combination operations is also integrated into a new distributed RDF graphs streams management system

42

Ben, Dhia Imen. "Gestion des grandes masses de données dans les graphes réels". Thesis, Paris, ENST, 2013. http://www.theses.fr/2013ENST0087/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

De nos jours, un grand nombre d’applications utilisent de grands graphes pour la modélisation de données du monde réel. Nous avons assisté, ces dernières années, à une très rapide croissance de ces graphes dans divers contextes ; à savoir, les réseaux sociaux, la bioinformatique, le web sémantique, les systèmes de gestion des données géographiques, etc. La gestion, l’analyse et l’interrogation de ces données constituent un enjeu très important et ont suscité un vaste intérêt dans la communauté des Bases de Données. L’objectif de cette thèse est de fournir des algorithmes efficaces pour l’indexation et l’interrogation des données dans les grands graphes. Nous avons proposé EUQLID, une technique d’indexation qui permet de répondre efficacement aux requêtes de calcul de distance dans les grands graphes orientés. L’efficacité de cette technique est dûe au fait qu’elle exploite des propriétés intéressantes des graphes du monde réel. En effet, nous proposons un algorithme basé sur une variante efficace du fameux algorithme 2-hop. Les résultats obtenus montrent que notre algorithme surpassent les approches existantes en terme de temps d’indexation, ainsi qu’en temps de réponse. En effet, il permet de calculer la distance entre deux noeuds en quelques centaines de millisecondes sur de très grands graphes. Nous proposons également un modèle de contrôle d’accès pour les réseaux sociaux qui permet aux utlisateurs de spécifier leurs poltiques de contrôle d’accès en se basant sur leurs relations sociales, et qui peut utiliser EUQLID pour passer à l’échelle. Nous décrivons Primates comme étant un prototype appliquant le modèle proposé
In the last few years, we have been witnessing a rapid growth of networks in a wide range of applications such as social networking, bio-informatics, semantic web, road maps, etc. Most of these networks can be naturally modeled as large graphs. Managing, analyzing, and querying such data has become a very important issue, and, has inspired extensive interest within the database community. In this thesis, we address the problem of efficiently answering distance queries in very large graphs. We propose EUQLID, an efficient algorithm to answer distance queries on very large directed graphs. This algorithm exploits some interesting properties that real-world graphs exhibit. It is based on an efficient variant of the seminal 2-hop algorithm. We conducted an extensive set of experiments against state-of-the-art algorithms which show that our approach outperforms existing approaches and that distance queries can be processed within hundreds of milliseconds on very large real-world directed graphs. We also propose an access control model for social networks which can make use of EUQLID to scale on very large graphs. This model allows users to specify fine-grained privacy policies based on their relations with other users in the network. We describe and demonstrate Primates as a prototype which enforces the proposed access control model and allows users to specify their privacy preferences via a graphical user-friendly interface

43

Ben, Dhia Imen. "Gestion des grandes masses de données dans les graphes réels". Electronic Thesis or Diss., Paris, ENST, 2013. http://www.theses.fr/2013ENST0087.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

De nos jours, un grand nombre d’applications utilisent de grands graphes pour la modélisation de données du monde réel. Nous avons assisté, ces dernières années, à une très rapide croissance de ces graphes dans divers contextes ; à savoir, les réseaux sociaux, la bioinformatique, le web sémantique, les systèmes de gestion des données géographiques, etc. La gestion, l’analyse et l’interrogation de ces données constituent un enjeu très important et ont suscité un vaste intérêt dans la communauté des Bases de Données. L’objectif de cette thèse est de fournir des algorithmes efficaces pour l’indexation et l’interrogation des données dans les grands graphes. Nous avons proposé EUQLID, une technique d’indexation qui permet de répondre efficacement aux requêtes de calcul de distance dans les grands graphes orientés. L’efficacité de cette technique est dûe au fait qu’elle exploite des propriétés intéressantes des graphes du monde réel. En effet, nous proposons un algorithme basé sur une variante efficace du fameux algorithme 2-hop. Les résultats obtenus montrent que notre algorithme surpassent les approches existantes en terme de temps d’indexation, ainsi qu’en temps de réponse. En effet, il permet de calculer la distance entre deux noeuds en quelques centaines de millisecondes sur de très grands graphes. Nous proposons également un modèle de contrôle d’accès pour les réseaux sociaux qui permet aux utlisateurs de spécifier leurs poltiques de contrôle d’accès en se basant sur leurs relations sociales, et qui peut utiliser EUQLID pour passer à l’échelle. Nous décrivons Primates comme étant un prototype appliquant le modèle proposé
In the last few years, we have been witnessing a rapid growth of networks in a wide range of applications such as social networking, bio-informatics, semantic web, road maps, etc. Most of these networks can be naturally modeled as large graphs. Managing, analyzing, and querying such data has become a very important issue, and, has inspired extensive interest within the database community. In this thesis, we address the problem of efficiently answering distance queries in very large graphs. We propose EUQLID, an efficient algorithm to answer distance queries on very large directed graphs. This algorithm exploits some interesting properties that real-world graphs exhibit. It is based on an efficient variant of the seminal 2-hop algorithm. We conducted an extensive set of experiments against state-of-the-art algorithms which show that our approach outperforms existing approaches and that distance queries can be processed within hundreds of milliseconds on very large real-world directed graphs. We also propose an access control model for social networks which can make use of EUQLID to scale on very large graphs. This model allows users to specify fine-grained privacy policies based on their relations with other users in the network. We describe and demonstrate Primates as a prototype which enforces the proposed access control model and allows users to specify their privacy preferences via a graphical user-friendly interface

44

Aouiche, Kamel. "Techniques de fouille de données pour l'optimisation automatique des performances des entrepôts de données". Lyon 2, 2005. http://theses.univ-lyon2.fr/documents/lyon2/2005/aouiche_k.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Avec le développement des bases de données en général et des entrepôts de données en particulier, il est devenu très important de réduire les tâches d'administration des systèmes de gestion de base de données. Les systèmes auto-administratifs ont pour objectif de s'administrer et de s'adapter eux-mêmes, automatiquement, sans perte ou même avec un gain de performance. L'idée d'utiliser des techniques de fouille de données pour extraire des connaissances utiles à partir des données stockées pour leur administration est une approche très prometteuse, notamment dans le domaine des entrepôts de données, où les requêtes sont très hétérogènes et ne peuvent pas être interprétées facilement. L'objectif de cette thèse est d'étudier les techniques d'auto-administration des entrepôts de données, principalement des techniques d'optimisation des performances, comme l'indexation et la matérialisation de vues, et de rechercher une manière d'extraire des données elles-mêmes des connaissances utilisables pour appliquer ces techniques. Nous avons réalisé un outil qui recommande une configuration d'index et de vues matérialisées permettant d'optimiser le temps d'accès aux données. Notre outil effectue une recherche de motifs fréquents fermés sur une charge donnée et une classification non supervisée des requêtes de la charge pour construire cette configuration d'index et de vues. Nous avons également couplé la sélection d'index et de vues matérialisées afin de partager efficacement l'espace de disque alloué pour stocker ces structures. Enfin, nous avons appliqué les principes développés dans le cadre relationnel aux entrepôts de données XML. Nous avons proposé une structure d'index précalculant les jointures entre les faits et les dimensions XML et adapté notre stratégie de sélection de vues pour matérialiser des vues XML
With the development of databases in general and data warehouses in particular, it becomes very important to reduce the function of administration. The aim of auto-administrative systems is administrate and adapt themselves automatically, without loss or even with a gain in performance. The idea of using data mining techniques to extract useful knowledge for administration from the data themselves has been in the air for some years. However, no research has ever been achieved. As for as we know, it nevertheless remains a very promising approach, notably in the field of the data warehousing, where the queries are very heterogeneous and cannot be interpreted easily. The aim of this thesis is to study auto-administration techniques in databases and data warehouses, mainly performance optimization techniques such as indexing and view materialization, and to look for a way of extracting from stored data themselves useful knowledge to apply these techniques. We have designed a tool that finds an index and view configuration allowing to optimize data access time. Our tool searches frequent itemsets in a given workload and clusters the query workload to compute this index and view configuration. Finally, we have extended the performance optimization to XML data warehouses. In this area, we proposed an indexing technique that precomputes joins between XML facts and dimensions and adapted our materialized view selection strategy for XML materialized views

45

De, Vlieger P. "Création d'un environnement de gestion de base de données " en grille ". Application à l'échange de données médicales". Phd thesis, Université d'Auvergne - Clermont-Ferrand I, 2011. http://tel.archives-ouvertes.fr/tel-00654660.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La problématique du transport de la donnée médicale, de surcroît nominative, comporte de nombreuses contraintes, qu'elles soient d'ordre technique, légale ou encore relationnelle. Les nouvelles technologies, issues particulièrement des grilles informatiques, permettent d'offrir une nouvelle approche au partage de l'information. En effet, le développement des intergiciels de grilles, notamment ceux issus du projet européen EGEE, ont permis d'ouvrir de nouvelles perspectives pour l'accès distribué aux données. Les principales contraintes d'un système de partage de données médicales, outre les besoins en termes de sécurité, proviennent de la façon de recueillir et d'accéder à l'information. En effet, la collecte, le déplacement, la concentration et la gestion de la donnée, se fait habituellement sur le modèle client-serveur traditionnel et se heurte à de nombreuses problématiques de propriété, de contrôle, de mise à jour, de disponibilité ou encore de dimensionnement des systèmes. La méthodologie proposée dans cette thèse utilise une autre philosophie dans la façon d'accéder à l'information. En utilisant toute la couche de contrôle d'accès et de sécurité des grilles informatiques, couplée aux méthodes d'authentification robuste des utilisateurs, un accès décentralisé aux données médicales est proposé. Ainsi, le principal avantage est de permettre aux fournisseurs de données de garder le contrôle sur leurs informations et ainsi de s'affranchir de la gestion des données médicales, le système étant capable d'aller directement chercher la donnée à la source. L'utilisation de cette approche n'est cependant pas complètement transparente et tous les mécanismes d'identification des patients et de rapprochement d'identités (data linkage) doivent être complètement repensés et réécris afin d'être compatibles avec un système distribué de gestion de bases de données. Le projet RSCA (Réseau Sentinelle Cancer Auvergne - www.e-sentinelle.org) constitue le cadre d'application de ce travail. Il a pour objectif de mutualiser les sources de données auvergnates sur le dépistage organisé des cancers du sein et du côlon. Les objectifs sont multiples : permettre, tout en respectant les lois en vigueur, d'échanger des données cancer entre acteurs médicaux et, dans un second temps, offrir un support à l'analyse statistique et épidémiologique.

46

De, Vlieger Paul. "Création d'un environnement de gestion de base de données "en grille" : application à l'échange de données médicales". Phd thesis, Université d'Auvergne - Clermont-Ferrand I, 2011. http://tel.archives-ouvertes.fr/tel-00719688.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La problématique du transport de la donnée médicale, de surcroît nominative, comporte de nombreuses contraintes, qu'elles soient d'ordre technique, légale ou encore relationnelle. Les nouvelles technologies, issues particulièrement des grilles informatiques, permettent d'offrir une nouvelle approche au partage de l'information. En effet, le développement des intergiciels de grilles, notamment ceux issus du projet européen EGEE, ont permis d'ouvrir de nouvelles perspectives pour l'accès distribué aux données. Les principales contraintes d'un système de partage de données médicales, outre les besoins en termes de sécurité, proviennent de la façon de recueillir et d'accéder à l'information. En effet, la collecte, le déplacement, la concentration et la gestion de la donnée, se fait habituellement sur le modèle client-serveur traditionnel et se heurte à de nombreuses problématiques de propriété, de contrôle, de mise à jour, de disponibilité ou encore de dimensionnement des systèmes. La méthodologie proposée dans cette thèse utilise une autre philosophie dans la façon d'accéder à l'information. En utilisant toute la couche de contrôle d'accès et de sécurité des grilles informatiques, couplée aux méthodes d'authentification robuste des utilisateurs, un accès décentralisé aux données médicales est proposé. Ainsi, le principal avantage est de permettre aux fournisseurs de données de garder le contrôle sur leurs informations et ainsi de s'affranchir de la gestion des données médicales, le système étant capable d'aller directement chercher la donnée à la source.L'utilisation de cette approche n'est cependant pas complètement transparente et tous les mécanismes d'identification des patients et de rapprochement d'identités (data linkage) doivent être complètement repensés et réécris afin d'être compatibles avec un système distribué de gestion de bases de données. Le projet RSCA (Réseau Sentinelle Cancer Auvergne - www.e-sentinelle.org) constitue le cadre d'application de ce travail. Il a pour objectif de mutualiser les sources de données auvergnates sur le dépistage organisé des cancers du sein et du côlon. Les objectifs sont multiples : permettre, tout en respectant les lois en vigueur, d'échanger des données cancer entre acteurs médicaux et, dans un second temps, offrir un support à l'analyse statistique et épidémiologique.

47

Mizi, Mohammed. "Conception et réalisation d'un système de gestion de bases de formulaires". Lyon, INSA, 1991. http://www.theses.fr/1991ISAL0055.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

L'objectif de cette étude est le développement d'un système de gestion de base de formulaires (S. G. B. F. ) utilisant tous les outils et les mécanismes internes d'un S. G. B. D. , bâti sur le concept de la relation universelle, pour concevoir et manipuler des formulaires. Dans notre étude nous avons abordé les problèmes de conception de description, de manipulation de formulaires ainsi que des applications combinant un ensemble de formulaires, facilités par l'utilisation du concept de la relation universelle. La description du formulaire a été réalisée à partir des structures des relations de la base qui ont permis la création de schémas simples à partir desquels par composition ou par recouvrement (en utilisant des règles d'héritage), on obtient la structure des formulaires. Cette approche a été enrichie par les extensions apportées au modèle relationnel (spécialisation/généralisation) pour offrir plus de flexibilité dans la conception des formulaires en permettant le partage des objets et l'élaboration des versions. La manipulation a été effectuée grâce aux outils hérités du couplage avec le S. G. B. D. Relationnel et des modules propres tels que: calcul, valorisation, archivage, recherche, restitution, etc. . . Une gestion de l'historique des données permet des reconstitutions fidèles des occurrences de formulaires sans risques d'altération lors d'une mise a jour de la base. Le formulaire est un objet de la base de données. Une occurrence de formulaire sera engendrée à partir de une ou plusieurs relations de la base. Une application sera définie comme un ensemble de formulaires subissant des opérations de traitement
The aim of the work deal with the development of form base management system (FBMS) using all tools and intervals mechanisms of a DBMS, built upon the concept universal relation, for to conceive and manipulate forms. We focus on the problems of conception, description, manipulation of forms and applications that combine a set of forms. The description of form is realised from the structure of relations of the Database which allows the creation of sample schema from which we obtain the form structure, by composition (using the inheritance rules). This approach is enriched with the extension of relational model (generalisation/specialization) offering flexibility by abject sharing and manipulation of versions. The manipulation is realised with the tools inherited from coupling with relational DBMS and specific modules : calculation, evaluation, recording, searching, restitution etc. . . The management of historical data facilitate the appropriate occurrence of form without alteration during the update of database. The form is on abject of the database. An occurrence of form will be generated from one or many relations. An application will be defined with form that forms it's interface and data that use it. All forms of an application are stocked in the database.

48

Buslig, Leticia. "Méthodes stochastiques de modélisation de données : application à la reconstruction de données non régulières". Thesis, Aix-Marseille, 2014. http://www.theses.fr/2014AIXM4734/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

49

Bellosta, Marie-Jo. "Systèmes d'interfaces pour la gestion d'objets persistants, Omnis". Paris 6, 1992. http://www.theses.fr/1992PA066034.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les SGBDOO ont pour principale motivation d'apporter une solution nouvelle aux problèmes rencontrés par les applications ayant à manipuler de grands volumes de données complexes. En combinant les avantages des SGBD et des systèmes OO, ils apportent un meilleur support des objets complexes et une plus grande productivité des programmeurs d'applications par rapport aux systèmes relationnels. Dans ce contexte, cette thèse propose un système d'interfaces pour la gestion d'objets, omnis, destiné à faciliter la connexion entre des outils OO tels que des compilateurs, interpreteurs ou programme CAO et un gérant extensible d'objets afin de fournir un support au stockage des objets persistants et partagés. Omnis a pour objectif de rendre le gérant de schéma indépendant du modèle objet qu'il accueille. Son originalité réside dans sa capacité à s'adapter à différents modèles objets via son analyse des modèles et son extensibilité. L'analyse des modèles décompose tout modèle objet en au moins cinq sous-modèles: instanciation, héritage, agrégation, composition et client. Les sémantiques de chaque sous-modèle sont définies par un ensemble d'invariants et un ensemble d'opérations. Ainsi, l'accueil d'un nouveau modèle consiste à spécialiser les sous-modèles pertinents en redéfinissant ou en enrichissant leurs invariants et leurs opérations. L'extensibilité d'omnis est due à son modèle objet réflexif permettant la création dynamique d'objets de meta-description pour capturer de nouveaux modèles objets. Outre les bénéfices traditionnels de réutilisabilité et d'extensibilité, cette approche ouvre la voie à l'intéropérabilité entre systèmes basés sur différents modèles objets en fournissant une uniformité dans les protocoles de gestion de schéma, d'accès et de représentation d'objets

50

Diène, Aly Wane. "Contribution à la gestion de structures de données distribuées et scalables". Paris 9, 2001. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=2001PA090039.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri