Dissertations / Theses on the topic 'Gestion de données transcripomiques'

To see the other types of publications on this topic, follow the link: Gestion de données transcripomiques.

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Gestion de données transcripomiques.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Bouvier, Matteo. "Identification et contrôle de réseaux de régulation de gènes." Electronic Thesis or Diss., Lyon, École normale supérieure, 2023. http://www.theses.fr/2023ENSL0117.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L’identification précise de Réseaux de Régulation de Gènes (RRG) est encore aujourd’hui une question de grande importance pour la biologie des systèmes, puisqu’elle permettrait d’expliquer finement les phénomènes de prise de décision cellulaire. Des travaux menés précédemment dans notre équipe ont permis d'établir un algorithme itératif de reconstruction de RRGs. Cet algorithme a la particularité de ne pas proposer un ensemble de réseaux simulables au lieu d’un seul réseau candidat. Cette thèse propose une stratégie de sélection parmi un ensemble de RRGs par conception d’expériences de perturbation. Dans un premier temps, nous avons proposé une solution informatique pour le stockage et la manipulation des très grands jeux de données produits par la simulation des RRGs. Cette solution prend la forme de deux librairies Python pour optimiser l’empreinte mémoire de grandes matrices. Ensuite, nous avons défini une stratégie de sélection de réseaux par conception d'expériences. Une analyse topologique des réseaux candidats permet de choisir un petit nombre de perturbations qui seront ensuite simulées sur les RRGs afin de retenir la perturbation la plus discriminante. Enfin, nous avons élaboré un algorithme de contrôle de RRGs permettant de prédire la séquence de stimuli à appliquer pour le mener à un état cellulaire voulu et dont une preuve de concept a été faite
Precise inference of Gene Regulatory Networks (GRNs) remains to this day a challenging task in the systems biology field but would allow us to explain the processes of cellular decision-making. Previous work in our team has led to the proposal of an iterative GRN inference algorithm that does not produce a single GRN but rather an ensemble of executable candidate networks. This thesis proposes a strategy for GRN selection from an ensemble that relies on design of experiments. First, we introduce two Python libraries for the storage and manipulation of the very large datasets generated by the simulation of our GRNs. These libraries control the memory footprint of large and dense matrices. Then, we propose a design of experiment strategy for selecting networks. A small number of promising perturbations is selected by topological analysis of the GRNs. Perturbations are simulated and the most discriminative is chosen. Finally, we developed an algorithm for controlling GRNs by determining the sequence of stimuli to apply to reach a desired cell state. A proof of concept is presented
2

Medina, Marquez Alejandro. "L'analyse des données évolutives." Paris 9, 1985. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=1985PA090022.

Full text
APA, Harvard, Vancouver, ISO, and other styles
3

Le, Béchec Antony. "Gestion, analyse et intégration des données transcriptomiques." Rennes 1, 2007. http://www.theses.fr/2007REN1S051.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Dans le cadre de l'étude des mécanismes moléculaires impliqués dans les processus biologiques liés aux pathologies, la transcriptomique permet d’étudier l’expression de plusieurs milliers de gènes en une seule expérience. Les standards internationaux permettent actuellement de gérer la grande quantité de données générées par cette technologie et de nombreux algorithmes permettent le traitement et l’analyse des données d’expression. Le grand défi d’aujourd’hui réside dans l’interprétation des données, notamment par l’intégration de connaissances biologiques supplémentaires permettant la création d’un contexte d’étude aidant à la compréhension des mécanismes biologiques. Afin de répondre aux besoins liés à l’exploitation de ces données transcriptomiques, un environnement complet et évolutif a été développé, M@IA (Micro@rray Integrated Application), permettant de gérer les expériences de puces à ADN mais également traiter et analyser les données d’expression. Une méthode de biologie intégrative combinant de multiples sources de données a été conçue pour exploiter des listes de gènes différentiellement exprimés par l’interprétation de réseaux de gènes représentés sous forme de graphes d’interaction. Egalement, une méthode de méta-analyse de données d’expression de gènes issues de la bibliographie a permis de sélectionner et combiner des études similaires associées à la progression tumorale du foie. En conclusion, ces travaux s’intègrent totalement à l’actuel développement de la biologie intégrative, indispensable à la résolution des mécanismes physiopathologiques
Aiming at a better understanding of diseases, transcriptomic approaches allow the analysis of several thousands of genes in a single experiment. To date, international standard initiatives have allowed the utilization of large quantity of data generated using transcriptomic approaches by the whole scientific community, and a large number of algorithms are available to process and analyze the data sets. However, the major challenge remaining to tackle is now to provide biological interpretations to these large sets of data. In particular, their integration with additional biological knowledge would certainly lead to an improved understanding of complex biological mechanisms. In my thesis work, I have developed a novel and evolutive environment for the management and analysis of transcriptomic data. Micro@rray Integrated Application (M@IA) allows for management, processing and analysis of large scale expression data sets. In addition, I elaborated a computational method to combine multiple data sources and represent differentially expressed gene networks as interaction graphs. Finally, I used a meta-analysis of gene expression data extracted from the literature to select and combine similar studies associated with the progression of liver cancer. In conclusion, this work provides a novel tool and original analytical methodologies thus contributing to the emerging field of integrative biology and indispensable for a better understanding of complex pathophysiological processes
4

Maniu, Silviu. "Gestion des données dans les réseaux sociaux." Thesis, Paris, ENST, 2012. http://www.theses.fr/2012ENST0053/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Nous abordons dans cette thèse quelques-unes des questions soulevées par I'émergence d'applications sociales sur le Web, en se concentrant sur deux axes importants: l'efficacité de recherche sociale dans les applications Web et l'inférence de liens sociaux signés à partir des interactions entre les utilisateurs dans les applications Web collaboratives. Nous commençons par examiner la recherche sociale dans les applications de "tag- ging". Ce problème nécessite une adaptation importante des techniques existantes, qui n'utilisent pas des informations sociaux. Dans un contexte ou le réseau est importante, on peut (et on devrait) d'exploiter les liens sociaux, ce qui peut indiquer la façon dont les utilisateurs se rapportent au demandeur et combien de poids leurs actions de "tagging" devrait avoir dans le résultat. Nous proposons un algorithme qui a le potentiel d'évoluer avec la taille des applications actuelles, et on le valide par des expériences approfondies. Comme les applications de recherche sociale peut être considérée comme faisant partie d'une catégorie plus large des applications sensibles au contexte, nous étudions le problème de répondre aux requêtes à partir des vues, en se concentrant sur deux sous-problèmes importants. En premier, la manipulation des éventuelles différences de contexte entre les différents points de vue et une requête d'entrée conduit à des résultats avec des score incertains, valables pour le nouveau contexte. En conséquence, les algorithmes top-k actuels ne sont plus directement applicables et doivent être adaptés aux telle incertitudes dans les scores des objets. Deuxièmement, les techniques adaptées de sélection de vue sont nécessaires, qui peuvent s’appuyer sur les descriptions des requêtes et des statistiques sur leurs résultats. Enfin, nous présentons une approche pour déduire un réseau signé (un "réseau de confiance") à partir de contenu généré dans Wikipedia. Nous étudions les mécanismes pour deduire des relations entre les contributeurs Wikipédia - sous forme de liens dirigés signés - en fonction de leurs interactions. Notre étude met en lumière un réseau qui est capturée par l’interaction sociale. Nous examinons si ce réseau entre contributeurs Wikipedia représente en effet une configuration plausible des liens signes, par l’étude de ses propriétés globaux et locaux du reseau, et en évaluant son impact sur le classement des articles de Wikipedia
We address in this thesis some of the issues raised by the emergence of social applications on the Web, focusing on two important directions: efficient social search inonline applications and the inference of signed social links from interactions between users in collaborative Web applications. We start by considering social search in tagging (or bookmarking) applications. This problem requires a significant departure from existing, socially agnostic techniques. In a network-aware context, one can (and should) exploit the social links, which can indicate how users relate to the seeker and how much weight their tagging actions should have in the result build-up. We propose an algorithm that has the potential to scale to current applications, and validate it via extensive experiments. As social search applications can be thought of as part of a wider class of context-aware applications, we consider context-aware query optimization based on views, focusing on two important sub-problems. First, handling the possible differences in context between the various views and an input query leads to view results having uncertain scores, i.e., score ranges valid for the new context. As a consequence, current top-k algorithms are no longer directly applicable and need to be adapted to handle such uncertainty in object scores. Second, adapted view selection techniques are needed, which can leverage both the descriptions of queries and statistics over their results. Finally, we present an approach for inferring a signed network (a "web of trust")from user-generated content in Wikipedia. We investigate mechanisms by which relationships between Wikipedia contributors - in the form of signed directed links - can be inferred based their interactions. Our study sheds light into principles underlying a signed network that is captured by social interaction. We investigate whether this network over Wikipedia contributors represents indeed a plausible configuration of link signs, by studying its global and local network properties, and at an application level, by assessing its impact in the classification of Wikipedia articles.javascript:nouvelleZone('abstract');_ajtAbstract('abstract')
5

Maniu, Silviu. "Gestion des données dans les réseaux sociaux." Electronic Thesis or Diss., Paris, ENST, 2012. http://www.theses.fr/2012ENST0053.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Nous abordons dans cette thèse quelques-unes des questions soulevées par I'émergence d'applications sociales sur le Web, en se concentrant sur deux axes importants: l'efficacité de recherche sociale dans les applications Web et l'inférence de liens sociaux signés à partir des interactions entre les utilisateurs dans les applications Web collaboratives. Nous commençons par examiner la recherche sociale dans les applications de "tag- ging". Ce problème nécessite une adaptation importante des techniques existantes, qui n'utilisent pas des informations sociaux. Dans un contexte ou le réseau est importante, on peut (et on devrait) d'exploiter les liens sociaux, ce qui peut indiquer la façon dont les utilisateurs se rapportent au demandeur et combien de poids leurs actions de "tagging" devrait avoir dans le résultat. Nous proposons un algorithme qui a le potentiel d'évoluer avec la taille des applications actuelles, et on le valide par des expériences approfondies. Comme les applications de recherche sociale peut être considérée comme faisant partie d'une catégorie plus large des applications sensibles au contexte, nous étudions le problème de répondre aux requêtes à partir des vues, en se concentrant sur deux sous-problèmes importants. En premier, la manipulation des éventuelles différences de contexte entre les différents points de vue et une requête d'entrée conduit à des résultats avec des score incertains, valables pour le nouveau contexte. En conséquence, les algorithmes top-k actuels ne sont plus directement applicables et doivent être adaptés aux telle incertitudes dans les scores des objets. Deuxièmement, les techniques adaptées de sélection de vue sont nécessaires, qui peuvent s’appuyer sur les descriptions des requêtes et des statistiques sur leurs résultats. Enfin, nous présentons une approche pour déduire un réseau signé (un "réseau de confiance") à partir de contenu généré dans Wikipedia. Nous étudions les mécanismes pour deduire des relations entre les contributeurs Wikipédia - sous forme de liens dirigés signés - en fonction de leurs interactions. Notre étude met en lumière un réseau qui est capturée par l’interaction sociale. Nous examinons si ce réseau entre contributeurs Wikipedia représente en effet une configuration plausible des liens signes, par l’étude de ses propriétés globaux et locaux du reseau, et en évaluant son impact sur le classement des articles de Wikipedia
We address in this thesis some of the issues raised by the emergence of social applications on the Web, focusing on two important directions: efficient social search inonline applications and the inference of signed social links from interactions between users in collaborative Web applications. We start by considering social search in tagging (or bookmarking) applications. This problem requires a significant departure from existing, socially agnostic techniques. In a network-aware context, one can (and should) exploit the social links, which can indicate how users relate to the seeker and how much weight their tagging actions should have in the result build-up. We propose an algorithm that has the potential to scale to current applications, and validate it via extensive experiments. As social search applications can be thought of as part of a wider class of context-aware applications, we consider context-aware query optimization based on views, focusing on two important sub-problems. First, handling the possible differences in context between the various views and an input query leads to view results having uncertain scores, i.e., score ranges valid for the new context. As a consequence, current top-k algorithms are no longer directly applicable and need to be adapted to handle such uncertainty in object scores. Second, adapted view selection techniques are needed, which can leverage both the descriptions of queries and statistics over their results. Finally, we present an approach for inferring a signed network (a "web of trust")from user-generated content in Wikipedia. We investigate mechanisms by which relationships between Wikipedia contributors - in the form of signed directed links - can be inferred based their interactions. Our study sheds light into principles underlying a signed network that is captured by social interaction. We investigate whether this network over Wikipedia contributors represents indeed a plausible configuration of link signs, by studying its global and local network properties, and at an application level, by assessing its impact in the classification of Wikipedia articles.javascript:nouvelleZone('abstract');_ajtAbstract('abstract')
6

Benchkron, Said Soumia. "Bases de données et logiciels intégrés." Paris 9, 1985. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=1985PA090025.

Full text
APA, Harvard, Vancouver, ISO, and other styles
7

Castelltort, Arnaud. "Historisation de données dans les bases de données NoSQLorientées graphes." Thesis, Montpellier 2, 2014. http://www.theses.fr/2014MON20076.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse porte sur l'historisation des données dans les bases de données graphes. La problématique des données en graphes existe depuis longtemps mais leur exploitation par des moteurs de système de gestion de bases de données, principalement dans les moteurs NoSQL, est récente. Cette apparition est notamment liée à l'émergence des thématiques Big Data dont les propriétés intrinsèques, souvent décrites à l'aide des propriétés 3V (variété, volume, vélocité), ont révélé les limites des bases de données relationnelles classiques. L'historisation quant à elle, est un enjeu majeur des SI qui a été longtemps abordé seulement pour des raisons techniques de sauvegarde, de maintenance ou plus récemment pour des raisons décisionnelles (suites applicatives de Business Intelligence). Cependant, cet aspect s'avère maintenant prendre une place prédominante dans les applications de gestion. Dans ce contexte, les bases de données graphes qui sont de plus en plus utilisées n'ont que très peu bénéficié des apports récents de l'historisation. La première contribution consiste à étudier le nouveau poids des données historisées dans les SI de gestion. Cette analyse repose sur l'hypothèse selon laquelle les applications de gestion intègrent de plus en plus en leur sein les enjeux d'historisation. Nous discutons ce positionnement au regard de l'analyse de l'évolution des SI par rapport à cette problématique. La deuxième contribution vise, au-delà de l'étude de l'évolution des sytèmes d'information, à proposer un modèle innovant de gestion de l'historisation dans les bases de données NoSQL en graphes. Cette proposition consiste d'une part en l'élaboration d'un système unique et générique de représentation de l'historique au sein des BD NoSQL en graphes et d'autre part à proposer des modes d'interrogation (requêtes). Nous montrons qu'il est possible d'utiliser ce système aussi bien pour des requêtes simples (c'est-à-dire correspondant à ce que l'on attend en première intention d'un système d'historisation~: récupérer les précédentes versions d'une donnée) mais aussi de requêtes plus complexes qui permettent de tirer parti aussi bien de la notion d'historisation que des possibilités offertes par les bases de données graphes (par exemple, la reconnaissance de motifs dans le temps)
This thesis deals with data historization in the context of graphs. Graph data have been dealt with for many years but their exploitation in information systems, especially in NoSQL engines, is recent. The emerging Big Data and 3V contexts (Variety, Volume, Velocity) have revealed the limits of classical relational databases. Historization, on its side, has been considered for a long time as only linked with technical and backups issues, and more recently with decisional reasons (Business Intelligence). However, historization is now taking more and more importance in management applications.In this framework, graph databases that are often used have received little attention regarding historization. Our first contribution consists in studying the impact of historized data in management information systems. This analysis relies on the hypothesis that historization is taking more and more importance. Our second contribution aims at proposing an original model for managing historization in NoSQL graph databases.This proposition consists on the one hand in elaborating a unique and generic system for representing the history and on the other hand in proposing query features.We show that the system can support both simple and complex queries.Our contributions have been implemented and tested over synthetic and real databases
8

Chardonnens, Anne. "La gestion des données d'autorité archivistiques dans le cadre du Web de données." Doctoral thesis, Universite Libre de Bruxelles, 2020. https://dipot.ulb.ac.be/dspace/bitstream/2013/315804/5/Contrat.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Dans un contexte archivistique en transition, marqué par l'évolution des normes internationales de description archivistique et le passage vers une logique de graphes d'entités, cette thèse se concentre plus spécifiquement sur la gestion des données d'autorité relatives à des personnes physiques. Elle vise à explorer comment le secteur des archives peut bénéficier du développement du Web de données pour favoriser une gestion soutenable de ses données d'autorité :de leur création à leur mise à disposition, en passant par leur maintenance et leur interconnexion avec d'autres ressources.La première partie de la thèse est dédiée à un état de l'art englobant tant les récentes évolutions des normes internationales de description archivistique que le développement de l'écosystème Wikibase. La seconde partie vise à analyser les possibilités et les limites d'une approche faisant appel au logiciel libre Wikibase. Cette seconde partie s'appuie sur une étude empirique menée dans le contexte du Centre d'Études et de Documentation Guerre et Sociétés Contemporaines (CegeSoma). Elle permet de tester les perspectives dont disposent des institutions possédant des ressources limitées et n'ayant pas encore adopté la logique du Web de données. Par le biais de jeux de données relatifs à des personnes liées à la Seconde Guerre mondiale, elle dissèque les différentes étapes conduisant à leur publication sous forme de données ouvertes et liées. L'expérience menée en seconde partie de thèse montre comment une base de connaissance mue par un logiciel tel que Wikibase rationalise la création de données d'autorité structurées multilingues. Des exemples illustrent la façon dont ces entités peuvent ensuite être réutilisées et enrichies à l'aide de données externes dans le cadre d'interfaces destinées au grand public. Tout en soulignant les limites propres à l'utilisation de Wikibase, cette thèse met en lumière ses possibilités, en particulier dans le cadre de la maintenance des données. Grâce à son caractère empirique et aux recommandations qu'elle formule, cette recherche contribue ainsi aux efforts et réflexions menés dans le cadre de la transition des métadonnées archivistiques.
The subject of this thesis is the management of authority records for persons. The research was conducted in an archival context in transition, which was marked by the evolution of international standards of archival description and a shift towards the application of knowledge graphs. The aim of this thesis is to explore how the archival sector can benefit from the developments concerning Linked Data in order to ensure the sustainable management of authority records. Attention is not only devoted to the creation of the records and how they are made available but also to their maintenance and their interlinking with other resources.The first part of this thesis addresses the state of the art of the developments concerning the international standards of archival description as well as those regarding the Wikibase ecosystem. The second part presents an analysis of the possibilities and limits associated with an approach in which the free software Wikibase is used. The analysis is based on an empirical study carried out with data of the Study and Documentation Centre War and Contemporary Society (CegeSoma). It explores the options that are available to institutions that have limited resources and that have not yet implemented Linked Data. Datasets that contain information of people linked to the Second World War were used to examine the different stages involved in the publication of data as Linked Open Data.The experiment carried out in the second part of the thesis shows how a knowledge base driven by software such as Wikibase streamlines the creation of multilingual structured authority data. Examples illustrate how these entities can then be reused and enriched by using external data in interfaces aimed at the general public. This thesis highlights the possibilities of Wikibase, particularly in the context of data maintenance, without ignoring the limitations associated with its use. Due to its empirical nature and the formulated recommendations, this thesis contributes to the efforts and reflections carried out within the framework of the transition of archival metadata.
Doctorat en Information et communication
info:eu-repo/semantics/nonPublished
9

Tos, Uras. "Réplication de données dans les systèmes de gestion de données à grande échelle." Thesis, Toulouse 3, 2017. http://www.theses.fr/2017TOU30066/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Ces dernières années, la popularité croissante des applications, e.g. les expériences scientifiques, Internet des objets et les réseaux sociaux, a conduit à la génération de gros volumes de données. La gestion de telles données qui de plus, sont hétérogènes et distribuées à grande échelle, constitue un défi important. Dans les systèmes traditionnels tels que les systèmes distribués et parallèles, les systèmes pair-à-pair et les systèmes de grille, répondre à des objectifs tels que l'obtention de performances acceptables tout en garantissant une bonne disponibilité de données constituent des objectifs majeurs pour l'utilisateur, en particulier lorsque ces données sont réparties à travers le monde. Dans ce contexte, la réplication de données, une technique très connue, permet notamment: (i) d'augmenter la disponibilité de données, (ii) de réduire les coûts d'accès aux données et (iii) d'assurer une meilleure tolérance aux pannes. Néanmoins, répliquer les données sur tous les nœuds est une solution non réaliste vu qu'elle génère une consommation importante de la bande passante en plus de l'espace limité de stockage. Définir des stratégies de réplication constitue la solution à apporter à ces problématiques. Les stratégies de réplication de données qui ont été proposées pour les systèmes traditionnels cités précédemment ont pour objectif l'amélioration des performances pour l'utilisateur. Elles sont difficiles à adapter dans les systèmes de cloud. En effet, le fournisseur de cloud a pour but de générer un profit en plus de répondre aux exigences des locataires. Satisfaire les attentes de ces locataire en matière de performances sans sacrifier le profit du fournisseur d'un coté et la gestion élastiques des ressources avec une tarification suivant le modèle 'pay-as-you-go' d'un autre coté, constituent des principes fondamentaux dans les systèmes cloud. Dans cette thèse, nous proposons une stratégie de réplication de données pour satisfaire les exigences du locataire, e.g. les performances, tout en garantissant le profit économique du fournisseur. En se basant sur un modèle de coût, nous estimons le temps de réponse nécessaire pour l'exécution d'une requête distribuée. La réplication de données n'est envisagée que si le temps de réponse estimé dépasse un seuil fixé auparavant dans le contrat établi entre le fournisseur et le client. Ensuite, cette réplication doit être profitable du point de vue économique pour le fournisseur. Dans ce contexte, nous proposons un modèle économique prenant en compte aussi bien les dépenses et les revenus du fournisseur lors de l'exécution de cette requête. Nous proposons une heuristique pour le placement des répliques afin de réduire les temps d'accès à ces nouvelles répliques. De plus, un ajustement du nombre de répliques est adopté afin de permettre une gestion élastique des ressources. Nous validons la stratégie proposée par une évaluation basée sur une simulation. Nous comparons les performances de notre stratégie à celles d'une autre stratégie de réplication proposée dans les clouds. L'analyse des résultats obtenus a montré que les deux stratégies comparées répondent à l'objectif de performances pour le locataire. Néanmoins, une réplique de données n'est crée, avec notre stratégie, que si cette réplication est profitable pour le fournisseur
In recent years, growing popularity of large-scale applications, e.g. scientific experiments, Internet of things and social networking, led to generation of large volumes of data. The management of this data presents a significant challenge as the data is heterogeneous and distributed on a large scale. In traditional systems including distributed and parallel systems, peer-to-peer systems and grid systems, meeting objectives such as achieving acceptable performance while ensuring good availability of data are major challenges for service providers, especially when the data is distributed around the world. In this context, data replication, as a well-known technique, allows: (i) increased data availability, (ii) reduced data access costs, and (iii) improved fault-tolerance. However, replicating data on all nodes is an unrealistic solution as it generates significant bandwidth consumption in addition to exhausting limited storage space. Defining good replication strategies is a solution to these problems. The data replication strategies that have been proposed for the traditional systems mentioned above are intended to improve performance for the user. They are difficult to adapt to cloud systems. Indeed, cloud providers aim to generate a profit in addition to meeting tenant requirements. Meeting the performance expectations of the tenants without sacrificing the provider's profit, as well as managing resource elasticities with a pay-as-you-go pricing model, are the fundamentals of cloud systems. In this thesis, we propose a data replication strategy that satisfies the requirements of the tenant, such as performance, while guaranteeing the economic profit of the provider. Based on a cost model, we estimate the response time required to execute a distributed database query. Data replication is only considered if, for any query, the estimated response time exceeds a threshold previously set in the contract between the provider and the tenant. Then, the planned replication must also be economically beneficial to the provider. In this context, we propose an economic model that takes into account both the expenditures and the revenues of the provider during the execution of any particular database query. Once the data replication is decided to go through, a heuristic placement approach is used to find the placement for new replicas in order to reduce the access time. In addition, a dynamic adjustment of the number of replicas is adopted to allow elastic management of resources. Proposed strategy is validated in an experimental evaluation carried out in a simulation environment. Compared with another data replication strategy proposed in the cloud systems, the analysis of the obtained results shows that the two compared strategies respond to the performance objective for the tenant. Nevertheless, a replica of data is created, with our strategy, only if this replication is profitable for the provider
10

Duquet, Mario. "Gestion des données agrométéorologiques pour l'autoroute de l'information." Thesis, National Library of Canada = Bibliothèque nationale du Canada, 2001. http://www.collectionscanada.ca/obj/s4/f2/dsk3/ftp04/MQ61339.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
11

Rhin, Christophe. "Modélisation et gestion de données géographiques multi-sources." Versailles-St Quentin en Yvelines, 1997. http://www.theses.fr/1997VERS0010.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le nombre de données géographiques disponibles augmente très rapidement à cause de la multiplication des sources de production et de distribution. Les logiciels dédiés à la gestion des données géographiques doivent donc manipuler de gros volumes de données, dont les structures et les représentations sont différentes. Ces logiciels doivent aussi garantir les mêmes fonctionnalités que les systèmes de gestion de bases de données : sûreté de fonctionnement et accès concurrents. Après avoir montré pourquoi les solutions existantes ne peuvent assurer l'ensemble de ces fonctionnalités, nous proposons d'abord un modèle conceptuel de données adapté aux données géographiques multi-sources. Ensuite nous proposons une architecture logicielle qui s'appuie sur un système de gestion de base de données orienté objet et qui conserve l'évolutivité et l'adaptabilité du modèle conceptuel. Cette architecture permet à la fois de garantir les fonctionnalités de base de données et de fournir des méthodes d'accès performantes. L'efficacité de cette architecture est obtenue grâce à l'intégration d'un index spatial au cœur du sgbdoo, au même niveau que les index standards. Nous étudions en détail le comportement d'un index spatial intègré, pour des requêtes de pointe et pour des requêtes de fenêtrage avec des fenêtres de taille variable. De plus, à travers la comparaison avec les comportements du même index spatial non intègré et d'un index standard du sgbdoo, nous mesurons précisément les gains de performance. Enfin nous décrivons les différentes stratégies possibles pour un interpréteur de requêtes comportant des critères thématiques et des critères spatiaux, afin d'utiliser au mieux les index spatiaux
12

Zelasco, José Francisco. "Gestion des données : contrôle de qualité des modèles numériques des bases de données géographiques." Thesis, Montpellier 2, 2010. http://www.theses.fr/2010MON20232.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les modèles numériques de terrain, cas particulier de modèles numériques de surfaces, n'ont pas la même erreur quadratique moyenne en planimétrie qu'en altimétrie. Différentes solutions ont été envisagées pour déterminer séparément l'erreur en altimétrie et l'erreur planimétrique, disposant, bien entendu, d'un modèle numérique plus précis comme référence. La démarche envisagée consiste à déterminer les paramètres des ellipsoïdes d'erreur, centrées dans la surface de référence. Dans un premier temps, l'étude a été limitée aux profils de référence avec l'ellipse d'erreur correspondante. Les paramètres de cette ellipse sont déterminés à partir des distances qui séparent les tangentes à l'ellipse du centre de cette même ellipse. Remarquons que cette distance est la moyenne quadratique des distances qui séparent le profil de référence des points du modèle numérique à évaluer, c'est à dire la racine de la variance marginale dans la direction normale à la tangente. Nous généralisons à l'ellipsoïde de révolution. C'est le cas ou l'erreur planimétrique est la même dans toutes les directions du plan horizontal (ce n'est pas le cas des MNT obtenus, par exemple, par interférométrie radar). Dans ce cas nous montrons que le problème de simulation se réduit à l'ellipse génératrice et la pente du profil correspondant à la droite de pente maximale du plan appartenant à la surface de référence. Finalement, pour évaluer les trois paramètres d'un ellipsoïde, cas où les erreurs dans les directions des trois axes sont différentes (MNT obtenus par Interférométrie SAR), la quantité des points nécessaires pour la simulation doit être importante et la surface tr ès accidentée. Le cas échéant, il est difficile d'estimer les erreurs en x et en y. Néanmoins, nous avons remarqué, qu'il s'agisse de l'ellipsoïde de révolution ou non, que dans tous les cas, l'estimation de l'erreur en z (altimétrie) donne des résultats tout à fait satisfaisants
A Digital Surface Model (DSM) is a numerical surface model which is formed by a set of points, arranged as a grid, to study some physical surface, Digital Elevation Models (DEM), or other possible applications, such as a face, or some anatomical organ, etc. The study of the precision of these models, which is of particular interest for DEMs, has been the object of several studies in the last decades. The measurement of the precision of a DSM model, in relation to another model of the same physical surface, consists in estimating the expectancy of the squares of differences between pairs of points, called homologous points, one in each model which corresponds to the same feature of the physical surface. But these pairs are not easily discernable, the grids may not be coincident, and the differences between the homologous points, corresponding to benchmarks in the physical surface, might be subject to special conditions such as more careful measurements than on ordinary points, which imply a different precision. The generally used procedure to avoid these inconveniences has been to use the squares of vertical distances between the models, which only address the vertical component of the error, thus giving a biased estimate when the surface is not horizontal. The Perpendicular Distance Evaluation Method (PDEM) which avoids this bias, provides estimates for vertical and horizontal components of errors, and is thus a useful tool for detection of discrepancies in Digital Surface Models (DSM) like DEMs. The solution includes a special reference to the simplification which arises when the error does not vary in all horizontal directions. The PDEM is also assessed with DEM's obtained by means of the Interferometry SAR Technique
13

Sandoval, Gomez Maria Del Rosario. "Conception et réalisation du système de gestion de multibases de données MUSE : architecture de schéma multibase et gestion du catalogue des données." Paris 6, 1989. http://www.theses.fr/1989PA066657.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Durant ces dernieres annees, une nouvelle demarche a ete proposee pour faire face aux problemes poses par l'integration de bases de donnees existantes. C'est la demarche consistant a faire cooperer plusieurs bases sans obligation d'avoir un schema conceptuel global. Elle est connue sous le nom de multibases de donnees. Le systeme que nous presentons, muse, est base sur cette nouvelle demarche. Des questions relatives a l'autonomie des sites et a l'architecture du systeme sont discutees. Dans muse, une multibase se presente comme une collection de base de donnees autonomes et des schemas exportes/importes. Ces schemas sont stockes dans des catalogues d'exportation/importation. Les utilisateurs manipulent les donnees et adressent leurs requetes par moyen du langage d-sql
14

Liroz, Miguel. "Partitionnement dans les systèmes de gestion de données parallèles." Phd thesis, Université Montpellier II - Sciences et Techniques du Languedoc, 2013. http://tel.archives-ouvertes.fr/tel-01023039.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Au cours des dernières années, le volume des données qui sont capturées et générées a explosé. Les progrès des technologies informatiques, qui fournissent du stockage à bas prix et une très forte puissance de calcul, ont permis aux organisations d'exécuter des analyses complexes de leurs données et d'en extraire des connaissances précieuses. Cette tendance a été très importante non seulement pour l'industrie, mais a également pour la science, où les meilleures instruments et les simulations les plus complexes ont besoin d'une gestion efficace des quantités énormes de données.Le parallélisme est une technique fondamentale dans la gestion de données extrêmement volumineuses car il tire parti de l'utilisation simultanée de plusieurs ressources informatiques. Pour profiter du calcul parallèle, nous avons besoin de techniques de partitionnement de données efficaces, qui sont en charge de la division de l'ensemble des données en plusieurs partitions et leur attribution aux nœuds de calculs. Le partitionnement de données est un problème complexe, car il doit prendre en compte des questions différentes et souvent contradictoires telles que la localité des données, la répartition de charge et la maximisation du parallélisme.Dans cette thèse, nous étudions le problème de partitionnement de données, en particulier dans les bases de données parallèles scientifiques qui sont continuellement en croissance. Nous étudions également ces partitionnements dans le cadre MapReduce.Dans le premier cas, nous considérons le partitionnement de très grandes bases de données dans lesquelles des nouveaux éléments sont ajoutés en permanence, avec pour exemple une application aux données astronomiques. Les approches existantes sont limitées à cause de la complexité de la charge de travail et l'ajout en continu de nouvelles données limitent l'utilisation d'approches traditionnelles. Nous proposons deux algorithmes de partitionnement dynamique qui attribuent les nouvelles données aux partitions en utilisant une technique basée sur l'affinité. Nos algorithmes permettent d'obtenir de très bons partitionnements des données en un temps d'exécution réduit comparé aux approches traditionnelles.Nous étudions également comment améliorer la performance du framework MapReduce en utilisant des techniques de partitionnement de données. En particulier, nous sommes intéressés par le partitionnement efficient de données d'entrée
15

Petit, Loïc. "Gestion de flux de données pour l'observation de systèmes." Phd thesis, Université de Grenoble, 2012. http://tel.archives-ouvertes.fr/tel-00849106.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La popularisation de la technologie a permis d'implanter des dispositifs et des applications de plus en plus développés à la portée d'utilisateurs non experts. Ces systèmes produisent des flux ainsi que des données persistantes dont les schémas et les dynamiques sont hétérogènes. Cette thèse s'intéresse à pouvoir observer les données de ces systèmes pour aider à les comprendre et à les diagnostiquer. Nous proposons tout d'abord un modèle algébrique Astral capable de traiter sans ambiguïtés sémantiques des données provenant de flux ou relations. Le moteur d'exécution Astronef a été développé sur l'architecture à composants orientés services pour permettre une grande adaptabilité. Il est doté d'un constructeur de requête permettant de choisir un plan d'exécution efficace. Son extension Asteroid permet de s'interfacer avec un SGBD pour gérer des données persistantes de manière intégrée. Nos contributions sont confrontées à la pratique par la mise en œuvre d'un système d'observation du réseau domestique ainsi que par l'étude des performances. Enfin, nous nous sommes intéressés à la mise en place de la personnalisation des résultats dans notre système par l'introduction d'un modèle de préférences top-k.
16

Liroz-Gistau, Miguel. "Partitionnement dans les Systèmes de Gestion de Données Parallèles." Phd thesis, Université Montpellier II - Sciences et Techniques du Languedoc, 2013. http://tel.archives-ouvertes.fr/tel-00920615.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Au cours des dernières années, le volume des données qui sont capturées et générées a explosé. Les progrès des technologies informatiques, qui fournissent du stockage à bas prix et une très forte puissance de calcul, ont permis aux organisations d'exécuter des analyses complexes de leurs données et d'en extraire des connaissances précieuses. Cette tendance a été très importante non seulement pour l'industrie, mais a également pour la science, où les meilleures instruments et les simulations les plus complexes ont besoin d'une gestion efficace des quantités énormes de données. Le parallélisme est une technique fondamentale dans la gestion de données extrêmement volumineuses car il tire parti de l'utilisation simultanée de plusieurs ressources informatiques. Pour profiter du calcul parallèle, nous avons besoin de techniques de partitionnement de données efficaces, qui sont en charge de la division de l'ensemble des données en plusieurs partitions et leur attribution aux nœuds de calculs. Le partitionnement de données est un problème complexe, car il doit prendre en compte des questions différentes et souvent contradictoires telles que la localité des données, la répartition de charge et la maximisation du parallélisme. Dans cette thèse, nous étudions le problème de partitionnement de données, en particulier dans les bases de données parallèles scientifiques qui sont continuellement en croissance. Nous étudions également ces partitionnements dans le cadre MapReduce. Dans le premier cas, nous considérons le partitionnement de très grandes bases de données dans lesquelles des nouveaux éléments sont ajoutés en permanence, avec pour exemple une application aux données astronomiques. Les approches existantes sont limitées à cause de la complexité de la charge de travail et l'ajout en continu de nouvelles données limitent l'utilisation d'approches traditionnelles. Nous proposons deux algorithmes de partitionnement dynamique qui attribuent les nouvelles données aux partitions en utilisant une technique basée sur l'affinité. Nos algorithmes permettent d'obtenir de très bons partitionnements des données en un temps d'exécution réduit comparé aux approches traditionnelles. Nous étudions également comment améliorer la performance du framework MapReduce en utilisant des techniques de partitionnement de données. En particulier, nous sommes intéressés par le partitionnement efficient de données d'entrée avec l'objectif de réduire la quantité de données qui devront être transférées dans la phase intermédiaire, connu aussi comme " shuffle ". Nous concevons et mettons en œuvre une stratégie qui, en capturant les relations entre les tuples d'entrée et les clés intermédiaires, obtient un partitionnement efficace qui peut être utilisé pour réduire de manière significative le surcharge de communications dans MapReduce.
17

Gürgen, Levent. "Gestion à grande échelle de données de capteurs hétérogènes." Grenoble INPG, 2007. http://www.theses.fr/2007INPG0093.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse traite les aspects liés à la gestion à grande échelle de données issues de capteurs hétérogènes. En effet, les capteurs sont de moins en moins chers, de plus en plus nombreux et hétérogènes dans les applications. Ceci implique naturellement le problème de passage à l'échelle et la nécessité de pouvoir exploiter les données provenant de différents types de capteurs. Nous proposons une architecture distribuée et orientée services dans laquelle les tâches de traitement de données sont réparties sur plusieurs niveaux. Les fonctionnalités de gestion de données sont fournies en termes de < > afin de cacher l'hétérogénéité des capteurs sous des services génériques. Nous traitons également les aspects liés à l'administration de parc de capteurs, un sujet non abordé dans ce contexte
This dissertation deals with the issues related to scalable management of heterogeneous sensor data. Ln fact, sensors are becoming less and less expensive, more and more numerous and heterogeneous. This naturally raises the scalability problem and the need for integrating data gathered from heterogeneous sensors. We propose a distributed and service-oriented architecture in which data processing tasks are distributed at severallevels in the architecture. Data management functionalities are provided in terms of "services", in order to hide sensor heterogeneity behind generic services. We equally deal with system management issues in sensor farms, a subject not yet explored in this context
18

Liroz, Gistau Miguel. "Partitionnement dans les systèmes de gestion de données parallèles." Thesis, Montpellier 2, 2013. http://www.theses.fr/2013MON20117/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Au cours des dernières années, le volume des données qui sont capturées et générées a explosé. Les progrès des technologies informatiques, qui fournissent du stockage à bas prix et une très forte puissance de calcul, ont permis aux organisations d'exécuter des analyses complexes de leurs données et d'en extraire des connaissances précieuses. Cette tendance a été très importante non seulement pour l'industrie, mais a également pour la science, où les meilleures instruments et les simulations les plus complexes ont besoin d'une gestion efficace des quantités énormes de données.Le parallélisme est une technique fondamentale dans la gestion de données extrêmement volumineuses car il tire parti de l'utilisation simultanée de plusieurs ressources informatiques. Pour profiter du calcul parallèle, nous avons besoin de techniques de partitionnement de données efficaces, qui sont en charge de la division de l'ensemble des données en plusieurs partitions et leur attribution aux nœuds de calculs. Le partitionnement de données est un problème complexe, car il doit prendre en compte des questions différentes et souvent contradictoires telles que la localité des données, la répartition de charge et la maximisation du parallélisme.Dans cette thèse, nous étudions le problème de partitionnement de données, en particulier dans les bases de données parallèles scientifiques qui sont continuellement en croissance. Nous étudions également ces partitionnements dans le cadre MapReduce.Dans le premier cas, nous considérons le partitionnement de très grandes bases de données dans lesquelles des nouveaux éléments sont ajoutés en permanence, avec pour exemple une application aux données astronomiques. Les approches existantes sont limitées à cause de la complexité de la charge de travail et l'ajout en continu de nouvelles données limitent l'utilisation d'approches traditionnelles. Nous proposons deux algorithmes de partitionnement dynamique qui attribuent les nouvelles données aux partitions en utilisant une technique basée sur l'affinité. Nos algorithmes permettent d'obtenir de très bons partitionnements des données en un temps d'exécution réduit comparé aux approches traditionnelles.Nous étudions également comment améliorer la performance du framework MapReduce en utilisant des techniques de partitionnement de données. En particulier, nous sommes intéressés par le partitionnement efficient de données d'entrée
During the last years, the volume of data that is captured and generated has exploded. Advances in computer technologies, which provide cheap storage and increased computing capabilities, have allowed organizations to perform complex analysis on this data and to extract valuable knowledge from it. This trend has been very important not only for industry, but has also had a significant impact on science, where enhanced instruments and more complex simulations call for an efficient management of huge quantities of data.Parallel computing is a fundamental technique in the management of large quantities of data as it leverages on the concurrent utilization of multiple computing resources. To take advantage of parallel computing, we need efficient data partitioning techniques which are in charge of dividing the whole data and assigning the partitions to the processing nodes. Data partitioning is a complex problem, as it has to consider different and often contradicting issues, such as data locality, load balancing and maximizing parallelism.In this thesis, we study the problem of data partitioning, particularly in scientific parallel databases that are continuously growing and in the MapReduce framework.In the case of scientific databases, we consider data partitioning in very large databases in which new data is appended continuously to the database, e.g. astronomical applications. Existing approaches are limited since the complexity of the workload and continuous appends restrict the applicability of traditional approaches. We propose two partitioning algorithms that dynamically partition new data elements by a technique based on data affinity. Our algorithms enable us to obtain very good data partitions in a low execution time compared to traditional approaches.We also study how to improve the performance of MapReduce framework using data partitioning techniques. In particular, we are interested in efficient data partitioning of the input datasets to reduce the amount of data that has to be transferred in the shuffle phase. We design and implement a strategy which, by capturing the relationships between input tuples and intermediate keys, obtains an efficient partitioning that can be used to reduce significantly the MapReduce's communication overhead
19

Etien-Gnoan, N'Da Brigitte. "L'encadrement juridique de la gestion électronique des données médicales." Thesis, Lille 2, 2014. http://www.theses.fr/2014LIL20022/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La gestion électronique des données médicales consiste autant dans le simple traitement automatisé des données personnelles que dans le partage et l'échange de données relatives à la santé. Son encadrement juridique est assuré, à la fois, par les règles communes au traitement automatisé de toutes les données personnelles et par celles spécifiques au traitement des données médicales. Cette gestion, même si elle constitue une source d'économie, engendre des problèmes de protection de la vie privée auxquels le gouvernement français tente de faire face en créant l'un des meilleurs cadres juridiques au monde, en la matière. Mais, de grands chantiers comme celui du dossier médical personnel attendent toujours d'être réalisés et le droit de la santé se voit devancer et entraîner par les progrès technologiques. Le développement de la télésanté bouleverse les relations au sein du colloque singulier entre le soignant et le soigné. L'extension des droits des patients, le partage de responsabilité, l'augmentation du nombre d'intervenants, le secret médical partagé constituent de nouveaux enjeux avec lesquels il faut, désormais compter. Une autre question cruciale est celle posée par le manque d'harmonisation des législations augmentant les risques en cas de partage transfrontalier de données médicales
The electronic management of medical data is as much in the simple automated processing of personal data in the sharing and exchange of health data . Its legal framework is provided both by the common rules to the automated processing of all personal data and those specific to the processing of medical data . This management , even if it is a source of economy, creates protection issues of privacy which the French government tries to cope by creating one of the best legal framework in the world in this field. However , major projects such as the personal health record still waiting to be made and the right to health is seen ahead and lead by technological advances . The development of e-health disrupts relationships within one dialogue between the caregiver and the patient . The extension of the rights of patients , sharing responsibility , increasing the number of players , the shared medical confidentiality pose new challenges with which we must now count. Another crucial question is posed by the lack of harmonization of legislation increasing the risks in cross-border sharing of medical
20

Gueye, Modou. "Gestion de données de recommandation à très large échelle." Electronic Thesis or Diss., Paris, ENST, 2014. http://www.theses.fr/2014ENST0083.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse s'intéresse à la problématique de passage à l'échelle des systèmes de recommandations. Dans ce cadre, nous proposons deux algorithmes de recommandation passant à l'échelle tout en délivrant une bonne qualité de recommandation. Dans nos premiers travaux, nous considérons l'utilisation de la factorisation de matrice pour prédire les avis des utilisateurs dans des contextes dynamiques où les utilisateurs soumettent sans cesse de nouveaux avis sur des objets. Il est difficile d'y tenir un modèle de prédiction à jour. Nous proposons un modèle de factorisation utilisant plusieurs biais locaux décrivant de façon plus élaborée les comportements des utilisateurs. Leur coût de calcul faible permet de les ajuster à la volée, lorsque de nouvelles notes arrivent. Ils assurent ainsi la robustesse du modèle dans un contexte dynamique, tout en garantissant une meilleure qualité au cours le temps. Nous nous sommes aussi intéressés à la recommandation de tags dans les réseaux sociaux. Notre proposition s'appuie sur l'algorithme des plus proches voisins. Cependant, nous déterminons dynamiquement le nombre optimal de voisins à utiliser. Notre approche prend en compte les avis des voisins indirects en étendant la relation de proximité entre les utilisateurs. Nos expérimentations ont démontré l'efficacité de cette approche qui peut être adaptée à bien d'autres types de recommandation. Enfin, nous proposons une technique d'optimisation du nombre d'objets à recommander en fonction du contexte. L'idée étant ici de chercher le nombre optimal d'objets à proposer à l'utilisateur, de telle sorte que la probabilité qu'il les choisisse tous soit la plus élevée
In this thesis, we address the scalability problem of recommender systems. We propose accu rate and scalable algorithms. We first consider the case of matrix factorization techniques in a dynamic context, where new ratings..are continuously produced. ln such case, it is not possible to have an up to date model, due to the incompressible time needed to compute it. This happens even if a distributed technique is used for matrix factorization. At least, the ratings produced during the model computation will be missing. Our solution reduces the loss of the quality of the recommendations over time, by introducing some stable biases which track users' behavior deviation. These biases are continuously updated with the new ratings, in order to maintain the quality of recommendations at a high leve for a longer time. We also consider the context of online social networks and tag recommendation. We propose an algorithm that takes account of the popularity of the tags and the opinions of the users' neighborhood. But, unlike common nearest neighbors' approaches, our algorithm doe not rely on a fixed number of neighbors when computing a recommendation. We use a heuristic that bounds the network traversai in a way that allows to faster compute the recommendations while preserving the quality of the recommendations. Finally, we propose a novel approach that improves the accuracy of the recommendations for top-k algorithms. Instead of a fixed list size, we adjust the number of items to recommend in a way that optimizes the likelihood that ail the recommended items will be chosen by the user, and find the best candidate sub-list to recommend to the user
21

Djellalil, Jilani. "Conception et réalisation de multibases de données." Lyon 3, 1989. http://www.theses.fr/1989LYO3A003.

Full text
APA, Harvard, Vancouver, ISO, and other styles
22

Faye, David Célestin. "Médiation de données sémantique dans SenPeer, un système pair-à-pair de gestion de données." Phd thesis, Université de Nantes, 2007. http://tel.archives-ouvertes.fr/tel-00481311.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La société de l'information demande un accès efficace à un ensemble d'informations qui sont souvent hétérogènes et distribuées. Dans le but d'un partage efficace de cette information, plusieurs solutions techniques ont été proposées. L'infrastructure Pair-à-Pair (P2P) est un paradigme émergent et offrant de nouvelles opportunités pour la mise en place de systèmes distribués à grande échelle. D'autre part, le concept de base de données distribuée a été introduit dans le but d'organiser une collection multiple de bases de données logiquement liées et distribuées sur un réseau d'ordinateurs. Récemment, les systèmes P2P de gestion de données communément appelés PDMS (Peer Data Management System) ont vu le jour. Ils combinent les avantages des systèmes P2P avec ceux des bases de données distribuées. Dans le but de contribuer à la recherche sur la gestion de données dans un contexte P2P, nous proposons le PDMS SenPeer. SenPeer suit une topologie super-pair basée sur l'organisation des pairs en communautés sémantiques en fonction de leur thème d'intérêt. Pour faciliter l'échange de données entre pairs nous établissons des processus de découverte de correspondances sémantiques et de reformulation de requêtes en présence de plusieurs modèles de données. Ces correspondances sémantiques, en combinaison avec les schémas des pairs sont à la base d'une topologie sémantique au dessus du réseau physique et utilisée pour un routage efficace des requêtes. Les requêtes sont échangées à travers un format commun d'échange de requête et un processus d'optimisation distribué permet de choisir le meilleur plan d'exécution de la requête en fonction des caractéristiques du PDMS. Une validation expérimentale par la mise en place d'un simulateur permet d'affirmer l'utilité et la performance des techniques proposées.
23

Cho, Choong-Ho. "Structuration des données et caractérisation des ordonnancements admissibles des systèmes de production." Lyon, INSA, 1989. http://www.theses.fr/1989ISAL0053.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Dans ce mémoire, nous proposons, dans une phase préliminaire, la spécification et la modélisation de la base de données pour l'ordonnancement au sein d'une architecture hiérarchique de gestion de production, et de façon plus approfondie, la spécification analytique des ensembles de solutions admissibles pour aider à l'ordonnancement de trois types d'ateliers différents : - l'un, composé de plusieurs machines en en considérant les temps de réglage comme important sous des contraintes ensemblistes et Cou séquentielles, "flow-shop", un critère potentielles - un autre, composé d'une machine seule, avec des contraintes de dates limite de lots, la machine étant assimilée à une cellule de gestion au sein de l'atelier, et le "job-shop" classique, avec les trois contraintes précédentes: ensemblistes, potentielles, et dates limite. Un des caractères originaux de ce travail notamment, l'introduction d'une nouvelle structure de pour modéliser des familles de séquences de tâches
This work deals, on the one band, with the specification and the modelization of data bases for the scheduling problems in a hierarchical architecture of manufacturing systems, on the other hand, with the analytical specification of the set of feasible solutions for the decision support scheduling problems about three different types of workshops: - first, made up several machines (flowshop: sequences of operations are the same for all jobs), considering the important cri teri on as the set up times under set tasks groups) and potential. Constraints, - second, with only one machine, under the given due dates of jobs constraints, finally, organised in a jobshop, under the three previous constraints: set, potential and due dates. One of original researchs concerns the new structure: PQR trees, to characterise the set of feasible sequences of tasks
24

Guégot, Françoise. "Gestion d'une base de données mixte, texte et image : application à la gestion médicale dentaire." Paris 9, 1989. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=1989PA090042.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Dans le cadre de l’informatique des organisations, nous avons montré sur un exemple concret - cabinet dentaire - que l’apport de l’image peut être décisif pour l’aide à la décision. Cette démonstration est là pour fixer les principes d’un système de gestion de base de données mixtes. Une base de données textuelles est constituée grâce à un générateur de SIAD, ainsi que les traitements nécessaires sur ces données, une base de données d’images est définie en parallèle après un inventaire des différentes techniques de traitement de l’image, enfin une liaison est réalisée entre les deux pour constituer un système de gestion de bases de données mixtes
In the frame work of organizational data processing, we have shown, on an actual example -a dental surgeon cabinet- that image display constitutes a bonus which may prove decisive in decision making. This should be considered to play down the principles governing a mixed data basic managering system. A basis of text data will be constituted through an S. I. A. D generator which will also perform the necessary processing of the said data. A basis of image data will be established. In parallel with the former, from an inventory of the various image processing techniques. Finally, both basis will be connected to form the mixed data managerial system
25

Le, Mahec G. "Gestion des bases de données biologiques sur grilles de calculs." Phd thesis, Université Blaise Pascal - Clermont-Ferrand II, 2008. http://tel.archives-ouvertes.fr/tel-00462306.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Depuis le début des années 80, les bases de données biologiques n'ont cessé de gagner en volume. Une recherche sur ces bases qui ne prenait que quelques minutes peut désormais nécessiter plusieurs jours. En parallèle, la communauté de recherche en bioinformatique s'est développée et des laboratoires spécialisés sont nés partout dans le monde. La collaboration et l'échange de données entre équipes de recherche parfois géographiquement très éloignées a conduit à considérer la grille comme un moyen adapté à la fois aux nouveaux besoins en terme de puissance de calcul mais aussi comme outil de partage et de distribution des données biologiques entre chercheurs. L'utilisation de la grille pour la recherche en biologie et bioinformatique est un atout considérable, cependant de nouvelles problématiques apparaissent quant `a la gestion des données ainsi que dans l'ordonnancement des tâches qui doit prendre en compte la taille et la disponibilité des données. Cette thèse aborde ces problématiques nouvelles en prenant en compte les spécificités des bases de données biologiques pour une utilisation efficace de la grille. Nous montrons l'intérêt des approches semi-statiques joignant réplications de données et ordonnancement des tâches. Pour cela, nous avons procédé en trois étapes : une analyse théorique, une première validation par simulation et enfin une implantation sur plateforme réelle. La mise en place de la plateforme a mené à la conception d'un nouveau gestionnaire de données pour l'intergiciel DIET : DAGDA. Au-delà des applications de bioinformatique, ce gestionnaire de données peut répondre aux besoins de nombreuses applications portées sur les grilles de calcul
26

Pierkot, Christelle. "Gestion de la Mise à Jour de Données Géographiques Répliquées." Phd thesis, Université Paul Sabatier - Toulouse III, 2008. http://tel.archives-ouvertes.fr/tel-00366442.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
De nos jours, l'information géographique constitue une ressource incontournable dans un contexte de prise de décision et les données numériques spatiales sont de plus en plus fréquemment exploitées comme support et aide à la décision par de nombreuses organisations.
L'institution militaire utilise elle aussi les données spatiales comme soutien et aide à la décision. A chaque étape d'une mission, des informations géographiques de tous types sont employées (données numériques, cartes papiers, photographies aériennes...) pour aider les unités dans leurs choix stratégiques. Par ailleurs, l'utilisation de réseaux de communication favorise le partage et l'échange des données spatiales entre producteurs et utilisateurs situés à des endroits différents. L'information n'est pas centralisée, les données sont répliquées sur chaque site et les utilisateurs peuvent ponctuellement être déconnectés du réseau, par exemple lorsqu'une unité mobile va faire des mesures sur le terrain.
La problématique principale concerne donc la gestion dans un contexte militaire, d'une application collaborative permettant la mise à jour asynchrone et symétrique de données géographiques répliquées selon un protocole à cohérence faible optimiste. Cela nécessite de définir un modèle de cohérence approprié au contexte militaire, un mécanisme de détection des mises à jour conflictuelles lié au type de données manipulées et des procédures de réconciliation des écritures divergentes adaptées aux besoins des unités participant à la mission.
L'analyse des travaux montre que plusieurs protocoles ont été définis dans les communautés systèmes (Cederqvist :2001 ; Kermarrec :2001) et bases de données (Oracle :2003 ; Seshadri :2000) pour gérer la réplication des données. Cependant, les solutions apportées sont souvent fonctions du besoin spécifique de l'application et ne sont donc pas réutilisables dans un contexte différent, ou supposent l'existence d'un serveur de référence centralisant les données. Les mécanismes employés en information géographique pour gérer les données et les mises à jour ne sont pas non plus appropriés à notre étude car ils supposent que les données soient verrouillées aux autres utilisateurs jusqu'à ce que les mises à jour aient été intégrée (approche check in-check out (ESRI :2004), ou utilisent un serveur centralisé contenant les données de référence (versionnement : Cellary :1990).
Notre objectif est donc de proposer des solutions permettant l'intégration cohérente et autant que possible automatique, des mises à jour de données spatiales dans un environnement de réplication optimiste, multimaître et asynchrone.
Nous proposons une stratégie globale d'intégration des mises à jour spatiales basée sur une vérification de la cohérence couplé à des sessions de mises à jour. L'originalité de cette stratégie réside dans le fait qu'elle s'appuie sur des métadonnées pour fournir des solutions de réconciliation adaptées au contexte particulier d'une mission militaire.
La contribution de cette thèse est double. Premièrement, elle s'inscrit dans le domaine de la gestion de la mise à jour des données spatiales, domaine toujours très actif du fait de la complexité et de l'hétérogénéité des données (Nous limitons néanmoins notre étude aux données géographiques vectorielles) et de la relative «jeunesse » des travaux sur le sujet. Deuxièmement, elle s'inscrit dans le domaine de la gestion de la cohérence des données répliquées selon un protocole optimiste, en spécifiant en particulier, de nouveaux algorithmes pour la détection et la réconciliation de données conflictuelles, dans le domaine applicatif de l'information géographique.
27

Gagnon, Bertrand. "Gestion d'information sur les procédés thermiques par base de données." Thesis, McGill University, 1986. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=65447.

Full text
APA, Harvard, Vancouver, ISO, and other styles
28

Antoine, Émilien. "Gestion des données distribuées avec le langage de règles: Webdamlog." Phd thesis, Université Paris Sud - Paris XI, 2013. http://tel.archives-ouvertes.fr/tel-00908155.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Notre but est de permettre à un utilisateur du Web d'organiser la gestion de ses données distribuées en place, c'est à dire sans l'obliger à centraliser ses données chez un unique hôte. Par conséquent, notre système diffère de Facebook et des autres systèmes centralisés, et propose une alternative permettant aux utilisateurs de lancer leurs propres pairs sur leurs machines gérant localement leurs données personnelles et collaborant éventuellement avec des services Web externes. Dans ma thèse, je présente Webdamlog, un langage dérivé de datalog pour la gestion de données et de connaissances distribuées. Le langage étend datalog de plusieurs manières, principalement avec une nouvelle propriété la délégation, autorisant les pairs à échanger non seulement des faits (les données) mais aussi des règles (la connaissance). J'ai ensuite mené une étude utilisateur pour démontrer l'utilisation du langage. Enfin je décris le moteur d'évaluation de Webdamlog qui étend un moteur d'évaluation de datalog distribué nommé Bud, en ajoutant le support de la délégation et d'autres innovations telles que la possibilité d'avoir des variables pour les noms de pairs et des relations. J'aborde de nouvelles techniques d'optimisation, notamment basées sur la provenance des faits et des règles. Je présente des expérimentations qui démontrent que le coût du support des nouvelles propriétés de Webdamlog reste raisonnable même pour de gros volumes de données. Finalement, je présente l'implémentation d'un pair Webdamlog qui fournit l'environnement pour le moteur. En particulier, certains adaptateurs permettant aux pairs Webdamlog d'échanger des données avec d'autres pairs sur Internet. Pour illustrer l'utilisation de ces pairs, j'ai implémenté une application de partage de photos dans un réseau social en Webdamlog.
29

Le, Mahec Gaël. "Gestion des bases de données biologiques sur grilles de calcul." Clermont-Ferrand 2, 2008. http://www.theses.fr/2008CLF21891.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'utilisation de la grille pour la recherche en biologie et bioinformatique est un atout considérable, cependant de nouvelles problématiques apparaissent quant à la gestion des données ainsi que dans l'ordonnancement des tâches qui doit prendre en compte la taille et la disponibilité des données. Cette thèse aborde ces problématiques nouvelles en prenant en compte les spécificités des bases de données biologiques pour une utilisation efficace de la grille. Nous montrons l'intérêt des approches semi-statiques joignant réplications de données et ordonnancement des tâches. La mise en place d'une plateforme de soumission de requêtes BLAST a mené à la conception d'un nouveau gestionnaire de données pour l'intergiciel DIET : DAGDA. Au delà des applications de bioinformatique, ce gestionnaire de données peut répondre aux besoins de nombreuses applications portées sur les grilles de calcul
30

Cheballah, Kamal. "Aides à la gestion des données techniques des produits industriels." Ecully, Ecole centrale de Lyon, 1992. http://www.theses.fr/1992ECDL0003.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le travail presente dans cette these se situe dans le contexte de l'approche cim (computer integrated manufacturing) qui a pour but de supporter et d'organiser l'ensemble des taches d'elaboration de produits industriels a l'aide d'outils informatiques. Nous proposons une contribution a la mise en place d'un systeme global pour la realisation concrete de quelques maillons essentiels. Le premier chapitre introduit un modele d'organisation du processus d'elaboration au niveau logique et physique. Le second chapitre introduit un outil audros (systeme d'aide a l'utilisation de documents dans un reseau d'ordinateurs) qui permet aux utilisateurs de conduire l'elaboration a un niveau strictement logique. Tous les problemes du niveau physique (localisation des donnees, organisation, transport, etc. . . ) sont pris en charge automatiquement. Le chapitre 3 presente l'outil logiciel gelabor (gestion d'elaboration de produits) qui permet de gerer la coherence entre les produits d'une base de donnees techniques. En conclusion, apres validation de la demarche proposee, nous presentons un schema plus general prenant mieux en compte l'aspect concurrentiel et cooperatif des taches d'elaboration. Cette approche est illustree par la specification de gelabor 2 organisant la cooperation d'entites independantes par l'intermediaire d'un blackboard.
31

Cobéna, Grégory. "Gestion des changements pour les données semi-structurés du Web." Palaiseau, Ecole polytechnique, 2003. http://www.theses.fr/2003EPXX0027.

Full text
APA, Harvard, Vancouver, ISO, and other styles
32

Peerbocus, Mohamed Ally. "Gestion de l'évolution spatiotemporelle dans une base de données géographiques." Paris 9, 2001. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=2001PA090055.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse traite de la mise à jour des bases de données géographiques, en particulier pour des applications cartographiques. Cette opération est complexe, souvent longue, en particulier lorsqu'il est nécessaire de représenter la nature dynamique des entités géographiques. Dans cette thèse, une nouvelle approche, appelée l'approche des cartes spatio-temporelles documentées, CSD, est proposée pour la mise à jour des bases de données géographiques et la gestion de l'évolution spatio-temporelle. Les changements géographiques sont étudiés selon trois perspectives : monde réel, carte et bases de données. L'approche CSD permet aux utilisateurs d'avoir accès à des versions passées ou alternatives d'une carte, de comparer les différentes versions d'un objet géographique, d'identifier les changements et de comprendre les raisons de ces changements, en particulier dans le contexte d'échange de données entre producteurs et clients. De plus, cette approche permet d'offrir une histoire documentée de l'évolution des objets géographiques. Par ailleurs, L'approche CSD assure la non-duplication des données dans la base de données géographiques. L'approche CSD permet de prendre en compte d'autres besoins des utilisateurs du domaine géographique : 1. Elle peut aider à la gestion des transactions de longue durée dans le processus de mise à jour des bases de données géographiques. 2. Elle peut être un outil efficace pour la gestion de l'information géographique dans des projets : des versions de carte peuvent être créées à la demande montrant les différentes étapes du projet, voire les alternatives. 3. Elle peut servir à organiser une équipe autour d'un projet en permettant aux différents intervenants de travailler sur différentes versions du projet et ensuite permettre leur fusion. 4. Elle peut être utile comme un outil de prévention dans la gestion des risques en permettant aux spécialistes de suivre l'évolution de limites de zones à risque.
33

Ichiba, Abdellah. "Données radar bande X et gestion prédictive en hydrologie urbaine." Thesis, Paris Est, 2016. http://www.theses.fr/2016PESC1007/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'objectif principal de cette thèse était de parvenir à un outil de gestion fiable des bassins de rétention d'eaux pluviales en utilisant les données radar en bande X. Il s’est avéré que cela nécessite plusieurs développements de recherche. Le cas d’étude considéré comprend un bassin de 10000 m3 situé en Val-de-Marne et construit en aval d'un bassin versant urbain de 2.15 km2. Il assure un double rôle de traitement des eaux pluviales et de prévention des inondations par stockage du volume. Opérationnellement les modes de gestion associés à chacun de ces objectifs sont antagonistes si bien qu’une gestion prédictive a été mise en place ; exploitation routinière en mode anti-pollution et basculement vers le mode anti-inondation en cas de besoin. Il doit se faire sur la base d’une connaissance sûre de la situation pluvieuse prévue à court terme. Une façon courante de répondre aux besoins opérationnels de la gestion prédictive est de mettre en place un système d’alerte basé sur l’utilisation des données radar. Le système CALAMAR par exemple, repose sur l’utilisation des données radar brutes à mono polarisation du réseau radar de Météo-France; traitées avec des méthodes de conversion classiques Z-R et une calibration avec des pluviomètres. Cependant, la fiabilité de ce système fait débat, notamment vis-à-vis de la qualité de la mesure radar obtenue. Une nouvelle méthodologie de comparaison de produits radar a été développée au cours de cette thèse. Elle repose sur le cadre théorique des multifractals et permet une comparaison de la structure et de la morphologie des champs de précipitations dans l'espace et le temps à travers les échelles. Cette méthode a d'abord été appliquée sur les produits CALAMR et Météo-France, puis, pour confirmer certains des résultats, sur les premières données d’un radar bande X, acquis par l’Ecole des Ponts ParisTech dans le cadre du projet Européen RainGain et fournissant des mesures de précipitations à des échelles plus fines (jusqu’à 100m en espace et 1 min en temps). Les résultats obtenus mettent en évidence non seulement l'influence cruciale des méthodes de traitement des données brutes sur la variabilité spatio-temporelle à travers les échelles, mais permettent également de prédéfinir les conditions dans lesquelles la calibration CALAMAR peut aggraver la qualité des mesures. Elles seraient très difficiles à détecter par les méthodes classiques largement répandues, n’impliquant qu’un nombre très limité de pixels radar (seulement ceux correspondants aux pluviomètres au sol). Des extensions de la méthodologie proposée ouvriront de nouveaux horizons pour la calibration des données de pluie. Alors que la littérature scientifique, notamment autour expériences TOMACS au Japon et CASA aux Etats-Unis, souligne l’importance opérationnelle d’une mesure de pluie plus détaillée grâce au radar en bande X, son impact sur les performances des modèles hydrologiques fait encore débat. Les recherches antérieures, basée pour la plupart sur des modèles conceptuels, ne sont pas concluantes. Ainsi pour dépasser ces limites, nous avons utilisé deux modèles impliquant des approches de modélisation différentes : CANOE (semi-distribué et conceptuel) et Multi-Hydro (distribué et à base physique ; développé à l’ENPC). Une version opérationnelle de CANOE et une nouvelle configuration plus fine améliorant considérablement la sensibilité du modèle à la variabilité de la pluie ont été utilisées. Plusieurs développements ont été apportés à Multi-Hydro, y compris une optimisation de sa résolution, ce qui améliore grandement l'ensemble de ses fonctionnalités. Il ressort de ce travail qu’en prenant en compte la variabilité spatio-temporelle des précipitations à petite échelle, la performance des modèles hydrologiques peut être augmentée jusqu'à 20%.Nous pensons que cette thèse a contribué à la mise au point de nouveaux outils opérationnels, fiables ayant la capacité de prendre en compte les données en bande X haute résolution
The main goal of this thesis was to achieve a reliable management tool of storm water storage basins using high resolution X-band radar. It turned out that it required several research developments. The analysed case study includes a retention basin of 10000 m3 located in Val de Marne county downstream of a 2.15 km2 urban catchment. It has a twofold goal: storm water decontamination and flood protection by volume storage. Operationally the management strategies associated with these two aims are conflicting; hence, a predictive management has been set up: a routine exploitation of the basin in the anti-pollution mode, and a switch to the flood protection mode when needed. It should be based a reliable knowledge of short-term rainfall forecasts. A common way to respond to operational needs of the predictive management is to set up a warning system based on the use of radar data. For example, the CALAMAR system relies on the use of single-polarization raw radar data, coming from Meteo-France radar network, being processed with the conventional Z-R conversion methods followed by a calibration with rain gauge. However, the reliability of such warning systems has been subject to debate, often due to a questionable quality of the resulting radar rainfall estimates, compared to local rain gauges. Therefore a new methodology for more meaningful comparison of radar rainfall field products was developed during this PhD project. Being rooted to the multifractal theory, it allows a comparison of the structure and the morphology of rainfall fields in both space and time through scales. It was initially tested on CALAMAR and Meteo-France rainfall products before being applied for results confirmation on initial data from a X band radar, acquired by Ecole des Ponts ParisTech in the framework of the European project RainGain and providing data at higher resolution (up to 100 m in space and 1 min in time). The obtained results not only highlight the crucial influence of raw data processing on the scaling behaviour, but also permit to pre-define the conditions when the CALAMAR optimization may worsen the quality of rainfall estimates. Such conditions would be very difficult to detect with widely used conventional methods, which rely on a very limited number of radar pixels (only those containing rain gauges). Further extensions of the proposed methodology open new horizons for the rainfall data merging. While the scientific literature, notably around the TOMACS experiment in Japan and CASA one in the United States, highlights the operational benefits of higher resolution rainfall measurements thanks to X-band radars, its impact on the performance of hydrological models still remains a subject of debate. Indeed previous research, mainly based on conceptual models remains inconclusive. To overcome these limitations, we used two models relying on two very distinct modelling approaches: CANOE (semi-distributed and conceptual) and Multi-Hydro (fully distributed and physically based research model developed at ENPC). An operational version of CANOE and a new much finer configuration, which increases the sensitivity of the model to spatio-temporal variability of small-scale rainfall, were used. Several extensions of the Multi-Hydro were developed, including an optimization of its resolution, which greatly improves its whole functionality. It appears from this work that by taking into account the spatial and temporal variability of small-scale rainfall, the performance of hydrologic models can be increased up to 20%.Overall, we believe that this dissertation contributes to the development of new, reliable, operational tools to use in their full extent the high-resolution X-band data
34

Derakhshannia, Marzieh. "Gestion et optimisation de l’architecture logistique de lacs de données." Thesis, Université de Montpellier (2022-….), 2022. http://www.theses.fr/2022UMONS022.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le monde numérique en constante évolution donne naissance au précieux concept "data" que l’on appelle l’or noir. Conformément à cette évolution, les systèmes de gestion de données, qui jouent des rôles importants dans la valorisation des données générées, deviennent un élément essentiel dans les systèmes d’information et pour les processus de prise de décision. Avec la révolution digitale, les données sont générées chaque seconde en gros volumes, par de multiples sources et dans différents formats. Il est communément admis que ces données brutes peuvent être exploitées pour extraire de la valeur. L’hétérogénéité des données sources se traduit par un besoin de systèmes intégrés pour stocker, traiter et analyser efficacement des données massives et éparpillées. Le phénomène de données massives, qui est connu sous le nom de mégadonnées, exige un système décisionnel avec une architecture souple qui stocke les données hétérogènes et soutient les caractéristiques principales de mégadonnées comme le volume, la variété, la vélocité, la vitesse et la véracité. Le lac de données, qui est un système de stockage centralisé, est une bonne réponse à ces problèmes posés afin accueillir à grande échelle des données brutes sous leurs formats natifs. Par rapport à cet objectif, il est évident que l’architecture et l’infrastructure du lac de données ont un impact significatif sur la rentabilité et la fonctionnalité du système global. À cet égard, la conception et la gestion de la structure du lac de données nécessitent des méthodes pratiques et innovantes afin de réaliser un référentiel centralisé intégré et optimal. En considérant la structure systématique du lac de données ainsi que l’architecture globale des systèmes, une vision logistique pourrait nous conduire aux objectifs définis.La chaîne d’approvisionnement est un bon exemple de systèmes logistiques où les participants hiérar- chiques se coordonnent au sein d’un réseau intégré afin de préparer un produit ou de rendre des services aux consommateurs ciblés. La structure logistique ainsi que les stratégies de gestion de la chaîne d’ap- provisionnement pourraient être une source d’inspiration innovante pour concevoir, gérer et optimiser un système de gestion de données basé sur une vision logistique. Pour cette raison, la mise en œuvre de la méthode analogique entre structures systématiques clarifie dans quelle mesure on pourrait tirer parti des stratégies gestionnaires dérivées de la chaîne d’approvisionnement pour développer l’architecture et les performances du lac de données.Dans cette thèse, nous émettons l’hypothèse qu’il est possible de décrire un lac de données et ses fonctionnalités en le comparant à la structure logistique d’une chaîne d’approvisionnement. Sur la base de ces objectifs :Dans un premier temps, nous nous intéressons à plusieurs architectures de lacs de données et vérifions l’efficacité de ces architectures sur la performance de lac de données notamment par rapport à la gouvernance des données et la qualité de service. Dans un deuxième temps, nous introduisons la chaîne d’approvisionnement, gestion de la chaîne logistique et les méthodes qui sont utilisés fréquemment pour optimiser la chaîne d’approvisionnement. En outre nous comparons tous les éléments de ce système logistique avec un lac de données et nous nous focalisons sur leurs points similaires afin d’utiliser les methodes de gestion de la chaîne d’approvisionnement pour le lac de données. Dans un troisième temps, nous proposons une nouvelle architecture pour les lacs de données basée sur la définition de chaîne d’approvisionnement grâce au processus évolutif de modélisation des structures des lacs de données. Nous terminons ce travail en optimisant l’architecture de lac de données proposée avec des stratégies de conception de réseau de chaîne d’approvisionnement et proposons des méthodes pour résoudre le modèle d’optimisation mathématique défini
The digital world with constantly evolution gives rise to the precious concept , "data" that is known as the black gold. In accordance with this evolution, database management systems, which play an important role in data valuation, are becoming an essential element of information systems and decision- making processes. With respect to the digital revolution, data is generated every second in a huge volume, by multiple sources and with different formats.Despite the fact that managing large and dispersed data is a problematic issue , we could not neglect the precious value that could potentially be gained through raw data exploration. This heterogeneity translates into the need for an integrated system to efficiently store, process and analyze the huge amount of scattered data. The phenomenon of huge data, known as big data, requires a decision-making system with an appropriate architecture that stores the heterogeneous data and supports the main characteristics of the big data environment, such as the data volume, the veracity, velocity and veracity. The data lake, which is a centralized storage system, is a good answer to these arising problems to receive raw data on a large scale in their native formats. Concerning this goal, it is clear that the infrastructure and architecture of the data lake have a significant impact on the profitability and functionality of the overall system. In this regard, the design and management of the data lake structure requires practical and innovative methods in order to achieve an integrated and optimal centralized repository. By considering the systematic structure of the data lake as well as the hierarchical architecture of the systems, a logistical vision could lead us to the defined objectives.The supply chain is a good example of logistics systems where hierarchical participants are coordi- nated within an integrated network in order to prepare a product or render services to targeted consumers. The logistics structure as well as the supply chain management strategies could be an innovative source of inspiration to design, manage and optimize a data management system based on a logistics vision.For this reason, the implementation of the analog method between systematic structures clarifies to what extent one could take advantage of management strategies derived from the supply chain to develop the architecture and performance of the data lake.In this thesis, we hypothesize that it is possible to describe a data lake and its functionality by comparing it to the logistical structure of a supply chain. On the basis of these objectives:First, we are interested in relying on several data lake architectures and verifying the effectiveness of these architectures on the performance of the data lake, in particular in relation to data governance and the quality of services.In a second step, we introduce the supply chain, supply chain management and the methods that are used frequently to optimize the supply chain. Furthermore we compare all the elements of this data lake logistics system and focus on their similar points in order to use the data lake supply chain management methods.Thirdly, we propose a new architecture for data lake based on supply chain definition thanks to the evolutionary process of modeling the structures of data lakes. We finish this work by optimizing the proposed data lake architecture with supply chain network design strategies and propose the methods to solve the defined mathematical optimization model
35

Bourgaux, Camille. "Gestion des incohérences pour l'accès aux données en présence d'ontologies." Thesis, Université Paris-Saclay (ComUE), 2016. http://www.theses.fr/2016SACLS292/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Interroger des bases de connaissances avec des requêtes conjonctives a été une préoccupation majeure de la recherche récente en logique de description. Une question importante qui se pose dans ce contexte est la gestion de données incohérentes avec l'ontologie. En effet, une théorie logique incohérente impliquant toute formule sous la sémantique classique, l'utilisation de sémantiques tolérantes aux incohérences est nécessaire pour obtenir des réponses pertinentes. Le but de cette thèse est de développer des méthodes pour gérer des bases de connaissances incohérentes en utilisant trois sémantiques naturelles (AR, IAR et brave) proposées dans la littérature et qui reposent sur la notion de réparation, définie comme un sous-ensemble maximal des données cohérent avec l'ontologie. Nous utilisons ces trois sémantiques conjointement pour identifier les réponses associées à différents niveaux de confiance. En plus de développer des algorithmes efficaces pour interroger des bases de connaissances DL-Lite incohérentes, nous abordons trois problèmes : (i) l'explication des résultats des requêtes, pour aider l'utilisateur à comprendre pourquoi une réponse est (ou n'est pas) obtenue sous une des trois sémantiques, (ii) la réparation des données guidée par les requêtes, pour améliorer la qualité des données en capitalisant sur les retours des utilisateurs sur les résultats de la requête, et (iii) la définition de variantes des sémantiques à l'aide de réparations préférées pour prendre en compte la fiabilité des données. Pour chacune de ces trois questions, nous développons un cadre formel, analysons la complexité des problèmes de raisonnement associés, et proposons et mettons en œuvre des algorithmes, qui sont étudiés empiriquement sur un jeu de bases de connaissance DL-Lite incohérentes que nous avons construit. Nos résultats indiquent que même si les problèmes à traiter sont théoriquement durs, ils peuvent souvent être résolus efficacement dans la pratique en utilisant des approximations et des fonctionnalités des SAT solveurs modernes
The problem of querying description logic knowledge bases using database-style queries (in particular, conjunctive queries) has been a major focus of recent description logic research. An important issue that arises in this context is how to handle the case in which the data is inconsistent with the ontology. Indeed, since in classical logic an inconsistent logical theory implies every formula, inconsistency-tolerant semantics are needed to obtain meaningful answers. This thesis aims to develop methods for dealing with inconsistent description logic knowledge bases using three natural semantics (AR, IAR, and brave) previously proposed in the literature and that rely on the notion of a repair, which is an inclusion-maximal subset of the data consistent with the ontology. In our framework, these three semantics are used conjointly to identify answers with different levels of confidence. In addition to developing efficient algorithms for query answering over inconsistent DL-Lite knowledge bases, we address three problems that should support the adoption of this framework: (i) query result explanation, to help the user to understand why a given answer was (not) obtained under one of the three semantics, (ii) query-driven repairing, to exploit user feedback about errors or omissions in the query results to improve the data quality, and (iii) preferred repair semantics, to take into account the reliability of the data. For each of these three topics, we developed a formal framework, analyzed the complexity of the relevant reasoning problems, and proposed and implemented algorithms, which we empirically studied over an inconsistent DL-Lite benchmark we built. Our results indicate that even if the problems related to dealing with inconsistent DL-Lite knowledge bases are theoretically hard, they can often be solved efficiently in practice by using tractable approximations and features of modern SAT solvers
36

Dia, Amadou Fall. "Filtrage sémantique et gestion distribuée de flux de données massives." Electronic Thesis or Diss., Sorbonne université, 2018. http://www.theses.fr/2018SORUS495.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Notre utilisation quotidienne de l’Internet et des technologies connexes génère, de manière continue et à des vitesses rapides et variables, de grandes quantités de données hétérogènes issues des réseaux de capteurs, des logs de moteurs de recherches génériques ou spécialisés, des données de sites de contenu multimédia, des données de mesure de stations météorologiques, de la géolocalisation, des applications IoT (l’Internet des objets), etc. Traiter de telles données dans les bases de données conventionnelles (Systèmes de Gestion de Bases de Données Relationnelles) peut être très coûteux en ressources temporelles et mémoires. Pour répondre efficacement aux besoins et aider à la prise de décision, ces flots d’informations nécessitent des traitements en temps réel. Les Systèmes de Gestion de Flux de Données (SGFDs) posent et évaluent des requêtes sur les données récentes d’un flux dans des structures appelées fenêtre. Les données en entrée des SGFDs sont de différents formats bruts tels que CSV, XML, RSS, ou encore JSON. Ce verrou d’hétérogénéité émane de la nature des flux de données et doit être levé. Pour cela, plusieurs groupes de recherche ont bénéficié des avantages des technologies du web sémantique (RDF et SPARQL) en proposant des systèmes de traitement de flux de données RDF appelés RSPs. Cependant, la volumétrie des données, le débit d’entrée élevé, les requêtes concurrentes, le croisement des flux RDF à de larges volumes de données stockées et les calculs coûteux baissent considérablement les performances de ces systèmes. Il faut prévoir une nouvelle approche de réduction de la charge de traitement des flux de données RDF. Dans cette thèse, nous proposons plusieurs solutions pour réduire la charge de traitement de flux de données en mode centralisé. Une approche d’échantillonnage à la volée de flux de graphes RDF est proposée afin de réduire la charge de données et du traitement des flux tout en préservant les liens sémantiques. Cette approche est approfondie en adoptant une méthode de résumé orienté graphe pour extraire des graphes RDF les informations les plus pertinentes en utilisant des mesures de centralité issues de l’Analyse des Réseaux Sociaux. Nous adoptons également un format compressé des données RDF et proposons une approche d’interrogation de données RDF compressées sans phase de décompression. Pour assurer une gestion parallèle et distribuée des flux de données, le travail présenté propose deux solutions supplémentaires de réduction de la charge de traitement en mode distribué : un moteur de traitement parallèle et distribué de flux de graphes RDF et une approche de traitement optimisé des opérations de croisement entre données statiques et dynamiques sont présentés
Our daily use of the Internet and related technologies generates, at a rapid and variable speeds, large volumes of heterogeneous data issued from sensor networks, search engine logs, multimedia content sites, weather forecasting, geolocation, Internet of Things (IoT) applications, etc. Processing such data in conventional databases (Relational Database Management Systems) may be very expensive in terms of time and memory storage resources. To effectively respond to the needs of rapid decision-making, these streams require real-time processing. Data Stream Management Systems (SGFDs) evaluate queries on the recent data of a stream within structures called windows. The input data are different formats such as CSV, XML, RSS, or JSON. This heterogeneity lock comes from the nature of the data streams and must be resolved. For this, several research groups have benefited from the advantages of semantic web technologies (RDF and SPARQL) by proposing RDF data streams processing systems called RSPs. However, large volumes of RDF data, high input streams, concurrent queries, combination of RDF streams and large volumes of stored RDF data and expensive processing drastically reduce the performance of these systems. A new approach is required to considerably reduce the processing load of RDF data streams. In this thesis, we propose several complementary solutions to reduce the processing load in centralized environment. An on-the-fly RDF graphs streams sampling approach is proposed to reduce data and processing load while preserving semantic links. This approach is deepened by adopting a graph-oriented summary approach to extract the most relevant information from RDF graphs by using centrality measures issued from the Social Networks Analysis. We also adopt a compressed format of RDF data and propose an approach for querying compressed RDF data without decompression phase. To ensure parallel and distributed data streams management, the presented work also proposes two solutions for reducing the processing load in distributed environment. An engine and parallel processing approaches and distributed RDF graphs streams. Finally, an optimized processing approach for static and dynamic data combination operations is also integrated into a new distributed RDF graphs streams management system
37

Ben, Dhia Imen. "Gestion des grandes masses de données dans les graphes réels." Thesis, Paris, ENST, 2013. http://www.theses.fr/2013ENST0087/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
De nos jours, un grand nombre d’applications utilisent de grands graphes pour la modélisation de données du monde réel. Nous avons assisté, ces dernières années, à une très rapide croissance de ces graphes dans divers contextes ; à savoir, les réseaux sociaux, la bioinformatique, le web sémantique, les systèmes de gestion des données géographiques, etc. La gestion, l’analyse et l’interrogation de ces données constituent un enjeu très important et ont suscité un vaste intérêt dans la communauté des Bases de Données. L’objectif de cette thèse est de fournir des algorithmes efficaces pour l’indexation et l’interrogation des données dans les grands graphes. Nous avons proposé EUQLID, une technique d’indexation qui permet de répondre efficacement aux requêtes de calcul de distance dans les grands graphes orientés. L’efficacité de cette technique est dûe au fait qu’elle exploite des propriétés intéressantes des graphes du monde réel. En effet, nous proposons un algorithme basé sur une variante efficace du fameux algorithme 2-hop. Les résultats obtenus montrent que notre algorithme surpassent les approches existantes en terme de temps d’indexation, ainsi qu’en temps de réponse. En effet, il permet de calculer la distance entre deux noeuds en quelques centaines de millisecondes sur de très grands graphes. Nous proposons également un modèle de contrôle d’accès pour les réseaux sociaux qui permet aux utlisateurs de spécifier leurs poltiques de contrôle d’accès en se basant sur leurs relations sociales, et qui peut utiliser EUQLID pour passer à l’échelle. Nous décrivons Primates comme étant un prototype appliquant le modèle proposé
In the last few years, we have been witnessing a rapid growth of networks in a wide range of applications such as social networking, bio-informatics, semantic web, road maps, etc. Most of these networks can be naturally modeled as large graphs. Managing, analyzing, and querying such data has become a very important issue, and, has inspired extensive interest within the database community. In this thesis, we address the problem of efficiently answering distance queries in very large graphs. We propose EUQLID, an efficient algorithm to answer distance queries on very large directed graphs. This algorithm exploits some interesting properties that real-world graphs exhibit. It is based on an efficient variant of the seminal 2-hop algorithm. We conducted an extensive set of experiments against state-of-the-art algorithms which show that our approach outperforms existing approaches and that distance queries can be processed within hundreds of milliseconds on very large real-world directed graphs. We also propose an access control model for social networks which can make use of EUQLID to scale on very large graphs. This model allows users to specify fine-grained privacy policies based on their relations with other users in the network. We describe and demonstrate Primates as a prototype which enforces the proposed access control model and allows users to specify their privacy preferences via a graphical user-friendly interface
38

Ben, Dhia Imen. "Gestion des grandes masses de données dans les graphes réels." Electronic Thesis or Diss., Paris, ENST, 2013. http://www.theses.fr/2013ENST0087.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
De nos jours, un grand nombre d’applications utilisent de grands graphes pour la modélisation de données du monde réel. Nous avons assisté, ces dernières années, à une très rapide croissance de ces graphes dans divers contextes ; à savoir, les réseaux sociaux, la bioinformatique, le web sémantique, les systèmes de gestion des données géographiques, etc. La gestion, l’analyse et l’interrogation de ces données constituent un enjeu très important et ont suscité un vaste intérêt dans la communauté des Bases de Données. L’objectif de cette thèse est de fournir des algorithmes efficaces pour l’indexation et l’interrogation des données dans les grands graphes. Nous avons proposé EUQLID, une technique d’indexation qui permet de répondre efficacement aux requêtes de calcul de distance dans les grands graphes orientés. L’efficacité de cette technique est dûe au fait qu’elle exploite des propriétés intéressantes des graphes du monde réel. En effet, nous proposons un algorithme basé sur une variante efficace du fameux algorithme 2-hop. Les résultats obtenus montrent que notre algorithme surpassent les approches existantes en terme de temps d’indexation, ainsi qu’en temps de réponse. En effet, il permet de calculer la distance entre deux noeuds en quelques centaines de millisecondes sur de très grands graphes. Nous proposons également un modèle de contrôle d’accès pour les réseaux sociaux qui permet aux utlisateurs de spécifier leurs poltiques de contrôle d’accès en se basant sur leurs relations sociales, et qui peut utiliser EUQLID pour passer à l’échelle. Nous décrivons Primates comme étant un prototype appliquant le modèle proposé
In the last few years, we have been witnessing a rapid growth of networks in a wide range of applications such as social networking, bio-informatics, semantic web, road maps, etc. Most of these networks can be naturally modeled as large graphs. Managing, analyzing, and querying such data has become a very important issue, and, has inspired extensive interest within the database community. In this thesis, we address the problem of efficiently answering distance queries in very large graphs. We propose EUQLID, an efficient algorithm to answer distance queries on very large directed graphs. This algorithm exploits some interesting properties that real-world graphs exhibit. It is based on an efficient variant of the seminal 2-hop algorithm. We conducted an extensive set of experiments against state-of-the-art algorithms which show that our approach outperforms existing approaches and that distance queries can be processed within hundreds of milliseconds on very large real-world directed graphs. We also propose an access control model for social networks which can make use of EUQLID to scale on very large graphs. This model allows users to specify fine-grained privacy policies based on their relations with other users in the network. We describe and demonstrate Primates as a prototype which enforces the proposed access control model and allows users to specify their privacy preferences via a graphical user-friendly interface
39

Aouiche, Kamel. "Techniques de fouille de données pour l'optimisation automatique des performances des entrepôts de données." Lyon 2, 2005. http://theses.univ-lyon2.fr/documents/lyon2/2005/aouiche_k.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Avec le développement des bases de données en général et des entrepôts de données en particulier, il est devenu très important de réduire les tâches d'administration des systèmes de gestion de base de données. Les systèmes auto-administratifs ont pour objectif de s'administrer et de s'adapter eux-mêmes, automatiquement, sans perte ou même avec un gain de performance. L'idée d'utiliser des techniques de fouille de données pour extraire des connaissances utiles à partir des données stockées pour leur administration est une approche très prometteuse, notamment dans le domaine des entrepôts de données, où les requêtes sont très hétérogènes et ne peuvent pas être interprétées facilement. L'objectif de cette thèse est d'étudier les techniques d'auto-administration des entrepôts de données, principalement des techniques d'optimisation des performances, comme l'indexation et la matérialisation de vues, et de rechercher une manière d'extraire des données elles-mêmes des connaissances utilisables pour appliquer ces techniques. Nous avons réalisé un outil qui recommande une configuration d'index et de vues matérialisées permettant d'optimiser le temps d'accès aux données. Notre outil effectue une recherche de motifs fréquents fermés sur une charge donnée et une classification non supervisée des requêtes de la charge pour construire cette configuration d'index et de vues. Nous avons également couplé la sélection d'index et de vues matérialisées afin de partager efficacement l'espace de disque alloué pour stocker ces structures. Enfin, nous avons appliqué les principes développés dans le cadre relationnel aux entrepôts de données XML. Nous avons proposé une structure d'index précalculant les jointures entre les faits et les dimensions XML et adapté notre stratégie de sélection de vues pour matérialiser des vues XML
With the development of databases in general and data warehouses in particular, it becomes very important to reduce the function of administration. The aim of auto-administrative systems is administrate and adapt themselves automatically, without loss or even with a gain in performance. The idea of using data mining techniques to extract useful knowledge for administration from the data themselves has been in the air for some years. However, no research has ever been achieved. As for as we know, it nevertheless remains a very promising approach, notably in the field of the data warehousing, where the queries are very heterogeneous and cannot be interpreted easily. The aim of this thesis is to study auto-administration techniques in databases and data warehouses, mainly performance optimization techniques such as indexing and view materialization, and to look for a way of extracting from stored data themselves useful knowledge to apply these techniques. We have designed a tool that finds an index and view configuration allowing to optimize data access time. Our tool searches frequent itemsets in a given workload and clusters the query workload to compute this index and view configuration. Finally, we have extended the performance optimization to XML data warehouses. In this area, we proposed an indexing technique that precomputes joins between XML facts and dimensions and adapted our materialized view selection strategy for XML materialized views
40

De, Vlieger P. "Création d'un environnement de gestion de base de données " en grille ". Application à l'échange de données médicales." Phd thesis, Université d'Auvergne - Clermont-Ferrand I, 2011. http://tel.archives-ouvertes.fr/tel-00654660.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La problématique du transport de la donnée médicale, de surcroît nominative, comporte de nombreuses contraintes, qu'elles soient d'ordre technique, légale ou encore relationnelle. Les nouvelles technologies, issues particulièrement des grilles informatiques, permettent d'offrir une nouvelle approche au partage de l'information. En effet, le développement des intergiciels de grilles, notamment ceux issus du projet européen EGEE, ont permis d'ouvrir de nouvelles perspectives pour l'accès distribué aux données. Les principales contraintes d'un système de partage de données médicales, outre les besoins en termes de sécurité, proviennent de la façon de recueillir et d'accéder à l'information. En effet, la collecte, le déplacement, la concentration et la gestion de la donnée, se fait habituellement sur le modèle client-serveur traditionnel et se heurte à de nombreuses problématiques de propriété, de contrôle, de mise à jour, de disponibilité ou encore de dimensionnement des systèmes. La méthodologie proposée dans cette thèse utilise une autre philosophie dans la façon d'accéder à l'information. En utilisant toute la couche de contrôle d'accès et de sécurité des grilles informatiques, couplée aux méthodes d'authentification robuste des utilisateurs, un accès décentralisé aux données médicales est proposé. Ainsi, le principal avantage est de permettre aux fournisseurs de données de garder le contrôle sur leurs informations et ainsi de s'affranchir de la gestion des données médicales, le système étant capable d'aller directement chercher la donnée à la source. L'utilisation de cette approche n'est cependant pas complètement transparente et tous les mécanismes d'identification des patients et de rapprochement d'identités (data linkage) doivent être complètement repensés et réécris afin d'être compatibles avec un système distribué de gestion de bases de données. Le projet RSCA (Réseau Sentinelle Cancer Auvergne - www.e-sentinelle.org) constitue le cadre d'application de ce travail. Il a pour objectif de mutualiser les sources de données auvergnates sur le dépistage organisé des cancers du sein et du côlon. Les objectifs sont multiples : permettre, tout en respectant les lois en vigueur, d'échanger des données cancer entre acteurs médicaux et, dans un second temps, offrir un support à l'analyse statistique et épidémiologique.
41

De, Vlieger Paul. "Création d'un environnement de gestion de base de données "en grille" : application à l'échange de données médicales." Phd thesis, Université d'Auvergne - Clermont-Ferrand I, 2011. http://tel.archives-ouvertes.fr/tel-00719688.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La problématique du transport de la donnée médicale, de surcroît nominative, comporte de nombreuses contraintes, qu'elles soient d'ordre technique, légale ou encore relationnelle. Les nouvelles technologies, issues particulièrement des grilles informatiques, permettent d'offrir une nouvelle approche au partage de l'information. En effet, le développement des intergiciels de grilles, notamment ceux issus du projet européen EGEE, ont permis d'ouvrir de nouvelles perspectives pour l'accès distribué aux données. Les principales contraintes d'un système de partage de données médicales, outre les besoins en termes de sécurité, proviennent de la façon de recueillir et d'accéder à l'information. En effet, la collecte, le déplacement, la concentration et la gestion de la donnée, se fait habituellement sur le modèle client-serveur traditionnel et se heurte à de nombreuses problématiques de propriété, de contrôle, de mise à jour, de disponibilité ou encore de dimensionnement des systèmes. La méthodologie proposée dans cette thèse utilise une autre philosophie dans la façon d'accéder à l'information. En utilisant toute la couche de contrôle d'accès et de sécurité des grilles informatiques, couplée aux méthodes d'authentification robuste des utilisateurs, un accès décentralisé aux données médicales est proposé. Ainsi, le principal avantage est de permettre aux fournisseurs de données de garder le contrôle sur leurs informations et ainsi de s'affranchir de la gestion des données médicales, le système étant capable d'aller directement chercher la donnée à la source.L'utilisation de cette approche n'est cependant pas complètement transparente et tous les mécanismes d'identification des patients et de rapprochement d'identités (data linkage) doivent être complètement repensés et réécris afin d'être compatibles avec un système distribué de gestion de bases de données. Le projet RSCA (Réseau Sentinelle Cancer Auvergne - www.e-sentinelle.org) constitue le cadre d'application de ce travail. Il a pour objectif de mutualiser les sources de données auvergnates sur le dépistage organisé des cancers du sein et du côlon. Les objectifs sont multiples : permettre, tout en respectant les lois en vigueur, d'échanger des données cancer entre acteurs médicaux et, dans un second temps, offrir un support à l'analyse statistique et épidémiologique.
42

Mizi, Mohammed. "Conception et réalisation d'un système de gestion de bases de formulaires." Lyon, INSA, 1991. http://www.theses.fr/1991ISAL0055.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'objectif de cette étude est le développement d'un système de gestion de base de formulaires (S. G. B. F. ) utilisant tous les outils et les mécanismes internes d'un S. G. B. D. , bâti sur le concept de la relation universelle, pour concevoir et manipuler des formulaires. Dans notre étude nous avons abordé les problèmes de conception de description, de manipulation de formulaires ainsi que des applications combinant un ensemble de formulaires, facilités par l'utilisation du concept de la relation universelle. La description du formulaire a été réalisée à partir des structures des relations de la base qui ont permis la création de schémas simples à partir desquels par composition ou par recouvrement (en utilisant des règles d'héritage), on obtient la structure des formulaires. Cette approche a été enrichie par les extensions apportées au modèle relationnel (spécialisation/généralisation) pour offrir plus de flexibilité dans la conception des formulaires en permettant le partage des objets et l'élaboration des versions. La manipulation a été effectuée grâce aux outils hérités du couplage avec le S. G. B. D. Relationnel et des modules propres tels que: calcul, valorisation, archivage, recherche, restitution, etc. . . Une gestion de l'historique des données permet des reconstitutions fidèles des occurrences de formulaires sans risques d'altération lors d'une mise a jour de la base. Le formulaire est un objet de la base de données. Une occurrence de formulaire sera engendrée à partir de une ou plusieurs relations de la base. Une application sera définie comme un ensemble de formulaires subissant des opérations de traitement
The aim of the work deal with the development of form base management system (FBMS) using all tools and intervals mechanisms of a DBMS, built upon the concept universal relation, for to conceive and manipulate forms. We focus on the problems of conception, description, manipulation of forms and applications that combine a set of forms. The description of form is realised from the structure of relations of the Database which allows the creation of sample schema from which we obtain the form structure, by composition (using the inheritance rules). This approach is enriched with the extension of relational model (generalisation/specialization) offering flexibility by abject sharing and manipulation of versions. The manipulation is realised with the tools inherited from coupling with relational DBMS and specific modules : calculation, evaluation, recording, searching, restitution etc. . . The management of historical data facilitate the appropriate occurrence of form without alteration during the update of database. The form is on abject of the database. An occurrence of form will be generated from one or many relations. An application will be defined with form that forms it's interface and data that use it. All forms of an application are stocked in the database.
43

Bellosta, Marie-Jo. "Systèmes d'interfaces pour la gestion d'objets persistants, Omnis." Paris 6, 1992. http://www.theses.fr/1992PA066034.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les SGBDOO ont pour principale motivation d'apporter une solution nouvelle aux problèmes rencontrés par les applications ayant à manipuler de grands volumes de données complexes. En combinant les avantages des SGBD et des systèmes OO, ils apportent un meilleur support des objets complexes et une plus grande productivité des programmeurs d'applications par rapport aux systèmes relationnels. Dans ce contexte, cette thèse propose un système d'interfaces pour la gestion d'objets, omnis, destiné à faciliter la connexion entre des outils OO tels que des compilateurs, interpreteurs ou programme CAO et un gérant extensible d'objets afin de fournir un support au stockage des objets persistants et partagés. Omnis a pour objectif de rendre le gérant de schéma indépendant du modèle objet qu'il accueille. Son originalité réside dans sa capacité à s'adapter à différents modèles objets via son analyse des modèles et son extensibilité. L'analyse des modèles décompose tout modèle objet en au moins cinq sous-modèles: instanciation, héritage, agrégation, composition et client. Les sémantiques de chaque sous-modèle sont définies par un ensemble d'invariants et un ensemble d'opérations. Ainsi, l'accueil d'un nouveau modèle consiste à spécialiser les sous-modèles pertinents en redéfinissant ou en enrichissant leurs invariants et leurs opérations. L'extensibilité d'omnis est due à son modèle objet réflexif permettant la création dynamique d'objets de meta-description pour capturer de nouveaux modèles objets. Outre les bénéfices traditionnels de réutilisabilité et d'extensibilité, cette approche ouvre la voie à l'intéropérabilité entre systèmes basés sur différents modèles objets en fournissant une uniformité dans les protocoles de gestion de schéma, d'accès et de représentation d'objets
44

Diène, Aly Wane. "Contribution à la gestion de structures de données distribuées et scalables." Paris 9, 2001. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=2001PA090039.

Full text
APA, Harvard, Vancouver, ISO, and other styles
45

Le, Trung-Dung. "Gestion de masses de données dans une fédération de nuages informatiques." Thesis, Rennes 1, 2019. http://www.theses.fr/2019REN1S101.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les fédérations de nuages informatiques peuvent être considérées comme une avancée majeure dans l’informatique en nuage, en particulier dans le domaine médical. En effet, le partage de données médicales améliorerait la qualité des soins. La fédération de ressources permettrait d'accéder à toutes les informations, même sur une personne mobile, avec des données hospitalières distribuées sur plusieurs sites. En outre, cela permettrait d’envisager de plus grands volumes de données sur plus de patients et ainsi de fournir des statistiques plus fines. Les données médicales sont généralement conformes à la norme DICOM (Digital Imaging and Communications in Medicine). Les fichiers DICOM peuvent être stockés sur différentes plates-formes, telles qu’Amazon, Microsoft, Google Cloud, etc. La gestion des fichiers, y compris le partage et le traitement, sur ces plates-formes, suit un modèle de paiement à l’utilisation, selon des modèles de prix distincts et en s’appuyant sur divers systèmes de gestion de données (systèmes de gestion de données relationnelles ou SGBD ou systèmes NoSQL). En outre, les données DICOM peuvent être structurées en lignes ou colonnes ou selon une approche hybride (ligne-colonne). En conséquence, la gestion des données médicales dans des fédérations de nuages soulève des problèmes d’optimisation multi-objectifs (MOOP - Multi-Objective Optimization Problems) pour (1) le traitement des requêtes et (2) le stockage des données, selon les préférences des utilisateurs, telles que le temps de réponse, le coût monétaire, la qualités, etc. Ces problèmes sont complexes à traiter en raison de la variabilité de l’environnement (liée à la virtualisation, aux communications à grande échelle, etc.). Pour résoudre ces problèmes, nous proposons MIDAS (MedIcal system on clouD federAtionS), un système médical sur les fédérations de groupes. Premièrement, MIDAS étend IReS, une plate-forme open source pour la gestion de flux de travaux d’analyse sur des environnements avec différents systèmes de gestion de bases de données. Deuxièmement, nous proposons un algorithme d’estimation des valeurs de coût dans une fédération de nuages, appelé Algorithme de régression %multiple linéaire dynamique (DREAM). Cette approche permet de s’adapter à la variabilité de l'environnement en modifiant la taille des données à des fins de formation et de test, et d'éviter d'utiliser des informations expirées sur les systèmes. Troisièmement, l’algorithme génétique de tri non dominé à base de grilles (NSGA-G) est proposé pour résoudre des problèmes d’optimisation multi-crtières en présence d’espaces de candidats de grande taille. NSGA-G vise à trouver une solution optimale approximative, tout en améliorant la qualité du font de Pareto. En plus du traitement des requêtes, nous proposons d'utiliser NSGA-G pour trouver une solution optimale approximative à la configuration de données DICOM. Nous fournissons des évaluations expérimentales pour valider DREAM, NSGA-G avec divers problèmes de test et jeux de données. DREAM est comparé à d'autres algorithmes d'apprentissage automatique en fournissant des coûts estimés précis. La qualité de la NSGA-G est comparée à celle des autres algorithmes NSGA présentant de nombreux problèmes dans le cadre du MOEA. Un jeu de données DICOM est également expérimenté avec NSGA-G pour trouver des solutions optimales. Les résultats expérimentaux montrent les qualités de nos solutions en termes d'estimation et d'optimisation de problèmes multi-objectifs dans une fédération de nuages
Cloud federations can be seen as major progress in cloud computing, in particular in the medical domain. Indeed, sharing medical data would improve healthcare. Federating resources makes it possible to access any information even on a mobile person with distributed hospital data on several sites. Besides, it enables us to consider larger volumes of data on more patients and thus provide finer statistics. Medical data usually conform to the Digital Imaging and Communications in Medicine (DICOM) standard. DICOM files can be stored on different platforms, such as Amazon, Microsoft, Google Cloud, etc. The management of the files, including sharing and processing, on such platforms, follows the pay-as-you-go model, according to distinct pricing models and relying on various systems (Relational Data Management Systems or DBMSs or NoSQL systems). In addition, DICOM data can be structured following traditional (row or column) or hybrid (row-column) data storages. As a consequence, medical data management in cloud federations raises Multi-Objective Optimization Problems (MOOPs) for (1) query processing and (2) data storage, according to users preferences, related to various measures, such as response time, monetary cost, qualities, etc. These problems are complex to address because of heterogeneous database engines, the variability (due to virtualization, large-scale communications, etc.) and high computational complexity of a cloud federation. To solve these problems, we propose a MedIcal system on clouD federAtionS (MIDAS). First, MIDAS extends IReS, an open source platform for complex analytics workflows executed over multi-engine environments, to solve MOOP in the heterogeneous database engines. Second, we propose an algorithm for estimating of cost values in a cloud environment, called Dynamic REgression AlgorithM (DREAM). This approach adapts the variability of cloud environment by changing the size of data for training and testing process to avoid using the expire information of systems. Third, Non-dominated Sorting Genetic Algorithm based ob Grid partitioning (NSGA-G) is proposed to solve the problem of MOOP is that the candidate space is large. NSGA-G aims to find an approximate optimal solution, while improving the quality of the optimal Pareto set of MOOP. In addition to query processing, we propose to use NSGA-G to find an approximate optimal solution for DICOM data configuration. We provide experimental evaluations to validate DREAM, NSGA-G with various test problem and dataset. DREAM is compared with other machine learning algorithms in providing accurate estimated costs. The quality of NSGA-G is compared to other NSGAs with many problems in MOEA framework. The DICOM dataset is also experimented with NSGA-G to find optimal solutions. Experimental results show the good qualities of our solutions in estimating and optimizing Multi-Objective Problem in a cloud federation
46

Resseguier, Noémie. "Méthodes de gestion des données manquantes en épidémiologie. : Application en cancérologie." Thesis, Aix-Marseille, 2013. http://www.theses.fr/2013AIXM5063.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La problématique de la gestion des données manquantes dans les études épidémiologiques est un sujet qui intéressera tous les chercheurs impliqués dans l’analyse des données recueillies et dans l’interprétation des résultats issus de ces analyses. Et même si la question de la gestion des données manquantes et de leur impact sur la validité des résultats obtenus est souvent discutée, cesont souvent les méthodes de traitement des données manquantes les plus simples mais pas toujours les plus valides qui sont utilisées en pratique. L’utilisation de chacune de ces méthodes suppose un certain nombre d’hypothèses sous lesquelles les résultats obtenus sont valides, mais il n’est pas toujours possible de tester ces hypothèses. L’objectif de ce travail était (i) de proposer une revue des différentes méthodes de traitement des données manquantes utilisées en épidémiologie en discutant les avantages et les limites de chacune de ces méthodes, (ii) de proposer une stratégie d’analyse afin d’étudier la robustesse des résultats obtenues via les méthodes classiques de traitement des données manquantes à l’écart aux hypothèses qui, bien que non testables, sont nécessaires à la validité de ces résultats, et (iii) de proposer quelques applications sur des données réelles des différents point discutés dans les deux premières parties
The issue of how to deal with missing data in epidemiological studies is a topic which concerns every researcher involved in the analysis of collected data and in the interpretation of the results produced by these analyses. And even if the issue of the handling of missing data and of their impact on the validity of the results is often discussed, simple, but not always appropriate methods to deal with missing data are commonly used. The use of each of these methods is based on some hypotheses under which the obtained results are valid, but it is not always possible to test these hypotheses. The objective of this work was (i) to propose a review of various methods to handle missing data used in the field of epidemiology, and to discuss the advantages and disadvantages of each of these methods, (ii) to propose a strategy of analysis in order to study the robustness of the results obtained via classical methods to handle missing data to the departure from hypotheses which are required for the validity of these results, although they are not testable, and (iii) to propose some applications on real data of the issues discussed in the first two sections
47

Hajji, Hicham. "Gestion des risques naturels : une approche fondée sur l'intégration des données." Lyon, INSA, 2005. http://theses.insa-lyon.fr/publication/2005ISAL0039/these.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La mise en oeuvre d'architectures ou de solutions de systèmes d'information géographique peut différer d'un cas à l'autre en fonction des objectifs et des besoins des applications. Dans la gestion des risques naturels, la conception de tels systèmes doit répondre à plusieurs problématiques comme l'hétérogénéité sémantique des données, la diversité des formats et des modèles de données, le caractère spatio-temporal de la gestion. Dans cette thèse, nous avons essayé de répondre à ces besoins en présentant une architecture de référence pour un système d'information pour la gestion des risques. Deux aspects ont été détaillés dans cette architecture: l'intégration des données et le développement d'une ontologie pour les risques. Le problème d'intégration des données a été abordé en utilisant le standard OpenGIS qui offre à la fois une définition équivoque des types de primitives géométriques, une prise en compte de la dimension temporelle, et un mécanisme pour la description des métadonnées. Une méthodologie d'intégration a été proposée comme un cadre pour assister: 1) à la transformation des schémas des données vers le modèle OpenGIS, 2) à l'identification des correspondances entre les éléments identiques, et 3) leur intégration dans un schéma intégré. L'ontologie a été développée pour éliminer la confusion sémantique entre les acteurs de la gestion des risques, et pour la modélisation du domaine en proposant un ensemble de concepts nécessaires à la description de la procédure de gestion des risques. Finalement, en relation avec le contrat CIFRE dont j'ai bénéficié, quelques systèmes d'information opérationnels sont présentés traitant de la procédure de gestion des risques
There is a huge geographic data available with many organizations collecting geographic data for centuries, but some of that is still in the form of paper maps or in traditional files or databases, and with the emergence of latest technologies in the field of software and data storage some has been digitized and is stored in latest GIS systems. However, too often their reuse for new applications is a nightmare, due to diversity of data sets, heterogeneity of existing systems in terms of data modeling concepts, data encoding techniques, obscure semantics of data,storage structures, access functionality, etc. Such difficulties are more common in natural hazards information systems. In order to support advanced natural hazards management based on heterogeneous data, this thesis develops a new approach to the integration of semantically heterogeneous geographic information which is capable of addressing the spatial and thematic aspects of geographic information. The approach is based on OpenGIS standard. It uses it as a common model for data integration. The proposed methodology takes into consideration a large number of the aspects involved in the construction and the modelling of natural hazards management information system. Another issue has been addressed in this thesis, which is the design of an ontology for natural hazards. The ontology design has been extensively studied in recent years, we have tried throughout this work to propose an ontology to deal with semantic heterogeneity existing between different actors and to model existing knowledge present for this issue. The ontology contains the main concepts and relationships between these concepts using OWL Language
48

Mokadem, Riad. "Signatures algébriques dans la gestion de structures de données distribuées et scalables." Paris 9, 2006. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=2006PA090014.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les deux dernières décennies ont été marquées par l’apparition de nouveaux concepts architecturaux entraînant une évolution vers les systèmes distribués. C’est une conséquence de l’augmentation de la capacité de stockage des mémoires et de calcul et de l’arrivée de réseaux à haut débit, notamment locaux à 1Gb/s. La tendance dominante est le développement de nouveaux systèmes, dits d’abord: multi-ordinateur, Réseau de Stations de Travail et plus récemment, « Peer-to-Peer Computing » ou « Grid Computing ». Afin de tirer le meilleur profit des potentialités offertes, de nouvelles structures de données spécifiques aux données réparties sont nécessaires. Dans ce contexte, Les Structures de Données Distribuées et Scalables (SDDS) sont une nouvelle classe de structures introduites spécifiquement pour la gestion de fichiers sur un multi¬ ordinateur. Un fichier SDDS peut s'étendre dynamiquement, au fur et à mesure des insertions, d'un seul site de stockage à tout nombre de sites interconnectés disponibles en pratique. Les algorithmes d'adressages d'une SDDS sont conçus spécifiquement pour être scalables, notamment par absence d'un répertoire ou index central. La répartition de données est transparente pour l'application. Les données manipulées peuvent être entièrement en RAM distribuée afin d’être accessibles bien plus vite qu’à partir des disques. Plusieurs SDDS ont été proposées. Les plus connues sont celles basées sur le hachage, celui linéaire (LH*) notamment, et celles utilisant le partitionnement par intervalle (RP*). Un prototype appelé SDDS-2000a été construit vers l’année 2000 au CERIA pour expérimenter avec les SDDS sur les réseaux locaux des PC sous Windows. Dans ce système, on retrouve les fonctions de base de gestion de données telles que la création de fichiers, l’insertion d’enregistrements ou encore la possibilité de requêtes parallèles. En se basant sur SDDS-2000, notre Thèse a pour objectif la conception et l’implantation de nouvelles fonctions pour celui ci. Ces fonctions sont destinées à la sauvegarde de données sur le disque, un traitement plus efficace de mises à jour, le traitement de concurrence ainsi que celui de la recherche par le contenu (scans). Enfin, pour mieux répondre au contexte P2P, il nous fallait introduire une certaine protection de données stockées, au moins contre une découverte accidentelle de leurs valeurs. Ceci nous a conduit au problème intéressant de recherche de données par l’exploration directe de leur contenu encodé, sans décodage local. Nous avons basé l’ensemble de nos fonctions sur une technique nouvelle dite de signatures algébriques. Nous détaillons la théorie et notre pratique de signatures algébriques tout au long de cette Thèse. Ainsi, une sauvegarde sur disque n’écrit que les parties de la RAM modifiées depuis la dernière sauvegarde. Le contrôle de concurrence est optimiste, sans verrouillage, pour de meilleures performances d’accès. L’enregistrement mis à jour n’est envoyé au serveur que si la donnée est réellement modifiée. Puis, les données stockées sont suffisamment encodées pour rendre impossible toute découverte accidentelle de leurs valeurs réelles sur les serveurs. Nous les encodons à l’aide d’une variante de signatures algébriques, les signatures cumulatives. Notre encodage possède notamment des propriétés accélérant diverses recherches de chaînes de caractères, par rapport à celles explorant les mêmes données sans encodage. D’une manière un peu surprenante, certaines recherches se révèlent expérimentalement plus rapides que par des algorithmes fondamentaux bien connus, tels que celui de Karp-Rabin. Nous présentons des mesures de performance prouvant l’efficacité de notre approche. Notre système, appelé SDS-2005, a été dès lors annoncé sur DbWorld. Il est disponible sur le site du CERIA pour les téléchargements non commerciaux. Les détails de nos travaux ont fait l’objet de cinq publications dans des conférences internationales [LMS03, LMS05a, LMS05b, M06, LMRS06]. Notre prototype a également été montré à de nombreux visiteurs chercheurs. Il a fait l’objet d’une démonstration vidéo, diffusée notamment à Microsoft Research (Montain View, USA) et d’une présentation lors des journées académiques Microsoft. Dans notre mémoire, nous présentons d’abord l'état de l'art sur les SDDSs, en se basant sur celui de systèmes de fichiers distribués. Puis nous discutons l'architecture système de SDDS-2005. Celle-ci emploie notamment des structures de données spécifiques pour RAM, ainsi que des processus légers qui gèrent les traitements répartis à travers des files d'attente asynchrones. On présente ensuite le concept de signatures algébriques. Puis on détaille l’usage pour la sauvegarde d’un fichier SDDS et la mise à jour d’enregistrements. Nous discutons ensuite les signatures cumulatives. On décrit l’encodage de nos enregistrements. On présente les différents types de recherche par contenu non-clé (scans) dans notre système notamment la recherche par le préfixe et celle partielle d’une chaîne de caractère (ang pattern matching ou string search…) à travers plusieurs algorithmes alternatifs. Nous présentons un nouvel algorithme dit par n-Gramme semblant particulièrement simple d’usage et rapide On décrit aussi la recherche du plus grand préfixe et de la plus grande chaîne commune. Nous montrons que les signatures cumulatives sont particulièrement efficaces pour la recherche de longues chaînes telles que les images, les empreintes, les codes DNA…En réflexion sur les perspectives, on discute l’utilisation de ces signatures pour la compression différentielles lors des mises à jour distribuées des données ainsi que la protection contre la corruption silencieuse de données stockées. Puis nous discutons l’analyse expérimentale de notre système. Les mesures montrent la scalabilité de notre système ainsi que les temps d’exécution de nos différentes fonctions. On finit par des conclusions, perspectives et les références bibliographiques. Les annexes montrent nos principales publications (pour la convenance des membres anglophones de notre jury tout particulièrement). On y montre aussi la description de l’interface offerte aux applications par SDDS-2005, annoncée sur DbWorld
Recent years saw emergence of new architectures, involving multiple computers. New concepts were proposed. Among most popular are those of a multicomputer or of a Network of Worksattion and more recently, of Peer to Peer and Grid Computing. This thesis consists on the design, implementation and performance measurements of a prototype SDDS manager, called SDDS-2005. It manages key based ordered files in distributed RAM of Windows machines forming a grid or P2P network. Our scheme can backup the RAM on each storage node onto the local disk. Our goal is to write only the data that has changed since the last backup. We interest also to update records and non key search (scans). Their common denominator was some application of the properties of new signature scheme based that we call algebraic signatures, which are useful in this context. Ones needs then to find only the areas that changed in the bucket since the last buckup. Our signature based scheme for updating records at the SDDS client should prove its advantages in client-server based database systems in general. It holds the promise of interesting possibilities for transactional concurrency control, beyond the mere avoidance of lost updates. We also update only data have been changed because of the using the algebraic signatures. Also, partly pre-computed algebraic signature of a string encodes each symbol by its cumulative signatures. They protect the SDDS data against incidental viewing by an unauthorized server’s administrator. The method appears attractive, it does not amply any storage overhead. It is also completly transparent for servers and occurs in client. Next, our cheme provide fast string search (match) directly on encoded data at the SDDS servers. They appear an alternative to known Karp-Rabin type schemes. Scans can explore the storage nodes in parallel. They match the records by entire non-key content or by its substring, prefix, longest common prefix or longest common string. The search complexity is almost O (1) for prefix search. One may use them also to detect and localize the silent corruption. These features should be of interest to P2P and grid computing. Then, we propose novel string search algorithm called n-Gramme search. It also appears then among the fastest known, e. G, probably often the faster one we know. It cost only a small fraction of existing records match, especially for larger strings search. The experiments prove high efficiency of our implementation. Our buckup scheme is substantially more efficient with the algebraic signatures. The signature calculus is itself substantially faster, the gain being about 30 %. Also, experiments prove that our cumulative pre-computing notably accelerates the string searchs which are faster than the partial one, at the expense of higher encoding/decoding overhead. They are new alternatives to known Karp-Rabin type schemes, and likely to be usually faster. The speed of string matches opens interesting perspectives for the popular join, group-by, rollup, and cube database operations. Our work has been subject of five publications in international conferences [LMS03, LMS05a, LMS05b, ML06, l&al06]. For convenience, we have included the latest publications. Also, the package termed SDDS-2005 is available for non-commercial use at http://ceria. Dauphine. Fr/. It builds up on earlier versions of the prototype, a cumulative effort of several folks and n-Gramme algorithm implementation. We have also presented our proposed prototype, SDDS-2005, at the Microsoft Research Academic Days 2006
49

El, Khalkhali Imad. "Système intégré pour la modélisation, l'échange et le partage des données de produits." Lyon, INSA, 2002. http://theses.insa-lyon.fr/publication/2002ISAL0052/these.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Dans le contexte d'Ingénierie Simultanée et d'Entreprise Virtuelle, un grand nombre d'informations sont utilisées et manipulées. L'exploitation de ces données pose des problèmes de communication tels que l'accès, l'échange et le partage d'informations entre des sites distants et entre des systèmes hétérogènes bien souvent incompatibles. Pour y répondre le projet STEP a été introduit. L'objectif de STEP est de définir une représentation non ambigue͏̈ des données de produit, interprétable par tout système informatique, et couvrant un très vaste domaine de connaissances. Cependant les acteurs travaillant simultanément au développement d'un produit sont nombreux et de spécialités très différentes : Concepteurs, Fabricants, Clients, Marketing, etc. Les points de vue qu'ils portent sur le même produit sont également très différents. Malheureusement les modèles STEP ne permettent pas de prendre en compte cette notion de point de vue. Ainsi, le travail présenté dans cette thèse a pour objectif de mettre en place un cadre méthodologique pour la représentation des points de vue des acteurs de la conception et de la fabrication à différents niveaux d'abstraction. Une infrastructure informatique pour la modélisation, l'échange et le partage des données de produit est également proposée
In Virtual Enterprise and Concurrent Engineering environments, a wide variety of information is used. A crucial issue is the data communication and exchange between heterogeneous systems and distant sites. To solve this problem, the STEP project was introduced. The STandard for the Exchange of Product model data STEP is an evolving international standard for the representation and exchange of product data. The objective of STEP is to provide the unambiguous computer-interpretable representation of product data in all phases of the product’s lifecycle. In a collaborative product development different types of experts in different disciplines are concerned by the product (Design, Manufacturing, Marketing, Customers,. . . ). Each of these experts has his own viewpoint about the same product. STEP Models are unable to represent the expert’s viewpoints. The objective of our research work is to propose a methodology for representation and integration of different expert’s viewpoints in design and manufacturing phases. An Information Infrastructure for modelling, exchanging and sharing product data models is also proposed
50

Bame, Ndiouma. "Gestion de donnée complexes pour la modélisation de niche écologique." Electronic Thesis or Diss., Paris 6, 2015. http://www.theses.fr/2015PA066125.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse concerne la gestion de données de biodiversité à large échelle. Elle a pour objectifs d’optimiser les requêtes pour les chercheurs qui peuvent accéder gratuitement aux données mondiales de biodiversité. Ces données partagées par des laboratoires de recherche du monde entier, sont mises à disposition du GBIF qui les fédère et les rend accessibles aux chercheurs, décideurs, grand public. Avec une quantité importante et une croissance rapide des données et des utilisateurs qui expriment de nouveaux besoins, le GBIF est confronté à un double problème d’expressivité des requêtes et d’efficacité. Ainsi, nous proposons une solution décentralisée pour l’interrogation des données de biodiversité. La solution cumule les ressources de plusieurs machines éloignées et peu puissantes pour offrir la puissance de calcul et de stockage nécessaire pour garantir la réactivité du système pour les usagers. En outre, elle fournit une interface d’interrogation de haut niveau qui est plus expressif pour les usagers. Puis, nous mettons en œuvre un mécanisme de répartition dynamique des données à la demande. Cette approche qui est basée sur la structure des données de biodiversité et les spécificités des requêtes d’analyse des usagers, adapte dynamiquement les capacités des machines aux demandes des usagers. Ensuite, nous proposons une approche d’optimisation de requêtes qui adapte dynamiquement le placement des données et la charge de chaque machine en fonction de ses performances pour traiter les requêtes des usagers dans des délais impartis. Nous avons validé expérimentalement cette solution avec des données réelles du GBIF concernant 100 millions observations
This thesis concerns large scale biodiversity data management. Its objectives are to optimize queries for researchers who have free access to biodiversity worldwide data. These data which are shared by worldwide research laboratories are federated in GBIF data warehouse. GBIF makes accessible its data to researchers, policy makers and general public. With a significant amount of data and a rapid growth of data and users that express new needs, the GBIF portal is facing a double problem of expressiveness of queries and of efficiency. Thus, we propose a decentralized solution for biodiversity data interrogation. Our solution combines the resources of several of remote and limited machines to provide the needed computing and storage power to ensure system responsiveness for users. It also provides high-level query interface which is more expressive for users. Then, we propose a dynamic data distribution on demand approach. This approach which is based on data properties and characteristics of users analysis queries adapts dynamically machines capacities to users demands. Then, we propose a queries optimization approach that adapts dynamically data placement and machines loads according to performances in order to process users queries within deadlines. We experimentally validated our solution with real GBIF data concerning 100 million observation data

To the bibliography