Siga este enlace para ver otros tipos de publicaciones sobre el tema: Entrepôts de données – Médecine.

Tesis sobre el tema "Entrepôts de données – Médecine"

Crea una cita precisa en los estilos APA, MLA, Chicago, Harvard y otros

Elija tipo de fuente:

Consulte los 50 mejores tesis para su investigación sobre el tema "Entrepôts de données – Médecine".

Junto a cada fuente en la lista de referencias hay un botón "Agregar a la bibliografía". Pulsa este botón, y generaremos automáticamente la referencia bibliográfica para la obra elegida en el estilo de cita que necesites: APA, MLA, Harvard, Vancouver, Chicago, etc.

También puede descargar el texto completo de la publicación académica en formato pdf y leer en línea su resumen siempre que esté disponible en los metadatos.

Explore tesis sobre una amplia variedad de disciplinas y organice su bibliografía correctamente.

1

Assele, Kama Ariane. "Interopérabilité sémantique et entreposage de données cliniques". Paris 6, 2013. http://www.theses.fr/2013PA066359.

Texto completo
Resumen
En médecine, les entrepôts de données permettent d’intégrer diverses sources de données à des fins d'analyses décisionnelles. Les données intégrées proviennent de sources souvent réparties et hétérogènes, dans le but de fournir une vue globale de l’information aux analystes et aux décideurs. L’entreposage de données en santé à des fins d’analyses décisionnelles pose la problématique de représentation des connaissances médicales en constante évolution, nécessitant l’utilisation de nouvelles méthodologies pour intégrer la dimension sémantique du domaine à analyser. La difficulté d’entreposage est liée à la complexité du domaine à décrire et à modéliser, mais surtout, au besoin d’associer la connaissance du domaine aux données. De ce fait, une des problématiques de recherche dans le domaine des entrepôts de données concerne la cohabitation de la connaissance et des données, et le rôle des ontologies dans la modélisation d'un entrepôt de données, l’intégration et l'exploitation des données. Ce travail de thèse, réalisé dans un laboratoire de recherche INSERM spécialisé en ingénierie des connaissances en santé (UMRS 872 EQ20), s’inscrit dans la problématique de modélisation, de partage et d’exploitation de données cliniques au sein d’une plateforme d’interopérabilité sémantique. Pour répondre à cette problématique, nous soutenons la thèse que : (i) l’intégration d’un modèle d’information normalisé avec un modèle de connaissance permet de mettre en oeuvre des entrepôts de données sémantiques dans le but d’optimiser l’exploitation des données; (ii) l’utilisation de ressources terminologiques et ontologiques aide à l’interconnexion de ressources distribuées et hétérogènes; (iii) la représentation des données impacte son exploitation et contribue à l’optimisation des systèmes décisionnels (ex. Outils de monitoring). En utilisant des méthodes et des outils innovants issus du Web Sémantique, nous avons optimisé l’intégration et l’exploitation de données cliniques pour la mise en œuvre d’un système de monitoring pour l’évaluation de l’évolution de la résistance bactérienne aux antibiotiques en Europe. Dans un premier temps, nous avons défini le modèle multidimensionnel d’un entrepôt de données sémantique, basé sur les standards existants tels que HL7. Nous avons par la suite, articulé ces données avec les connaissances du domaine des maladies infectieuses. Pour cela, nous avons représenté les données à travers leur structure, leur vocabulaire et leur sémantique, dans une ontologie dite « ontologie de définition de données », pour les aligner à l’ontologie de domaine via des règles de mapping. Nous avons proposé une méthode de génération semi-automatique de « l’ontologie de définition de données », à partir du schéma de la base de données, en nous appuyant sur des outils et résultats de projets existants. Enfin, l’entrepôt de données et les ressources sémantiques sont accessibles et exploités via un système d’interopérabilité sémantique développé dans le cadre du projet européen DebugIT et que nous avons expérimenté au sein de l'Hôpital européen Georges Pompidou
In medicine, data warehouses allow to integrate various data sources for decisional analysis. The integrated data often come from distributed and heterogeneous sources, in order to provide an overview of information to analysts and deciders. The clinical data warehousing raises the issue of medical knowledge representation constantly evolving, requiring the use of new methodologies to integrate the semantic dimension of the study domain. The storage problem is related to the complexity of the field to describe and model, but more importantly, to the need to combine domain knowledge with data. Therefore, one of the research topics in the field of data warehouses is about the cohabitation of knowledge and data, and the role of ontologies in data warehouse modeling, data integration and data mining. This work, carried out in an INSERM research laboratory specialized in knowledge health engineering (UMRS 872 EQ20), is part of issue on modeling, sharing and clinical data use, within a semantic interoperability platform. To address this issue, we support the thesis that: (i) the integration of a standardized information model with a knowledge model allows to implement semantic data warehouses in order to optimize the data use; (ii) the use of terminological and ontological resources aids the interconnection of distributed and heterogeneous resources; (iii) data representation impact its exploitation and helps to optimization of decision support systems (e. G. Monitoring tools). Using innovative methods and Semantic Web tools, we have optimized the integration and exploitation of clinical data for the implementation of a monitoring system to assess the evolution of bacterial resistance to antibiotics in Europe. As a first step, we defined the multidimensional model of a semantic data warehouse based on existing standards such as HL7. We subsequently articulated these data with domain knowledge of infectious diseases. For this, we have represented the data across their structure, vocabulary and semantics in an ontology called « data definition ontology », to map data to the domain ontology via mapping rules. We proposed a method for semi-automatic generation of « data definition ontology » from a database schema, using existing tools and projects results. Finally, the data warehouse and semantic resources are accessed and used via a semantic interoperability system developed in the framework of the DebugIT European project (Detecting and Eliminating Bacteria UsinG Information Technology), that we have experimented within the G. Pompidou university hospital (HEGP, France)
Los estilos APA, Harvard, Vancouver, ISO, etc.
2

Loizillon, Sophie. "Deep learning for automatic quality control and computer-aided diagnosis in neuroimaging using a large-scale clinical data warehouse". Electronic Thesis or Diss., Sorbonne université, 2024. https://accesdistant.sorbonne-universite.fr/login?url=https://theses-intra.sorbonne-universite.fr/2024SORUS258.pdf.

Texto completo
Resumen
La prise en charge des patients dans les hôpitaux génère quotidiennement des données de santé essentielles pour que les médecins assurent les meilleurs soins possibles aux patients. Au cours de la dernière décennie, l'émergence des entrepôts de données de santé (EDS) a révolutionné l'exploitation des données de routine clinique à des fins de recherche. En rassemblant les données médicales issues du soin courant (dossiers médicaux électroniques, imagerie, tests de pathologie et de laboratoireldots), les EDS offrent une opportunité unique pour la recherche. L'accès à ces vastes ensembles de données cliniques constitue un avantage majeur pour le développement et le déploiement de modèles d'intelligence artificielle en routine clinique. Les outils d'IA d'aide au diagnostic sont souvent limités aux données de recherche qui sélectionnent des patients répondant à des critères d'inclusion stricts et où les images sont acquises dans le cadre de protocoles de recherche standardisés. Ces conditions diffèrent grandement de la réalité clinique et empêchent la bonne généralisation de ces outils dans la pratique clinique. Cette thèse explore des techniques de contrôle qualité automatique pour faciliter l'utilisation de données de neuroimagerie d'entrepôts de données de santé à des fins de recherche. Les images stockées dans les EDS étant très hétérogènes, nous avons développé un outil automatique capable d'évaluer la qualité globale de l'image et d'identifier efficacement les images corrompues. Nous avons amélioré l'outil existant pour les IRMs cérébrales 3D pondérées en T1, développé par (Bottani et al. 2021), en proposant une méthode innovante d'apprentissage par transfert tirant parti de la simulation d'artefacts. Dans un second temps, nous avons étendu notre contrôle qualité automatique à une autre séquence anatomique courante : l'IRM cérébrale 3D FLAIR. Les modèles d'apprentissage automatique étant sensibles aux changements de distribution, nous avons proposé un cadre d'adaptation de domaine semi-supervisé permettant de limiter le nombre de nouvelles annotations manuelles. Enfin, nous avons mené une étude de faisabilité pour évaluer le potentiel des autoencodeurs variationnels pour la détection non supervisée d'anomalies. Les résultats obtenus ont montré une corrélation entre les scores de Fazekas et le volume des lésions segmentées par notre modèle, ainsi qu'une robustesse de la méthode vis-à-vis de la qualité des images. Toutefois, nous avons observé des cas d'échec pour lesquels aucune lésion n'était détectée dans des cas présentant des lésions, ce qui empêche pour l'heure l'utilisation de tels modèles en routine clinique. Bien que les entrepôts de données de santé constituent un écosystème précieux pour la recherche, permettant une meilleure compréhension de la santé de la population générale et, à long terme, susceptible de contribuer au développement de la médecine prédictive et préventive, leurs utilisations à des fins de recherche n'est pas sans poser de difficultés
Patient's hospitalisation generates data about their health, which is essential to ensure that they receive the best possible care. Over the last decade, clinical data warehouses (CDWs) have been created to exploit this vast amount of clinical information for research purposes. CDWs offer remarkable potential for research by bringing together a huge amount of real-world data of diverse nature (electronic health records, imaging data, pathology and laboratory tests...) from up to millions of patients. Access to such large clinical routine datasets, which are an excellent representation of what is acquired daily in clinical practice, is a major advantage in the development and deployment of powerful artificial intelligence models in clinical routine. Currently, most computer-aided diagnosis models are limited by a training performed only on research datasets with patients meeting strict inclusion criteria and data acquired under highly standardised research protocols, which differ considerably from the realities of clinical practice. This gap between research and clinical data is leading to the failure of AI systems to be well generalised in clinical practice.This thesis examined how to leverage clinical data warehouse brain MRI data for research purposes.Because images gathered in CDW are highly heterogeneous, especially regarding their quality, we first focused on developing an automated solution capable of effectively identifying corrupted images in CDWs. We improved the initial automated 3D T1 weighted brain MRI quality control developed by (Bottani et al. 2021) by proposing an innovative transfer learning method, leveraging artefact simulation.In the second work, we extended our automatic quality control for T1-weighted MRI to another common anatomical sequence: 3D FLAIR. As machine learning models are sensitive to distribution shifts, we proposed a semi-supervised domain adaptation framework. Our automatic quality control tool was able to identify images that are not proper 3D FLAIR brain MRIs and assess the overall image quality with a limited number of new manual annotation of FLAIR images. Lastly, we conducted a feasibility study to assess the potential of variational autoencoders for unsupervised anomaly detection. We obtained promising results showing a correlation between Fazekas scores and volumes of lesions segmented by our model, as well as the robustness of the method to image quality. Nevertheless, we still observed failure cases where no lesion is detected at all in lesional cases, which prevents this type of model to be used in clinical routine for now.Although clinical data warehouses are an incredible research ecosystem, to enable a better understanding of the health of the general population and, in the long term, contributing to the development of predictive and preventive medicine, their use for research purposes is not without its difficulties
Los estilos APA, Harvard, Vancouver, ISO, etc.
3

El, Malki Mohammed. "Modélisation NoSQL des entrepôts de données multidimensionnelles massives". Thesis, Toulouse 2, 2016. http://www.theses.fr/2016TOU20139/document.

Texto completo
Resumen
Les systèmes d’aide à la décision occupent une place prépondérante au sein des entreprises et des grandes organisations, pour permettre des analyses dédiées à la prise de décisions. Avec l’avènement du big data, le volume des données d’analyses atteint des tailles critiques, défiant les approches classiques d’entreposage de données, dont les solutions actuelles reposent principalement sur des bases de données R-OLAP. Avec l’apparition des grandes plateformes Web telles que Google, Facebook, Twitter, Amazon… des solutions pour gérer les mégadonnées (Big Data) ont été développées et appelées « Not Only SQL ». Ces nouvelles approches constituent une voie intéressante pour la construction des entrepôts de données multidimensionnelles capables de supporter des grandes masses de données. La remise en cause de l’approche R-OLAP nécessite de revisiter les principes de la modélisation des entrepôts de données multidimensionnelles. Dans ce manuscrit, nous avons proposé des processus d’implantation des entrepôts de données multidimensionnelles avec les modèles NoSQL. Nous avons défini quatre processus pour chacun des deux modèles NoSQL orienté colonnes et orienté documents. De plus, le contexte NoSQL rend également plus complexe le calcul efficace de pré-agrégats qui sont habituellement mis en place dans le contexte ROLAP (treillis). Nous avons élargis nos processus d’implantations pour prendre en compte la construction du treillis dans les deux modèles retenus.Comme il est difficile de choisir une seule implantation NoSQL supportant efficacement tous les traitements applicables, nous avons proposé deux processus de traductions, le premier concerne des processus intra-modèles, c’est-à-dire des règles de passage d’une implantation à une autre implantation du même modèle logique NoSQL, tandis que le second processus définit les règles de transformation d’une implantation d’un modèle logique vers une autre implantation d’un autre modèle logique
Decision support systems occupy a large space in companies and large organizations in order to enable analyzes dedicated to decision making. With the advent of big data, the volume of analyzed data reaches critical sizes, challenging conventional approaches to data warehousing, for which current solutions are mainly based on R-OLAP databases. With the emergence of major Web platforms such as Google, Facebook, Twitter, Amazon...etc, many solutions to process big data are developed and called "Not Only SQL". These new approaches are an interesting attempt to build multidimensional data warehouse capable of handling large volumes of data. The questioning of the R-OLAP approach requires revisiting the principles of modeling multidimensional data warehouses.In this manuscript, we proposed implementation processes of multidimensional data warehouses with NoSQL models. We defined four processes for each model; an oriented NoSQL column model and an oriented documents model. Each of these processes fosters a specific treatment. Moreover, the NoSQL context adds complexity to the computation of effective pre-aggregates that are typically set up within the ROLAP context (lattice). We have enlarged our implementations processes to take into account the construction of the lattice in both detained models.As it is difficult to choose a single NoSQL implementation that supports effectively all the applicable treatments, we proposed two translation processes. While the first one concerns intra-models processes, i.e., pass rules from an implementation to another of the same NoSQL logic model, the second process defines the transformation rules of a logic model implementation to another implementation on another logic model
Los estilos APA, Harvard, Vancouver, ISO, etc.
4

Benitez-Guerrero, Edgard. "Infrastructure adaptable pour l'évolution des entrepôts de données". Université Joseph Fourier (Grenoble), 2002. http://tel.archives-ouvertes.fr/tel-00010335.

Texto completo
Los estilos APA, Harvard, Vancouver, ISO, etc.
5

Sautot, Lucile. "Conception et implémentation semi-automatique des entrepôts de données : application aux données écologiques". Thesis, Dijon, 2015. http://www.theses.fr/2015DIJOS055/document.

Texto completo
Resumen
Cette thèse traite de la conception semi-automatique d'entrepôts de données et des cubes OLAP associés pour l'analyse de données écologiques.Les sciences biologiques, notamment l'écologie et l'agronomie, génèrent des données qui nécessitent un effort de collecte important : plusieurs années sont souvent nécessaires pour obtenir un jeu de données complets. De plus, les objets et les phénomènes étudiés par ces sciences sont complexes et nécessite l'enregistrement de nombreux paramètres pour être appréhendés. Enfin, le recueil de données complexes sur un temps long a pour conséquence un risque accru d’inconsistance au sein de ces données. Ainsi, ces sciences génèrent des données nombreuses, hétérogènes, voir inconsistantes.Il est donc intéressant de proposer aux scientifiques travaillant dans les sciences du vivant des systèmes d'information capable de stocker et de restituer leurs données, en particulier quand celles ci présentent un volume important. Parmi les outils existants, les outils de l'informatique décisionnelle, notamment les systèmes d'analyse en ligne (On-Line Analytical processing : OLAP), ont particulièrement retenu notre attention, car il s'agit de processus d'analyse de données sur de larges collections de données historiques (c'est-à-dire un entrepôt de données) afin d'offrir un support à la prise de décision. L'informatique décisionnelle propose des outils qui permettent à leurs utilisateurs d'explorer de larges volumes de données, dans le but de découvrir des modèles et des connaissances au sein de ces données, et ainsi d'éventuellement confirmer leurs hypothèses.Cependant, les systèmes OLAP sont des systèmes d'information complexes dont la mise en place nécessite des compétences avancées en informatique décisionnelle. Ainsi, bien qu'ils aient des caractéristiques intéressantes pour gérer et analyser des données multidimensionnelles, leur complexité les rend difficilement accessibles pour des utilisateurs potentiels, qui ne seraient pas des informaticiens professionnels.Dans la littérature, plusieurs travaux se sont penchés sur la conception automatique de schéma multidimensionnel, mais les exemples proposés par ces travaux concernaient des données classiques. Par ailleurs, d'autres articles traitent de la modélisation multidimensionnelle adaptée à des données complexes (inconsistance, données hétérogènes, intégration d'objets spatiaux, de textes, d'images au sein d'un entrepôt …) mais les méthodes proposées par ces travaux sont rarement automatique.C'est pourquoi l'objectif de ce travail de thèse est de proposer une méthode de conception d'entrepôt de données et des cubes OLAP associés la plus automatique possible. Cette méthode doit être capable de prendre en compte la complexité des données inhérente aux sciences biologiques.Pour tester les différents prototypes que nous avons proposé durant ce travail de thèse, nous avons disposé d'un jeu de données concernant l'abondance des oiseaux le long de la Loire. Ce jeu de données est structuré de la façon suivante : (1) nous disposons du recensement de 213 espèces d'oiseaux (décrites par un ensemble de facteurs qualitatifs, comme par exemple le régime alimentaire) en 198 points le long du fleuve pour 4 campagnes de recensement ; (2) chacun des 198 points est décrits par un ensemble de variables environnementales issues de différentes sources (relevés de terrain, images satellites, SIG). Ce sont ces variables environnementales qui posent le plus de questions en termes de modélisation multidimensionnelle. Ces données sont issues de différentes sources, parfois indépendantes des campagnes de recensement des oiseaux, et sont donc inconsistantes dans le temps et l'espace. De plus, ces données sont hétérogènes : elles peuvent se présenter sous forme de facteurs qualitatifs, quantitatifs ou encore d'objets spatiaux. Pour finir, ces données environnementales intègrent un grand nombre de facteurs (158 variables retenues) (...)
This thesis concerns the semi-automatic design of data warehouses and the associated OLAP cubes analyzing ecological data.The biological sciences, including ecology and agronomy, generate data that require an important collection effort: several years are often required to obtain a complete data set. Moreover, objects and phenomena studied by these sciences are complex and require many parameter recording to be understood. Finally, the collection of complex data over a long time results in an increased risk of inconsistency. Thus, these sciences generate numerous and heterogeneous data, which can be inconsistent. It is interesting to offer to scientists, who work in life sciences, information systems able to store and restore their data, particularly when those data have a significant volume. Among the existing tools, business intelligence tools, including online analytical systems (On-Line Analytical processing: OLAP), particularly caught our attention because it is data analysis process working on large historical collections (i.e. a data warehouse) to provide support to the decision making. The business intelligence offers tools that allow users to explore large volumes of data, in order to discover patterns and knowledge within the data, and possibly confirm their hypotheses.However, OLAP systems are complex information systems whose implementation requires advanced skills in business intelligence. Thus, although they have interesting features to manage and analyze multidimensional data, their complexity makes them difficult to manage by potential users, who would not be computer scientists.In the literature, several studies have examined the automatic multidimensional design, but the examples provided by theses works were traditional data. Moreover, other articles address the multidimensional modeling adapted to complex data (inconsistency, heterogeneous data, spatial objects, texts, images within a warehouse ...) but the proposed methods are rarely automatic. The aim of this thesis is to provide an automatic design method of data warehouse and OLAP cubes. This method must be able to take into account the inherent complexity of biological data. To test the prototypes, that we proposed in this thesis, we have prepared a data set concerning bird abundance along the Loire. This data set is structured as follows: (1) we have the census of 213 bird species (described with a set of qualitative factors, such as diet) in 198 points along the river for 4 census campaigns; (2) each of the 198 points is described by a set of environmental variables from different sources (land surveys, satellite images, GIS). These environmental variables address the most important issue in terms of multidimensional modeling. These data come from different sources, sometimes independent of bird census campaigns, and are inconsistent in time and space. Moreover, these data are heterogeneous: they can be qualitative factors, quantitative varaibles or spatial objects. Finally, these environmental data include a large number of attributes (158 selected variables) (...)
Los estilos APA, Harvard, Vancouver, ISO, etc.
6

Bouchakri, Rima. "Conception physique statique et dynamique des entrepôts de données". Thesis, Chasseneuil-du-Poitou, Ecole nationale supérieure de mécanique et d'aérotechnique, 2015. http://www.theses.fr/2015ESMA0012/document.

Texto completo
Resumen
Les entrepôts de données permettent le stockage et la consolidation, en une seule localité, d'une quantité gigantesque d'information pour être interrogée par des requêtes décisionnelles complexes dites requêtes de jointures en étoiles. Afin d'optimiser ses requêtes, plusieurs travaux emploient des techniques d'optimisations comme les index de jointure binaires et la fragmentation horizontale durant la phase de conception physique d'un entrepôt de données. Cependant, ces travaux proposent des algorithmes statiques qui sélectionnent ces techniques de manière isolée et s'intéressent à l'optimisation d'un seul objectif à savoir les performances des requêtes. Notre principale contribution dans cette thèse est de proposer une nouvelle vision de sélection des techniques d'optimisation. Notre première contribution est une sélection incrémentale qui permet de mettre à jour de manière continuelle le schéma d'optimisation implémenté sur l'ED, ce qui assure l'optimisation continuelle des requêtes décisionnelles. Notre seconde contribution est une sélection incrémentale jointe qui combine deux techniques d'optimisation pour couvrir l'optimisation d'un maximum de requêtes et respecter au mieux les contraintes d'optimisation liées à chacune de ces techniques. A l'issu de ces propositions, nous avons constaté que la sélection incrémentale engendre un coût de maintenance de l'ED. Ainsi, notre troisième proposition est une formulation et r!:solution du problème multi-objectif de sélection des techniques d'optimisation où il faut optimiser deux objectifs: la performance des requêtes et le coût de maintenance de l'ED
Data Warehouses store into a single location a huge amount of data. They are interrogated by complex decisional queries called star join queries. To optimize such queries, several works propose algorithms for selecting optimization techniques such as Binary Join Indexes and Horizontal Partitioning during the DW physical design. However, these works propose static algorithms, select optimization techniques in and isolated way and focus on optimizing a single objective which is the query performance. Our main contribution in this thesis is to propose a new vision of optimization techniques selection. Our first contribution is an incremental selection that updates continuously the optimization scheme implemented on the DW, to ensure the continual optimization of queries. To deal with queries complexity increase, our second contribution is a join incremental selection of two optimization techniques which covers the optimization of a maximum number or queries and respects the optimization constraints. Finally, we note that the incremental selection generates a maintenance cost to update the optimization schemes. Thus, our third prop05ilion is to formulate and resolve a multi-objective selection problem or optimization techniques where we have two objectives to optimize : queries performance and maintenance cost of the DW
Los estilos APA, Harvard, Vancouver, ISO, etc.
7

Boly, Aliou. "Fonctions d'oubli et résumés dans les entrepôts de données". Paris, ENST, 2006. http://www.theses.fr/2006ENST0049.

Texto completo
Resumen
Les entrepôts de données stockent des quantités de données de plus en plus massives et arrivent vite à saturation. La solution qui est appliquée en général est d'assurer un archivage périodique des données les plus anciennes. Cette solution n'est pas satisfaisante car l'archivage et la remise en ligne des données sont des opérations coûteuses au point que l'on peut considérer que des données archivées sont des données perdues du point de vue de leur utilisation dans le cadre d'une analyse des données. Dans cette thèse, nous proposons une solution pour résoudre ce problème : un langage de spécifications de fonctions d'oubli est défini pour déterminer les données qui doivent être présentes dans l'entrepôt de données à chaque instant. Ces spécifications de fonctions d'oubli conduisent à supprimer de façon mécanique les données 'oublier', tout en conservant un résumé de celles-ci par agrégation et par échantillonnage. L'objectif est de mettre à disposition de l'administrateur de l'entrepôt de données des outils permettant de maîtriser la taille de l'entrepôt et d'automatiser au maximum le processus d'archivage des données anciennes en fonction de stratégies prédéfinies. Dans cette thèse, nous nous plaçons dans le cadre du modèle relationnel et nous définissons un langage de spécifications de fonctions d'oubli ainsi que les principes et les algorithmes pour mettre à jour le contenu de l'entrepôt conformément aux spécifications de fonctions d'oubli. Des mécanismes de consultation et d'analyse des résumés constitués sont également proposés
The amount of data stored in data warehouses grows very quickly so that they get saturated. To overcome this problem, the solution is generally to archive older data when new data arrive if there is no space left. This solution is not satisfactory because data mining analyses based on long term historical data become impossible. As a matter of fact data mining analysis cannot be done on archived data without re-loading them in the data warehouse; and the cost of loading back a large dataset of archived data is too high to be operated just for one analysis. So, archived data must be considered as lost data regarding to data mining applications. In this thesis, we propose a solution for solving this problem: a language is defined to specify forgetting functions on older data. The specifications include the definition of some summaries of deleted data to define what data should be present in the data warehouse at each step of time. These summaries are aggregates and samples of deleted data and will be kept in the data warehouse. The goal of these forgetting functions is to control the size of the data warehouse. This control is provided both for the aggregate summaries and the samples. The specification language for forgetting function is defined in the context of relational databases. Once forgetting functions have been specified, the data warehouse is automatically updated in order to follow the specifications. This thesis presents both the language for specifications, the structure of the summaries, the algorithms to update the data warehouse and the possibility of performing interesting analyses of historical data
Los estilos APA, Harvard, Vancouver, ISO, etc.
8

Badri, Mohamed. "Maintenance des entrepôts de données issus de sources hétérogènes". Paris 5, 2008. http://www.theses.fr/2008PA05S006.

Texto completo
Resumen
Ce travail s'inscrit dans le domaine des entrepôts de données qui, d'une part se situent au cœur du système d'information décisionnel et d'autre part servent de support pour l'analyse et l'aide à la décision (OLAP, data mining, reporting). L'entrepôt de données, étant une entité vivante dont le contenu est régulièrement alimenté et rafraîchi, l'actualisation de ses indicateurs d'analyse (agrégats) constitue un facteur crucial pour la prise de décision. La maintenance occupe une place stratégique dans le dispositif du système décisionnel et représente également un critère d'évaluation des performances d'un entrepôt. Par ailleurs, et suite à l'avènement des technologies de communication, particulièrement Internet, les données sont fortement distribuées et hétérogènes ; nous pouvons les classer en trois catégories, à savoir : les données structurées, les données semi-structurées et les données non-structurées. Dans le présent travail, nous proposons, dans un premier temps, une approche de modélisation pour intégrer toutes ces données. Nous proposons, par la suite et en se basant sur cette approche, un processus qui assure la maintenance des données et des agrégats de l'entrepôt. Nous proposons également une structure arborescente de gestion d'agrégats ainsi que les algorithmes qui en assurent l'évolution. Dans le contexte d'hétérogénéité dans lequel nous nous plaçons, toutes nos propositions sont indépendantes du modèle de l'entrepôt et de son système de gestion. Enfin et pour valider nos contributions, nous avons développé le prototype HDIM (Heterogeneous Data Intégration and Maintenance) et effectué une série d'expérimentations pertinentes
This work has been performed in the field of data warehouses (DW). DW are in the core of Decision making information system and are used to support decision making tools (OLAP, data mining, reporting). A DW is an alive entity which content is continuously fed and refreshed. Updating aggregates of DW is crucial for the decision making. That is why the DW maintenance has a strategic place in the decision system process. It is also used as a performance criterion of a DW system. Since the communication technologies especially Internet are steadily growing, data are becoming more and more heterogeneous and distributed. We can classify them in three categories: structured data, semi-structured data and unstructured data. In this work we are presenting first a modelling approach with the aim of integrating all this data. On the bases of this approach, we are thereafter proposing a process that insures an incremental warehouse data and aggregates maintenance. We are also proposing a tree structure to manage aggregates as well as algorithms that insure its evolution. Being in the context of heterogeneity, all our proposals are independent of the warehouse model and of its management system. In order to validate our contribution, the Heterogeneous Data Integration and Maintenance (HDIM) prototype has been developped and some experiments performed
Los estilos APA, Harvard, Vancouver, ISO, etc.
9

Aouiche, Kamel. "Techniques de fouille de données pour l'optimisation automatique des performances des entrepôts de données". Lyon 2, 2005. http://theses.univ-lyon2.fr/documents/lyon2/2005/aouiche_k.

Texto completo
Resumen
Avec le développement des bases de données en général et des entrepôts de données en particulier, il est devenu très important de réduire les tâches d'administration des systèmes de gestion de base de données. Les systèmes auto-administratifs ont pour objectif de s'administrer et de s'adapter eux-mêmes, automatiquement, sans perte ou même avec un gain de performance. L'idée d'utiliser des techniques de fouille de données pour extraire des connaissances utiles à partir des données stockées pour leur administration est une approche très prometteuse, notamment dans le domaine des entrepôts de données, où les requêtes sont très hétérogènes et ne peuvent pas être interprétées facilement. L'objectif de cette thèse est d'étudier les techniques d'auto-administration des entrepôts de données, principalement des techniques d'optimisation des performances, comme l'indexation et la matérialisation de vues, et de rechercher une manière d'extraire des données elles-mêmes des connaissances utilisables pour appliquer ces techniques. Nous avons réalisé un outil qui recommande une configuration d'index et de vues matérialisées permettant d'optimiser le temps d'accès aux données. Notre outil effectue une recherche de motifs fréquents fermés sur une charge donnée et une classification non supervisée des requêtes de la charge pour construire cette configuration d'index et de vues. Nous avons également couplé la sélection d'index et de vues matérialisées afin de partager efficacement l'espace de disque alloué pour stocker ces structures. Enfin, nous avons appliqué les principes développés dans le cadre relationnel aux entrepôts de données XML. Nous avons proposé une structure d'index précalculant les jointures entre les faits et les dimensions XML et adapté notre stratégie de sélection de vues pour matérialiser des vues XML
With the development of databases in general and data warehouses in particular, it becomes very important to reduce the function of administration. The aim of auto-administrative systems is administrate and adapt themselves automatically, without loss or even with a gain in performance. The idea of using data mining techniques to extract useful knowledge for administration from the data themselves has been in the air for some years. However, no research has ever been achieved. As for as we know, it nevertheless remains a very promising approach, notably in the field of the data warehousing, where the queries are very heterogeneous and cannot be interpreted easily. The aim of this thesis is to study auto-administration techniques in databases and data warehouses, mainly performance optimization techniques such as indexing and view materialization, and to look for a way of extracting from stored data themselves useful knowledge to apply these techniques. We have designed a tool that finds an index and view configuration allowing to optimize data access time. Our tool searches frequent itemsets in a given workload and clusters the query workload to compute this index and view configuration. Finally, we have extended the performance optimization to XML data warehouses. In this area, we proposed an indexing technique that precomputes joins between XML facts and dimensions and adapted our materialized view selection strategy for XML materialized views
Los estilos APA, Harvard, Vancouver, ISO, etc.
10

Khrouf, Kaïs. "Entrepôts de documents : de l'alimentation à l'exploitation". Toulouse 3, 2004. http://www.theses.fr/2004TOU30109.

Texto completo
Resumen
Nous proposons dans le cadre de cette thèse le concept d'entrepôt de documents permettant le stockage de documents hétérogènes, sélectionnés et filtrés, ainsi que leur classification selon des structures logiques génériques (structures communes à un ensemble de documents). Une telle organisation des entrepôts permet de faciliter l'exploitation des informations documentaires intégrées au travers de plusieurs techniques complémentaires : la recherche d'information qui consiste à restituer des granules de documents en réponse à une requête formulée à l'aide de mots-clés (langage libre), l'interrogation des données qui consiste à récupérer des données factuelles (de structure ou de contenu) en utilisant un langage déclaratif, l'analyse multidimensionnelle qui consiste à manipuler les informations de l'entrepôt selon des dimensions non prédéfinies. Pour valider nos propositions, nous avons développé un outil DOCWARE (DOCument WAREhouse) d'aide à l'intégration et à l'analyse de documents
In this thesis, we propose the concept of document warehouse which consists in the storage of heterogeneous, selected and filtered documents, and their classification according to generic logical structures (common structures to a set of documents). Such warehouses organization facilitates the exploitation of the integrated documentary information through several complementary techniques : the information retrieval which consists in the restitution document granules in response to a query formulated with keywords (free language), the data interrogation which consists in the restitution factual data (structure or content) by using a declarative language, the multidimensional analysis which consists in the manipulation of warehouse information according to not-predefined dimensions. To validate our propositions, we developed an aid tool DOCWARE (DOCument WAREhouse) for the integration and the analysis of documents
Los estilos APA, Harvard, Vancouver, ISO, etc.
11

Wehrle, Pascal. "Modèle multidimensionnel et OLAP sur architecture de grille". Lyon, INSA, 2009. http://theses.insa-lyon.fr/publication/2009ISAL0002/these.pdf.

Texto completo
Resumen
Les entrepôts de données et les systèmes OLAP (OnLine Analytical Processing) permettent un accès rapide et synthétique à de gros volumes de données à des fins d'analyse. Afin d'améliorer encore les performances des systèmes décisionnels, une solution consiste en la mise en œuvre d'entrepôts de données sur des systèmes répartis toujours plus puissants. Les grilles de calcul en particulier offrent d'importantes ressources de stockage et de traitement. Le déploiement d'un entrepôt sur une infrastructure décentralisée de grille nécessite cependant l'adaptation du modèle multidimensionnel et des processus OLAP pour tenir compte de la répartition et de la réplication des données et de leurs agrégats. Nous introduisons un modèle d'identification des données de l'entrepôt réparti et une méthode d'indexation des données sous forme de blocs multidimensionnels. Cette structure d'index s'appuie sur des index spatiaux en X-tree et des treillis de cuboïdes, et permet la localisation des données matérialisées ainsi que des agrégats calculables sur les différents nœuds de la grille. Nous proposons une méthode de traitement de requêtes OLAP visant à construire un plan d'exécution optimisé à partir de la liste des blocs candidats contribuant au résultat de la requête. Enfin, nous définissons une architecture de services de grille GIROLAP (Grid Infrastructure for Relational OLAP), intégrée à l'intergiciel Globus, et déployée dans le cadre du projet GGM (Grille Géno-Médicales) de l’ACI « Masse de Données »
Data warehouses and OLAP (OnLine Analytical Processing) systems allow fast and aggregated access to large volumes of data for analysis purposes. In order to further increase the performance of decision support systems, one solution consists in implementing data warehouses on more and more powerful distributed systems. Computing grids in particular provide significant amounts of storage and computing resources. The deployment of a data warehouse on a decentralized grid infrastructure however requires adjustments of the multidimensional data model and of the OLAP processes to take into account the distribution and replication of warehouse data and their aggregates. We introduce an identification model for distributed warehouse data and an indexing method representing the data in the form of multidimensional blocs. This index structure is based on spatial X-tree indexes and cuboïd lattices and allows for localization of materialized data as well as computable aggregates on various grid nodes. We propose an OLAP query execution method aiming at the construction of an optimized query execution plan from a list of candidate blocs providing parts of the query result. Finally, we define a grid services architecture named GIROLAP (Grid Infrastructure for Relational OLAP) which is integrated with the Globus middleware and deployed in the context of the GGM project (Grid for Geno-Medicine) funded by the ACI "Masse de Données"
Los estilos APA, Harvard, Vancouver, ISO, etc.
12

Triki, Salah. "Sécurisation des entrepôts de données : de la conception à l’exploitation". Thesis, Lyon 2, 2013. http://www.theses.fr/2013LYO22026.

Texto completo
Resumen
Les entrepôts des données centralisent des données critiques et sensibles qui sont nécessaires pour l'analyse et la prise de décisions. La centralisation permet une gestion efficace et une administration aisée, par contre de point de vu sécurité, centraliser les données critiques dans un seul endroit ; l'entrepôt de données, attire la convoitise des pirates. En 2011 par exemple, les entreprises SONY et RSA, ont été victime d'attaques qui ont engendré des pertes considérables. En plus, les entreprises sont de plus en plus dépendantes des entrepôts des données du faite qu'ils génèrent de plus en plus de données. Le cabinet d'analyse IDC indique que les quantités des données générées par les entreprise sont en train d'exploser et que en 2015, la quantité des données atteindra 8 billion TB. La sécurisation des entrepôts de données est donc primordiale. Dans ce contexte, nos travaux de thèse consiste a proposer une architecture pour la sécurisation des entrepôts de données de la conception à l'exploitation. Au niveau conceptuel, nous proposons un profil UML pour la définition des autorisations et les niveaux de sensibilités des données, une méthode pour la prévention des inférences, et des règles pour analyser la cohérence des autorisations. Au niveau exploitation, une méthode pour renforcer les autorisations définis au niveau conception, une méthode pour la prévention des inférences, une méthode pour respecter les contraintes d'additivités.Afin de valider l'architecture que nous proposons et montrer son applicabilité, nous l'avons tester le benchmark Star Schema Benchmark
Companies have to make strategic decisions that involve competitive advantages. In the context of decision making, the data warehouse concept has emerged in the nineties. A data warehouse is a special kind of database that consolidates and historizes data from the operational information system of a company. Moreover, a company's data are proprietary and sensitive and should not be sold without controls. Indeed, some data are personal and may harm their owners when they are disclosed, for example, medical data, religious or ideological beliefs. Thus, many governments have enacted laws to protect the private lives of their citizens. Faced with these laws, organizations are, therefore, forced to implement strict security measures to comply with these laws. Our work takes place in the context of secure data warehouses that can be addressed at two levels: (i) design that aims to develop a secure data storage level, and (ii) operating level, which aims to strengthen the rights access / user entitlements, and any malicious data to infer prohibited from data it has access to user banned. For securing the design level, we have made three contributions. The first contribution is a specification language for secure storage. This language is a UML profile called SECDW+, which is an extended version of SECDW for consideration of conflicts of interest in design level. SECDW is a UML profile for specifying some concepts of security in a data warehouse by adopting the standard models of RBAC security and MAC. Although SECDW allows the designer to specify what role has access to any part of the data warehouse, it does not take into account conflicts of interest. Thus, through stereotypes and tagged values , we extended SECDW to allow the definition of conflict of interest for the various elements of a multidimensional model. Our second contribution, at this level, is an approach to detect potential inferences from conception. Our approach is based on the class diagram of the power sources to detect inferences conceptual level. Note that prevention inferences at this level reduces the cost of administering the OLAP server used to manage access to a data warehouse. Finally, our third contribution to the design of a secure warehouse consists of rules for analyzing the consistency of authorizations modeled. As for safety operating level, we proposed: an architecture for enhancing the permissions for configuration, a method for the prevention of inferences, and a method to meet the constraints of additive measures. The proposed architecture adds to system access control, typically present in any secure DBMS, a module to prevent inferences. This takes our security methods against inferences and respect for additivity constraints. Our method of preventing inferences operates for both types of inferences: precise and partial. For accurate inferences, our method is based on Bayesian networks. It builds Bayesian networks corresponding to user queries using the MAX and MIN functions, and prohibits those that are likely to generate inferences. We proposed a set of definitions to translate the result of a query in Bayesian networks. Based on these definitions, we have developed algorithms for constructing Bayesian networks to prohibit those that are likely to generate inferences. In addition, to provide a reasonable response time needed to deal with the prevention treatment, we proposed a technique for predicting potential applications to prohibit. The technique is based on the frequency of inheritance queries to determine the most common query that could follow a request being processed. In addition to specific inferences (performed through queries using the MIN and MAX functions), our method is also facing partial inferences made through queries using the SUM function. Inspired by statistical techniques, our method relies on the distribution of data in the warehouse to decide to prohibit or allow the execution of queries
Los estilos APA, Harvard, Vancouver, ISO, etc.
13

Dehdouh, Khaled. "Entrepôts de données NoSQL orientés colonnes dans un environnement cloud". Thesis, Lyon 2, 2015. http://www.theses.fr/2015LYO22018.

Texto completo
Resumen
Le travail présenté dans cette thèse vise à proposer des approches pour construire et développer des entrepôts de données selon le modèle NoSQL orienté colonnes. L'intérêt porté aux modèles NoSQL est motivé d'une part, par l'avènement des données massives et d'autre part, par l'incapacité du modèle relationnel, habituellement utilisés pour implémenter les entrepôts de données, à permettre le passage à très grande échelle. En effet, les différentes modèles NoSQL sont devenus des standards dans le stockage et la gestion des données massives. Ils ont été conçus à l'origine pour construire des bases de données dont le modèle de stockage est le modèle « clé/valeur ». D'autres modèles sont alors apparus pour tenir compte de la variabilité des données : modèles orienté colonne, orienté document et orienté graphe. Pour développer des entrepôts de données massives, notre choix s'est porté sur le modèle NoSQL orienté colonnes car il apparaît comme étant le plus approprié aux traitements des requêtes décisionnelles qui sont définies en fonction d'un ensemble de colonnes (mesures et dimensions) issues de l'entrepôt. Cependant, le modèle NoSQL en colonnes ne propose pas d'opérateurs de type analyse en ligne (OLAP) afin d'exploiter les entrepôts de données.Nous présentons dans cette thèse des solutions innovantes sur la modélisation logique et physique des entrepôts de données NoSQL en colonnes. Nous avons proposé une approche de construction des cubes de données qui prend compte des spécificités de l'environnement du stockage orienté colonnes. Par ailleurs, afin d'exploiter les entrepôts de données en colonnes, nous avons défini des opérateurs d'agrégation permettant de créer des cubes OLAP. Nous avons proposé l'opérateur C-CUBE (Columnar-Cube) permettant de construire des cubes OLAP stockés en colonnes dans un environnement relationnel en utilisant la jointure invisible. MC-CUBE (MapReduce Columnar-Cube) pour construire des cubes OLAP stockés en colonnes dans un environnement distribué exploitant la jointure invisible et le paradigme MapReduce pour paralléliser les traitements. Et enfin, nous avons développé l'opérateur CN-CUBE (Columnar-NoSQL Cube) qui tient compte des faits et des dimensions qui sont groupés dans une même table lors de la génération de cubes à partir d'un entrepôt dénormalisé selon un certain modèle logique. Nous avons réalisé une étude de performance des modèles de données dimensionnels NoSQL et de nos opérateurs OLAP. Nous avons donc proposé un index de jointure en étoile adapté aux entrepôts de données NoSQL orientés colonnes, baptisé C-SJI (Columnar-Star Join Index). Pour évaluer nos propositions, nous avons défini un modèle de coût pour mesurer l'impact de l'apport de cet index. D'autre part, nous avons proposé un modèle logique baptisé FLM (Flat Logical Model) pour implémenter des entrepôts de données NoSQL orientés colonnes et de permettre une meilleure prise en charge par les SGBD NoSQL de cette famille.Pour valider nos différentes contributions, nous avons développé une plate-forme logicielle CG-CDW (Cube Generation for Columnar Data Warehouses) qui permet de générer des cubes OLAP à partir d'entrepôts de données en colonnes. Pour terminer et afin d'évaluer nos contributions, nous avons tout d'abord développé un banc d'essai décisionnel NoSQL en colonnes (CNSSB : Columnar NoSQL Star Schema Benchmark) basé sur le banc d'essai SSB (Star Schema Benchmark), puis, nous avons procédé à plusieurs tests qui ont permis de montrer l'efficacité des différents opérateurs d'agrégation que nous avons proposé
The work presented in this thesis aims at proposing approaches to build data warehouses by using the columnar NoSQL model. The use of NoSQL models is motivated by the advent of big data and the inability of the relational model, usually used to implement data warehousing, to allow data scalability. Indeed, the NoSQL models are suitable for storing and managing massive data. They are designed to build databases whose storage model is the "key/value". Other models, then, appeared to account for the variability of the data: column oriented, document oriented and graph oriented. We have used the column NoSQL oriented model for building massive data warehouses because it is more suitable for decisional queries that are defined by a set of columns (measures and dimensions) from warehouse. However, the NoSQL model columns do not offer online analysis operators (OLAP) for exploiting the data warehouse.We present in this thesis new solutions for logical and physical modeling of columnar NoSQL data warehouses. We have proposed a new approach that allows building data cubes by taking the characteristics of the columnar environment into account. Thus, we have defined new cube operators which allow building columnar cubes. C-CUBE (Columnar-CUBE) for columnar relational data warehouses. MC-CUBE (MapReduce Columnar-CUBE) for columnar NoSQL data warehouses when measures and dimensions are stored in different tables. Finally, CN-CUBE (Columnar NoSQL-CUBE) when measures and dimensions are gathered in the same table according a new logical model that we proposed. We have studied the NoSQL dimensional data model performance and our OLAP operators, and we have proposed a new star join index C-SJI (Columnar-Star join index) suitable for columnar NoSQL data warehouses which store measures and dimensions separately. To evaluate our contribution, we have defined a cost model to measure the impact of the use of this index. Furthermore, we have proposed a logic model called FLM (Flat Logical Model) to represent a data cube NoSQL oriented columns and enable a better management by columnar NoSQL DBMS.To validate our contributions, we have developed a software framework CG-CDW (Cube Generation for Data Warehouses Columnar) to generate OLAP cubes from columnar data warehouses. Also, we have developed a columnar NoSQL decisional benchmark CNSSB (Columnar NoSQL Star Schema Benchmark) based on the SSB and finally, we conducted several tests that have shown the effectiveness of different aggregation operators that we proposed
Los estilos APA, Harvard, Vancouver, ISO, etc.
14

Csernel, Baptiste. "Résumé généraliste de flux de données". Paris, ENST, 2008. http://www.theses.fr/2008ENST0048.

Texto completo
Resumen
Cette thèse traite de la mise en place de résumés généralistes de flux de données. Elle est centrée autour du développement de deux algorithmes, l'un produisant des résumés généralistes d'un flux de données et l'autre de trois flux de données partageant des liens relationnels. Un flux de données est défini comme une séquence continue d'objets tels qu'il soit impossible de contrôler l'ordre d'arriver des objets ou de stocker le flux dans son intégralité. On retrouve ces flux de données dans des applications comme les télécommunications, les réseau de capteurs ou l'analyse financière. La première étape de ce travail a été de définir ce qu'est un résumé généraliste de flux de données. Sa première propriété est qu'il doit être utilisable pour une large gamme de tâches de fouille de données. La seconde est qu'il doit être possible de constituer à partir du résumé principal un résumé ne concernant qu'une portion du flux arrivé jusqu'alors. Le premier algorithme réalisé, StreamSamp, est un algorithme de résumé généraliste d'un seul flux de données et il est basé sur des techniques d'échantillonnage. Le second, CrossStream est destiné à résumer trois flux de données partageant des informations relationnelles entre eux, un flux de relation liant deux flux d'entités. Cet algorithme est basé sur des micro classes inspirées de l'algorithme CluStream d'Aggarwal combinés à l'utilisation de Filtres de Bloom. Les deux algorithmes ont été implémentés et testé sur plusieurs jeux de données pour déterminer leur performances face à divers situations
This thesis deals with the creation and management of general purpose summaries build from data streams. It is centered on the development of two algorithms, one designed to produce general purpose summaries for a single data stream, and the other for three data stream sharing relational information. A data stream is defined as a real-time, continuous, ordered sequence of items. It is impossible to control the order in which items arrive, nor is it feasible to locally store a stream in its entirety. Such data streams appear in many applications, such as utility networks, IT or in monitoring tasks for instance in meteorology, geology or even finance. The first step in this work is to define the meaning of a general purpose data stream summary. The first property of such a summary is that it should be suitable for a variety of data mining and querying tasks. The second one is that it should be possible to build from the main summary a summary concerning only a selected portion of the stream encountered so far. The first algorithm designed, StreamSamp, is a general purpose summary algorithm dealing with a single data stream and based around the principle of sampling. While the second algorithm, CrossStream, is is a general purpose summary algorithm dealing with three data streams sharing relational information with one another, one relation stream linking two entity streams. This algorithm is based on the use of micro clusters, inspired by the CluStream algorithm designed by Aggarwal combined with the use of Bloom Filter. Both algorithm were implemented and tested against various sets of data to assess their performance in a number of situations
Los estilos APA, Harvard, Vancouver, ISO, etc.
15

Ahmed, Taher Omran. "Continuité spatiotemporelle dans les entrepôts de données et les modèles multidimensionnels". Lyon 1, 2006. http://www.theses.fr/2006LYO10113.

Texto completo
Resumen
Les systèmes d’aide à la décision sont habituellement basés sur les structures multidimensionnelles. Un hypercube est une structure multidimensionnelle dont le centre contient les faits qui sont les objets de l’analyse. Les dimensions forment un espace vectoriel où un fait est localisé par un jeu de coordonnées. Les structures multidimensionnelles conventionnelles traitent des faits discrets liés aux dimensions discrètes. Cependant, lorsqu’on modélise un phénomène naturel la représentation discrète n’est pas précise. Il y a besoin d’intégrer la continuité spatiotemporelle dans les structures multidimensionnelles pour permettre l’analyse et l’exploration de données de champ continu. Dans cette thèse, nous définissons un modèle multidimensionnel formel dédie aux données continues. Il est basé sur la notion de cube de base qui contient données au niveau d’agrégation très fins. Deux types de cube de base sont définis : discret et continu. Les hypercubes aux niveaux généraux sont construits en appliquant des opérations nouvelles opérations d’agrégation aux cubes de base
Decision support systems are usually based on multidimensional structures. Facts are stored in structures called hypercubes. Dimensions play the role of axes on which these facts are analyzed and form a space where a fact is located by a set of coordinates. Conventional multidimensional structures deal with discrete facts linked to discrete dimensions. However, when dealing with natural continuous phenomena the discrete representation is not adequate. There is a need to integrate spatiotemporal continuity within multidimensional structures to enable analysis and exploration of continuous field data. In this thesis, we deal with defining a formal multidimensional model for continuous field data. Our model is based on the notion of basic cubes which contain data at the lowest level of detail. Two types of basic cubes were defined : discrete and continuous. Higher level hypercubes are built by applying aggregation operations to basic cubes. New aggregation operations were defined
Los estilos APA, Harvard, Vancouver, ISO, etc.
16

Ben, Meftah Salma. "Structuration sématique de documents XML centres-documents". Thesis, Toulouse 1, 2017. http://www.theses.fr/2017TOU10061/document.

Texto completo
Resumen
La numérisation des documents et le développement des technologies Internet ont engendré une augmentation permanente du nombre de documents et de types de documents disponibles. Face à cette masse documentaire, XML (eXtensible Markup Language) s’est imposé comme format standard de structuration et d’échange de documents. Ainsi, un nombre de plus en plus important de documents devient disponible sous ce format. Ces documents XML peuvent être classés en deux types : les documents XML orienté-données et les documents XML orienté-textes. Les documents XML orienté-données sont constitués d’un ensemble d’éléments généralement courts et précis et sont similaires aux données relationnelles. Nous constatons que les balises utilisées pour ce type de documents décrivent généralement d’une manière précise le contenu, et offrent la sémantique basique nécessaire à la description de l’information (Exemples de balises : Article, Client, Quantité, Prix). A contrario, les documents XML orienté-textes sont riches en texte et utilisent des balises qui reflètent la plupart du temps un découpage (structurel) logique (exemples de balises : Contenu, Section, Paragraphe). Malheureusement, ces balises n’ont qu’une très pauvre vocation sémantique. Partant de cette constatation, le développement d’approches supportées par des outils automatisés permettant de décrire la sémantique des documents XML orientés-textes devient un besoin urgent, voire une nécessité pour certains usages. Dans ce contexte, nous proposons une approche de structuration sémantique des documents XML à partir de leurs structures logiques et de leurs contenus. Elle construit une arborescence de concepts. Cette approche de structuration sémantique passe par quatre phases : 1) Extraction des termes des contenus des documents en utilisant des techniques de recherche d’information ; 2) Détermination d’une taxonomie1 qui sera affectée au document, c’est-à-dire celle qui correspond au mieux à sa sémantique (cette étape se base sur une démarche de pondération d’un ensemble de taxonomies candidates) ; 3) Affectation, à chaque élément feuille de la structure logique du document, du concept le plus significatif à partir de la taxonomie retenue ; 4) Inférence de concepts aux éléments non feuilles du document. Notre approche de structuration sémantique des documents se base sur l’indexation sémantique et diffère des autres travaux par : 1) Le choix d’une taxonomie appropriée pour chaque document, il s’agit de déterminer la taxonomie qui décrit au mieux la sémantique du document, et 2) La pondération des concepts extraits de manière à donner plus d’importance aux concepts les plus spécifiques car nous partons du constat suivant : plus le niveau auquel se situe le concept est bas dans la hiérarchie, plus l’information qu’il apporte est fine et ciblée. Pour exploiter ces structures sémantiques, nous avons étendu le méta-modèle d’entrepôts de documents pour assurer leur stockage. De plus, nous avons introduit le concept de métadocument afin de permettre l’interrogation de ces structures sémantiques. Enfin, pour évaluer nos propositions, nous avons mené un ensemble d’expérimentations sur la collection de documents XML ImageCLEFMed 2010 en utilisant la ressource sémantique MeSH (NML's Medical Subject Headings). Les résultats obtenus montrent que l’algorithme de pondération des concepts des taxonomies qui a été proposé permet de sélectionner avec précision la taxonomie pertinente pour un document donné et, en conséquence, les concepts pertinents à affecter aux éléments feuilles de la structure sémantique de ce document
Le résumé en anglais n'a pas été communiqué par l'auteur
Los estilos APA, Harvard, Vancouver, ISO, etc.
17

Boussahoua, Mohamed. "Optimisation de performances dans les entrepôts de données distribués NoSQL en colonnes". Thesis, Lyon, 2020. http://www.theses.fr/2020LYSE2007.

Texto completo
Resumen
Dans cette thèse, nous proposons des approches pour construire et développer des entrepôts de données (ED) selon le modèle NoSQL orienté colonnes. L’intérêt porté aux modèles NoSQL est motivé d’une part, par l’avènement des données massives et d’autre part, par le besoin de flexibilité et pour des raisons d'évolutivité et de performance. Ainsi, nous avons fait le choix du modèleNoSQL orienté colonnes car il est approprié aux traitements des requêtes décisionnelles qui sont définies en fonction d’un ensemble de colonnes (mesures et dimensions) issues de l’ED. En effet, la construction d’un cube OLAP nécessite l’accès aux attributs des tables des faits et des dimensions. Par conséquent, pour sélectionner une colonne (axe d’analyse), il faut charger toute la table de dimension concernée. Contrairement aux systèmes relationnels, dans les systèmes NoSQL en colonnes, il est possible d’accéder uniquement à la colonne souhaitée (ou un groupe des colonnes) puis de la charger directement en mémoire, ceci facilite l’application d’une fonction d’agrégation. Cependant, les systèmes NoSQL en colonnes ne disposent pas de schémas logiques ou des schémas physiques optimal afin d’exploiter directement (sans transformations ou sans restructuration) lesED. Les approches d'entreposage de données suivant les modèles NoSQL en colonnes exigent de revisiter les principes de la modélisation des ED et plus particulièrement au niveau de son schéma logique. L’étude des méthodes existantes relatives à l’utilisation du modèle NoSQL en colonnes pour stocker et gérer des ED, montre deux insuffisances majeures. Elles concernent les stratégies de partitionnement et de distribution aléatoire des données qui ne sont pas adaptées au traitement des données massives. La plupart des méthodes existantes fournissent des solutions partielles, ils se basent généralement sur un seul paramètre qui est le modèle conceptuel ou logique et sur certaines règles de passages des schémas relationnels aux schémas NoSQL en colonnes. Dans ce travail, nous abordons, d’un coté, les problèmes liés à la modélisation logique des ED NoSQL en colonnes ; dans ce cas, nous proposons un modèle logique de données non-relationnel adapté à l'implémentation des ED en NoSQL orienté colonnes. D’un autre côté, nous abordons les problèmes liés au partitionnement et à la distribution des ED dans les environnements distribués basés sur les systèmes NoSQL. Dans un premier temps, nous abordons le problème de la distribution des données dans les familles de colonnes. Dans ce cas, nous proposons notre deuxième approche de conception d'un schéma optimal de familles de colonnes qui constitue le schéma logique d’ED NoSQL en colonne. L’objectif est de proposer de nouveaux modèles logiques d’ED en intégrant les meilleures fonctionnalités du NoSQL en colonnes notamment le concept de famille de colonnes qui assure la fragmentation verticale naturelle des données. Nous étudions également la relation entre le concept de la clé de partition RowKey et le schéma de partition horizontale et de colocalisation des données dans le NoSQL en colonnes. L’objectif dans ce cas est d’optimiser les performances des traitements et l’exécution des requêtes décisionnelles en améliorant l’accès aux données. Ainsi, notre troisième contribution consiste en la mise en oeuvre d’une stratégie qui permet un partitionnement efficace de l’ED et un placement des données qui répond au mieux aux besoins des utilisateurs. Pour valider nos travaux, nous avons développé une plate-forme NoSQL en colonnes qui génère des schémas de familles de colonnes d’un ED NoSQL en colonnes selon les deux méthodes proposées (OEP ou K-means ) à partir d'une charge de requêtes sur un ED relationnel. Ainsi, cette plate-forme permet de générer une clé de partition RowKey définie en concaténant plusieurs attributs les plus fréquents pour définir un schéma de partitionnement horizontal et de localisation des données entreposées dans un système NoSQL en colonnes
The work presented in this thesis aims at proposing approaches to build data warehouses (DWs) by using the columnar NoSQL model. The use of NoSQL models is motivated by the advent of big data and the inability of the relational model, usually used to implement DW, to allow data scalability. Indeed, the NoSQL models are suitable for storing and managing massive data. They aredesigned to build databases whose storage model is the "key/value". Other models, then, appeared to account for the variability of the data: column oriented, document oriented and graph oriented. We have used the column NoSQL oriented model for building massive DWs because it is more suitable for decisional queries that are defined by a set of columns (measures and dimensions) from warehouse. Column family NoSQL databases offer storage techniques that are well adapted to DWs. Several scenarios are possible to develop DWs on these databases. We present in this thesis new solutions for logical and physical modeling of columnar NoSQL data warehouses. We have proposed a logic model called NLM (Naive Logical Model) to represent a NoSQL oriented columns DW and enable a better management by columnar NoSQL DBMS. We have proposed a new method to build a distributed DW using a column family NoSQL database. Our method is based on a strategy of grouping attributes from fact tables and dimensions, as families´ columns. In this purpose, we used two algorithms, the first one is a meta-heuristic algorithm, in this case the Particle Swarm Optimization : PSO, and the second one is the k-means algorithm. Furthermore, we have proposed a new method to build an efficient distributed DW inside column family NoSQL DBMSs. Our method based on the association rules method that allows to obtain groups of frequently used attributes in the workload. Hence, the partition keys RowKey, necessary to distribute data onto the different cluster nodes, are composed of those attributes groups.To validate our contributions, we have developed a software tool called RDW2CNoSQ (Relational Data Warehouse to Columnar NoSQL) to build a distributed data warehouse using a column family NoSQL Database. Also, we conducted several tests that have shown the effectiveness of different method that we proposed. Our experiments suggest that defining a good data partitioning and placement schemes during the implementation of the data warehouse with NoSQL HBase increase significantly the computation and querying performances
Los estilos APA, Harvard, Vancouver, ISO, etc.
18

Serna, Encinas María Trinidad. "Entrepôts de données pour l'aide à la décision médicale : conception et expérimentation". Université Joseph Fourier (Grenoble), 2005. http://www.theses.fr/2005GRE10083.

Texto completo
Resumen
Les entrepôts de données intègrent les informations en provenance de différentes sources, souvent réparties et hétérogènes et qui ont pour objectif de fournir une vue globale de l'information aux analystes et aux décideurs. L'ensemble des données avec leurs historiques sert pour l'aide à la décision. La conception et la mise en œuvre d'un entrepôt se fait en trois étape : extraction-intégration, organisation et interrogation. Dans cette thèse, nous nous intéressons aux deux dernières. Pour nous, l'organisation est une tâche complexe et délicate, pour cela, nous la divisons en deux parties : structuration et gestion des données. Ainsi, pour la structuration, nous proposons la définition d'un modèle multidimensionnel qui se compose de trois classes : Cube, Dimension et Hiérarchie. Nous proposons également un algorithme pour la sélection de l'ensemble optimal des vues à matérialiser. La gestion de données doit prendre en compte l'évolution des entrepôts. Le concept d'évolution de schéma a été introduit pour récupérer les données existantes par le biais de leur adaptation au nouveau schéma. Néanmoins, dans les systèmes qui doivent gérer des données historiques, l'évolution de schéma n'est pas suffisante et la maintenance de plusieurs schémas est requise. Pour cela, nous proposons l'utilisation des versions de schémas bitemporels pour la gestion, le stockage et la visualisation des données courantes et historisées (intensionneIles et extensionneIles). Finalement, pour l'interrogation, nous avons développé une interface graphique qui permet la génération (semi-automatique) des indicateurs. Ces indicateurs (par exemple, "le nombre de séjours par établissement et par maladie") sont déterminés par le cadre applicatif. Nous avons eu l'opportunité de travailler dans le cadre d'un projet médical, ce qui nous a permis de vérifier et de valider notre proposition sur des données réelles
Data warehouses integrate infonnation coming from different data sources which are often heterogeneous and distributed. Their main goal is to provide a global view for analysts and managers to make decisions based on data sets and historical logs. The design and construction of a data warehouse are composed by three phases : extraction-integration, organisation and interrogation. Ln this thesis, we are interested in the latter two. For us, the organisation is a complex and delicate task. Hence, we divide it into two parts : data structuring and data managing. For structuring we propose a multidimensional model which is composed by three classes : Cube, Dimension and Hierarchy. We propose also an algorithm for selecting the optimal set of materialized views. We consider that data management should include warehouse evolution. The concept of schema evolution was adapted here and we propose to use bitemporal schema versions for the management, storage and visualization of current and historical data (intentional and extensional). Finally, we have implemented a graphie interface that allows semi-automatic query generation (indicators). These queries (for example, "number of patients by hospitals and diseases") are determined by the application domain. We had the opportunity to work in a medical project ; it allowed us to verify and 10 validate our proposition using real data
Los estilos APA, Harvard, Vancouver, ISO, etc.
19

Mahboubi, Hadj. "Optimisation de la performance des entrepôts de données XML par fragmentation et répartition". Phd thesis, Université Lumière - Lyon II, 2008. http://tel.archives-ouvertes.fr/tel-00350301.

Texto completo
Resumen
Les entrepôts de données XML forment une base intéressante pour les applications décisionnelles qui exploitent des données hétérogènes et provenant de sources multiples. Cependant, les Systèmes de Gestion de Bases de Données (SGBD) natifs XML actuels présentent des limites en termes de volume de données gérable, d'une part, et de performance des requêtes d'interrogation complexes, d'autre part. Il apparaît donc nécessaire de concevoir des méthodes pour optimiser ces performances.

Pour atteindre cet objectif, nous proposons dans ce mémoire de pallier conjointement ces limitations par fragmentation puis par répartition sur une grille de données. Pour cela, nous nous sommes intéressés dans un premier temps à la fragmentation des entrepôts des données XML et nous avons proposé des méthodes qui sont à notre connaissance les premières contributions dans ce domaine. Ces méthodes exploitent une charge de requêtes XQuery pour déduire un schéma de fragmentation horizontale dérivée.

Nous avons tout d'abord proposé l'adaptation des techniques les plus efficaces du domaine relationnel aux entrepôts de données XML, puis une méthode de fragmentation originale basée sur la technique de classification k-means. Cette dernière nous a permis de contrôler le nombre de fragments. Nous avons finalement proposé une approche de répartition d'un entrepôt de données XML sur une grille. Ces propositions nous ont amené à proposer un modèle de référence pour les entrepôts de données XML qui unifie et étend les modèles existants dans la littérature.

Nous avons finalement choisi de valider nos méthodes de manière expérimentale. Pour cela, nous avons conçu et développé un banc d'essais pour les entrepôts de données XML : XWeB. Les résultats expérimentaux que nous avons obtenus montrent que nous avons atteint notre objectif de maîtriser le volume de données XML et le temps de traitement de requêtes décisionnelles complexes. Ils montrent également que notre méthode de fragmentation basée sur les k-means fournit un gain de performance plus élevé que celui obtenu par les méthodes de fragmentation horizontale dérivée classiques, à la fois en terme de gain de performance et de surcharge des algorithmes.
Los estilos APA, Harvard, Vancouver, ISO, etc.
20

Ben, Messaoud Riadh. "Couplage de l'analyse en ligne et de la fouille de données pour l'exploration, l'agrégation et l'explication des données complexes". Lyon 2, 2006. http://theses.univ-lyon2.fr/documents/lyon2/2006/benmessaoud_r.

Texto completo
Resumen
Les entrepôts de données présentent une solution efficace à la gestion des grandes volumétries des données. L'analyse en ligne (OLAP) complète les entrepôts de données en proposant des outils pour la visualisation, la structuration et l'exploration des cubes de données afin d'y découvrir des informations pertinentes. D'un autre côté, la fouille de données emploie des techniques d'apprentissage afin d'induire des modèles de connaissances valides couvrant la description, la classification et l'explication. L'idée de combiner l'analyse en ligne et la fouille de données est une solution prometteuse pour rehausser le processus d'aide à la décision, notamment dans le cas des données complexes. En effet, il s'agit de deux domaines qui peuvent se compléter dans le cadre d'un processus d'analyse unifié. L'objectif de cette thèse est d'avancer de nouvelles approches d'aide à la décision qui reposent sur le couplage de l'analyse en ligne et de la fouille de données. Nous avons mis en place trois principales propositions pour ce problème. La première concerne la visualisation des données éparses. En se basant sur l'analyse des correspondances multiples, nous atténuons l'effet négatif de l'éparsité en réorganisant différemment les cellules d'un cube de données. Notre deuxième proposition fournit une nouvelle agrégation des faits d'un cube de données en se basant sur la classification ascendante hiérarchique. Les nouveaux agrégats obtenus sont sémantiquement plus riches que ceux fournis par l'OLAP classiques. Notre troisième proposition établit une démarche explicative en se basant sur les règles d'association. Nous avons élaboré un nouvel algorithme pour une recherche guidée des règles d'association dans les cubes de données. Nous avons également développé une plateforme logicielle pour concrétiser nos contributions théoriques et proposé un cas d'application à des données complexes afin de valider notre démarche de couplage. Enfin, en se basant sur une algèbre OLAP, nous avons mis en place les premières bases d'un cadre formel général dédié au couplage de l'analyse en ligne et de la fouille de données
Data warehouses provide efficient solutions for the management of huge amounts of data. Online analytical processing (OLAP) is a key feature in data warehouses which enables users with visual tools to explore data cubes. Therefore, users are capable to extract relevant information for their decision-making. On the other hand, data mining offers automatic learning techniques in order to come out with comprehensive knowledge covering descriptions, clusterings and explanations. The idea of combining online analytical processing and data mining is a promising solution to improve the decision-making process, especially in the case of complex data. In fact, OLAP and data mining could be two complementary fields that interact together within a unique analysis process. The aim of this thesis is to propose new approaches for decision support based on coupling online analytical processing and data mining. In order to do so, we have established three main proposals. The first one concerns the visualization of sparse data. According to the multiple correspondence analysis, we have reduced the negative effect of sparsity by reorganizing the cells of a data cube. Our second proposal provides a new aggregation of facts in a data cube by using agglomerative hierarchical clustering. The obtained aggregates are semantically richer than those provided by traditional multidimensional structures. Our third proposal tries to explain possible relationships within multidimensional data by using association rules. We have designed a new algorithm for a guided-mining of association rules in data cubes. We have also developed a software platform which includes our theoretical contributions. In addition, we provided a case study on complex data in order to validate our approaches. Finally, based on an OLAP algebra, we have designed the first principles toward a general formal framework which models the problem of coupling online analytical processing and data mining
Los estilos APA, Harvard, Vancouver, ISO, etc.
21

Bentayeb, Fadila. "Entrepôts et analyse en ligne de données complexes centrés utilisateur : un nouveau défi". Habilitation à diriger des recherches, Université Lumière - Lyon II, 2011. http://tel.archives-ouvertes.fr/tel-00752126.

Texto completo
Resumen
Les entrepôts de données répondent à un réel besoin en matière d'accès à l'information résumée. Cependant, en suivant le processus classique d'entreposage et d'analyse en ligne (OLAP) de données, les systèmes d'information décisionnels (SID) exploitent très peu le contenu informationnel des données. Alors même que les SID sont censés être centrés utilisateur, l'OLAP classique ne dispose pas d'outils permettant de guider l'utilisateur vers les faits les plus intéressants du cube. La prise en compte de l'utilisateur dans les SID est une problématique nouvelle, connue sous le nom de personnalisation, qui pose plusieurs enjeux peu ou pas étudiés. Le travail présenté dans ce mémoire vise à proposer des solutions innovantes dans le domaine de la personnalisation dans les entrepôts de données complexes. L'originalité de nos travaux de recherche a consisté à montrer qu'il est pertinent d'intégrer la sémantique dans tout le processus d'entreposage, soit en invitant l'utilisateur à exprimer ses propres connaissances métier, soit en utilisant les méthodes de fouille de données pour extraire des connaissances cachées. En s'appuyant sur l'intuition que des connaissances sur le métier, sur les données entreposées et leur usage (requêtes) peuvent contribuer à aider l'utilisateur dans son exploration et sa navigation dans les données, nous avons proposé une première approche de personnalisation basée sur les connaissances explicites des utilisateurs. En empruntant le concept d'évolution de schéma, nous avons relâché la contrainte du schéma fixe de l'entrepôt, pour permettre d'ajouter ou de supprimer un niveau de hiérarchie dans une dimension. Ces travaux ont été étendus pour recommander à l'utilisateur des hiérarchies de dimension nouvelles basées sur la découverte de nouvelles structures naturelles grâce aux principes d'une méthode de classification (K-means). Nous avons par ailleurs développé la fouille en ligne en s'appuyant uniquement sur les outils offerts par les systèmes de gestion de bases de données (SGBD). La fouille en ligne permet d'étendre les capacités analytiques des SGBD, support des entrepôts de données, de l'OLAP vers une analyse structurante, explicative et prédictive ; et venir en appui à la personnalisation. Afin de prendre en compte à la fois l'évolution des données et celle des besoins tout en garantissant l'intégration structurelle et sémantique des données, nous avons proposé une approche d'analyse en ligne à la demande, qui s'appuie sur un système de médiation à base d'ontologies. Par ailleurs, nous avons proposé un modèle multidimensionnel d'objets complexes basé sur le paradigme objet qui permet de représenter les objets de l'univers de façon plus naturelle et de capter la sémantique qu'ils véhiculent. Un opérateur de projection cubique est alors proposé pour permettre à l'utilisateur de créer des cubes d'objets complexes personnalisés. Toutes nos solutions ont été développées et testées dans le contexte des entrepôts de données relationnels et/ou XML.
Los estilos APA, Harvard, Vancouver, ISO, etc.
22

Kerkad, Amira. "L'interaction au service de l'optimisation à grande échelle des entrepôts de données relationnels". Phd thesis, ISAE-ENSMA Ecole Nationale Supérieure de Mécanique et d'Aérotechique - Poitiers, 2013. http://tel.archives-ouvertes.fr/tel-00954469.

Texto completo
Resumen
La technologie de base de données est un environnement adéquat pour l'interaction. Elle peutconcerner plusieurs composantes du SGBD : (a) les données, (b) les requêtes, (c) les techniques d'optimisationet (d) les supports de stockage. Au niveau des données, les corrélations entre les attributs sont très communesdans les données du monde réel, et ont été exploitées pour définir les vues matérialisées et les index. Au niveaurequêtes, l'interaction a été massivement étudiée sous le problème d'optimisation multi-requêtes. Les entrepôtsde données avec leurs jointures en étoile augmentent le taux d'interaction. L'interaction des requêtes a étéemployée pour la sélection des techniques d'optimisation comme les index. L'interaction contribue égalementdans la sélection multiple des techniques d'optimisation comme les vues matérialisées, les index, lepartitionnement et le clustering. Dans les études existantes, l'interaction concerne une seule composante. Danscette thèse, nous considérons l'interaction multi-composante, avec trois techniques d'optimisation, où chacuneconcerne une composante : l'ordonnancement des requêtes (niveau requêtes), la fragmentation horizontale(niveau données) et la gestion du buffer (niveau support de stockage). L'ordonnancement des requêtes (OR)consiste à définir un ordre d'exécution optimal pour les requêtes pour permettre à quelques requêtes debénéficier des données pré-calculées. La fragmentation horizontale (FH) divise les instances de chaque relationen sous-ensembles disjoints. La gestion du buffer (GB) consiste à allouer et remplacer les données dans l'espacebuffer disponible pour réduire le coût de la charge. Habituellement, ces problèmes sont traités soit de façonisolée ou par paire comme la GB et l'OR. Cependant, ces problèmes sont similaires et complémentaires. Uneformalisation profonde pour le scénario hors-ligne et en-ligne des problèmes est fournie et un ensembled'algorithmes avancés inspirés du comportement naturel des abeilles sont proposés. Nos propositions sontvalidées en utilisant un simulateur et un SGBD réel (Oracle) avec le banc d'essai star schema benchmark àgrande échelle.
Los estilos APA, Harvard, Vancouver, ISO, etc.
23

Kermanshahani, Shokoh. "IXIA (IndeX-based Integration Approach) : une approche hybride pour l'intégration des données". Université Joseph Fourier (Grenoble), 2009. http://www.theses.fr/2009GRE10114.

Texto completo
Resumen
Aujourd'hui, il existe un nombre important et croissant de sources de données, qui peuvent être des documents et des données structurées ou semi-structurées. En général, aussi bien les documents que les bases de données sont autonomes et gérés par des systèmes différents. D'autre part, beaucoup de ces sources sont reliées tout en étant sémantiquement hétérogènes : elles modélisent la même réalité externe tout en utilisant des concepts et des structures distincts. Or, les organisations et les entreprises qui sont confrontées à de telles sources de données ont besoin d'en avoir une vision homogène et cohérente. La conséquence est qu'il est nécessaire de les intégrer et de disposer d'un système qui gère ces données. L'objectif d'un système d'intégration des données est de proposer une interface homogène pour interroger plusieurs sources, qui peuvent être hétérogènes et autonomes. Derrière une telle interface il y a plusieurs défis, parmi lesquels nous soulignons l'hétérogénéité structurelle et sémantique des sources de données, la fragmentation des données, le traitement et l'optimisation des requêtes. Il existe de nombreux travaux qui présentent des approches distinctes pour l'intégration des données, et chaque approche propose des solutions spécifiques à chacun des problèmes évoqués. On considère en général que ces approches appartiennent à deux grandes catégories : l'approche matérialisée et l'approche virtuelle. Cependant, on peut aussi considérer une troisième approche, dite hybride, qui propose qu'une partie des données du système intégré soit matérialisée et qu'une autre partie des données soit virtuelle. Dans cette thèse, nous proposons une architecture hybride pour un système d'intégration de sources de données hétérogènes, qui vise à étendre l'optimisation des requêtes à toutes les requêtes du système d'intégration. Elle permet aussi de fournir un mécanisme flexible pour traiter la mise à jour des données afin de tolérer les différentes caractéristiques des sources et de leurs données. Cette approche est basée sur un système d'indexation d'objets multicritères au niveau de la médiation. Dans notre approche, nous utilisons le système Osiris et son mécanisme d'indexation. Osiris est un système de gestion de bases de données et de bases de connaissance orienté objet, où une famille d'objets est définie par une hiérarchie de vues " object-preserving ". Le système d'indexation d'Osiris est un système multi-attributs, et notre approche propose la matérialisation du sous-ensemble des données directement reliées aux attributs d'indexation. Le système d'intégration des données proposé, IXIA, matérialise la structure d'indexation des objets sous-jacents au niveau du médiateur. Les Oids des objets, leur correspondance avec les objets des sources et les données nécessaires pour la mise à jour de l'indexation des données sont aussi matérialisées. Cette approche offre une plus grande flexibilité de rafraîchissement des données qu'une approche entièrement matérialisée, et une meilleure optimisation des requêtes que les méthodes entièrement virtuelles
There is a large and increasing volume of documents, data sources and data base management systems available in the world, and many autonomous and heterogeneous sources speak of a same reality while using different words and conceptual structures. Many organizations need to dispose of a system that handles such data in a homogeneous way, which necessitates the integration of these data sources. The goal of a data integration system is to develop a homogeneous interface for the end users to query several heterogeneous and autonomous sources. Building such a homogeneous interface raises many challenges among which the heterogeneity of data sources, the fragmentation of data, the processing and optimization of queries appear to be the most important. There are many research projects that present different approaches and each of them proposes a solution to each of these problems. Depending on the integrated view, these approaches can be categorized into two main categories: materialized and virtual approaches; there are also some hybrid approaches when there is a composition of materialized and virtual views. The main advantage of a hybrid approach is to offer a trade-off between the query response time and data freshness in a data integration system. In the existing approaches, query optimization is often privileged for the materialized part of the system. In this thesis, we develop a hybrid approach which aims to extend query optimization to all the queries of the integration system. It also provides a flexible data refreshing mechanism in order to tolerate different characteristics of sources and their data. This approach is based on the Osiris object indexing system. Osiris is a database and knowledge base platform with a specific object data model based on a hierarchy of views. Its indexation system relies on the partitioning of the object space using the view constraints. IXIA, the hybrid approach presented in this thesis, materializes the indexation structure of the underlying objects at the mediator level. The Oids of objects, their correspondence with the source objects and the needed data to refresh the indexation data are also materialized. Our index-based data integration approach offers more flexibility in data refreshing than a fully materialized approach and a better query response time in comparison with a fully virtual data integration system
Los estilos APA, Harvard, Vancouver, ISO, etc.
24

Naoum, Lamiaa. "Un modèle multidimensionnel pour un processus d'analyse en ligne de résumés flous". Nantes, 2006. http://www.theses.fr/2006NANT2101.

Texto completo
Los estilos APA, Harvard, Vancouver, ISO, etc.
25

Favre, Cécile. "Evolution de schémas dans les entrepôts de données : mise à jour de hiérarchies de dimension pour la personnalisation des analyses". Lyon 2, 2007. http://theses.univ-lyon2.fr/documents/lyon2/2007/favre_c.

Texto completo
Resumen
Dans cette thèse, nous proposons une solution pour la personnalisation des analyses dans les entrepôts de données. Cette solution se base sur une évolution du schéma de l'entrepôt guidée par les utilisateurs. Il s'agit en effet de recueillir les connaissances de l'utilisateur et de les intégrer dans l'entrepôt de données afin de créer de nouveaux axes d'analyse. Cette solution se base sur la définition d'un modèle formel d'entrepôt de données évolutif, basé sur des règles <>, que nous appelons règles d'agrégation. Notre modèle d'entrepôt évolutif est soutenu par une architecture qui permet de modéliser le processus de personnalisation. Cette architecture comprend quatre modules qui comprennent : l’acquisition des connaissances utilisateurs sous forme de règles d'agrégation ; l’intégration des règles d'agrégation dans l'entrepôt de données ; l’évolution du schéma ; l’analyse en ligne sur le nouveau schéma. Pour mettre en œuvre cette architecture globale, nous proposons un modèle d'exécution avec l'approche relationnelle, qui vise à gérer l'ensemble des processus liés à l'architecture globale. Nous nous sommes par ailleurs intéressés à l'évaluation de la performance de notre modèle d'entrepôt de données évolutif. Pour cela, nous proposons une méthode de mise à jour incrémentale d’une charge donnée en répercutant l’évolution de schéma. Pour valider nos différentes contributions, nous avons développé la plateforme WEDriK (data Warehouse Evolution Driven by Knowledge). Les problèmes posés dans ce mémoire sont directement issus de la réalité de l'entreprise LCL avec laquelle nous avons collaboré dans le cadre d'une thèse CIFRE
In this thesis, we propose a solution to personalize analyses in data warehousing. This solution is based on schema evolution driven by users. More precisely, it consists in users’ knowledge and integrating it in the data warehouse to build new analysis axes. To achieve that, we propose an evolving rule-based data warehouse formal model. The rules are named aggregation rules. To exploit this model, we propose an architecture that allows the personalization process. This architecture includes four modules: users’ knowledge acquisition under the form of if-then rules, integration of these rules in the data warehouse; schema evolution; on-line analysis on the new schema. To realize this architecture, we propose an executive model in the relational context to deal with the process of the global architecture. Besides we interested in the evaluation of our evolving model. To do that, we propose an incremental updating method of a given workload in response to the data warehouse schema evolution. To validate our proposals, we developed the WEDriK (data Warehouse Evolution Driven by Knowledge) platform. The problems evoked in this thesis come from the reality of the LCL bank
Los estilos APA, Harvard, Vancouver, ISO, etc.
26

Galhardas, Héléna. "Nettoyage de données : modèle, langage déclaratif et algorithmes". Versailles-St Quentin en Yvelines, 2001. http://www.theses.fr/2001VERS0032.

Texto completo
Resumen
Le problème de nettoyage de données qui consiste à éliminer les incohèrences et les erreurs trouvées dans des jeux de données originaux, est bien connu dans le domaine des systèmes d'aide à la décision et des entrepôts de données. Néanmoins, pour des applications non-conventionnelles, telles que la migration de données faiblement structurées vers des données structurées, ou l'intégration de jeux de données scientifiques hetérogènes dans des domaines inter-disciplinaires (e. G. , dans les sciences de l'environnement), les outils d'ETL (Extraction Transformation Loading) et de nettoyage de données existants sont suffisants. Leur principal défi est la conception d'un graphe de flots de données qui gènere des données nettoyées d'une manière effective, et qui se comporte de façon efficace en face de grandes volumes d'information. La difficulté sous-jacente est due à : (i) l'absence de séparation claire entre la spécification logique des transformations de données et leur implantation physique ; (ii) l'absence de techniques de debbugage du résultat d'un processus de nettoyage, (iii) et de modes d'interaction humaine permettant d'affiner un programme de nettoyage de données. Cette thèse adresse ces trois problèmes et présente un langage, un modèle d'execution et des algorithmes qui permettent aux utilisateurs d'exprimer des spécifications de nettoyage de données de façon déclarative aussi bien que d'exécuter le processus de nettoyage efficacement. Nous utilisons comme exemple un ensemble de références bibliographiques utilisées auparavent pour construire le site Web de Citeseer. Le problème d'intégration de données inhérent est celui de dériver des enregistrement textuels structurés et nettoyés de façon à permettre l'évaluation de requêtes pertinentes. Les résultats expérimentaux présentent l'évaluation de l'environnement de nettoyage de données proposé
The problem od data cleaning, which consists of removing inconsistencies and errors from original data sets, is well know in the area of decision support systems and data warehouses. This holds regardless of the application-relational database joining, web-related, or scientific. In all cases, existing ETL (Extraction transformation Loading) and data cleaning tools for writing data cleaning programs are insufficient. The main challenge is the design and implementation of a data flow graph that effectivrly generates clean data. Needed improvements to the current state of the art include (i) a clear separation between the logical specification of data transformations and their physical implementation (ii) debugging of the reasoning behind cleaning results, (iii) and interactive facilities to tune a data cleaning program. This thesis presents a langage, an execution model and algorithms that enable users to express data cleaning specifications declaratively and perform the cleaning efficiently. We use as an example a set of bibliographic references used to construct the Citeseer web site. The underlying data integration problem is to derive structured and clean textual records so that meaningful queries can be performed. Experimental results report on the assesment of the proposed framework for data cleaning
Los estilos APA, Harvard, Vancouver, ISO, etc.
27

Boukhalfa, Kamel. "De la conception physique aux outils d'administration et de tuning des entrepôts de données". Phd thesis, Chasseneuil-du-Poitou, Ecole nationale supérieure de mécanique et d'aéronautique, 2009. http://tel.archives-ouvertes.fr/tel-00410411.

Texto completo
Resumen
Nous visons à travers cette thèse à proposer un ensemble d'approches permettant d'optimiser les entrepôts de données et d'aider l'AED à bien mener cette optimisation. Nos approches d'optimisation reposent sur l'utilisation de trois techniques d'optimisation : la fragmentation horizontale primaire, dérivée et les index de jointure binaires (IJB). Nous commençons par proposer une approche de fragmentation qui prend en considération à la fois la performance (réduction du coût d'exécution) et la manageabilité (contrôle du nombre de fragments générés). Nous proposons ensuite une approche gloutonne de sélection d'IJB. L'utilisation séparée de la fragmentation horizontale (FH) et des IJB ne permet pas d'exploiter les similarités existantes entre ces deux techniques. Nous proposons une approche de sélection conjointe de la FH et des IJB. Cette approche peut être utilisée pour le tuning de l'entrepôt. Nous avons mené plusieurs expériences pour valider nos différentes approches. Nous proposons par la suite un outil permettant d'aider l'AED dans ses tâches de conception physique et de tuning.
Mots clés : Conception physique, Tuning, Techniques d'optimisation, Fragmentation Horizontale, Index de Jointure Binaires.
Los estilos APA, Harvard, Vancouver, ISO, etc.
28

Pacitti, Esther. "Réplication asynchrone des données dans trois contextes: entrepôts, grappes et systèmes pair-à-pair". Habilitation à diriger des recherches, Université de Nantes, 2008. http://tel.archives-ouvertes.fr/tel-00473969.

Texto completo
Resumen
Dans une base de données répartie, la réplication de données peut servir à augmenter la fiabilité et la disponibilité de données ainsi que les performances d'accès. En général, l'unité de réplication (copie ou replique) est un table relationnelle (ou un fragment), un document ou un fichier. La réplication consiste alors en placer plusieurs copies sur différents noeuds distincts. Cela fournit une grande disponibilité de données. Si un noeud devient non opérationnel à la suite d'une panne par exemple, une autre copie est toujours accessible sur un autre noeud. La réplication permet aussi aussi de améliorer les performances d'accès en augmentant la localité des références. Lorsque le coût de communication est un facteur dominant, le placement d'une copie sur le noeud où il est le plus souvent accédé favorise les accès locaux et évite l'accès au réseau. Les avantages apportés par la réplication sont à comparer avec la complexité et les coûts supplémentaires de maintenance des copies qui doivent, en théorie rester identiques à tout moment. La mise à jour d'une copie doit être répercutée automatiquement sur toutes ses repliques. Le problème est compliqué par la présence de pannes de noeud ou réseau. Le compromis recherché entre performance d'accès en consultation et en mise à jour des données rend difficile le choix du niveau de réplication. Celui-ci est très dépendant de la charge de travail demandée par les applications. Face à ces défis dans mes travaux de recherche nous avons focalisé sur la gestion de la cohérence pour réplication asynchrone pour plusieurs contextes : entrepôts de données, grappes et applications collaboratives et en pair à pair (P2P). 1. Entrepôts de Données Dans les architectures proposes pour la gestion de entrepôts de données les configurations mono- maître sont souvent utilisés. Dans la réplication mono-maître, plusieurs types configurations acycliques dirigés sont possibles: diffusion, mono-consolidation multi-consolidation, triangulaire. La gestion de la cohérence se pose surtout pour certaines configurations comme dans la multi-consolidation et triangulaire et ses généralisations en combinant les configurations de base. 2. Grappes Les applications dans lesquelles sont utilisées les grappes sont typiquement des applications de lectures intensives, ce qui rend plus facile l'exploitation du parallélisme. Cependant, les grappes peuvent également être utilisées dans un nouveau modèle économique, les Fournisseurs de Services d'Applicatons ASP - Application Service Providers. Dans un contexte ASP, les applications et les bases de données des clients sont stockées chez le fournisseur et sont disponibles, typiquement depuis Internet, aussi efficacement que si elles étaient locales pour les clients. Pour améliorer les performances, les applications et les données peuvent être répliquées sur plusieurs noeuds. Ainsi, les clients peuvent être servis par n'importe quel noeud en fonction de la charge. Cet arrangement fournit également une haute disponibilité: dans le cas de la panne d'un noeud, d'autres noeuds peuvent effectuer le même travail. Le défie est de gérer la réplication multimaître totale et partiel en assurant la cohérence forte et toute en passant à l'échelle. 3 Applications Collaboratives en P2P Les systèmes P2P adoptent une approche complètement décentralisée au partage des ressources. En distribuant données et traitements sur tous les pairs du réseau, ils peuvent passer à très grande échelle sans recourir à des serveurs très puissants. La réplication de données dans les systèmes P2P devient un enjeu majeur pour les applications collaboratives, comme les forums de discussion, les calendriers partagés, ou les catalogues e-commerce, etc. En effet, les données partagées doivent pouvoir être mises à jour en parallèle par différents pairs. Les premiers systèmes P2P existants supposent que les données sont statiques et n'intègrent aucun mécanisme de gestion des mises à jour et de réplication. Une mise à jour d'une donnée par le pair qui la possède implique une nouvelle version non propagée à ceux répliquant cette donnée. Cela résulte en diverses versions sous le même identifiant et l'utilisateur accède à celle stockée par le pair qu'il contacte. Aucune forme de cohérence entre les répliques n'est alors garantie. Le défi est gérer la cohérence éventuelle face au dynamisme des pairs tout en passant à l'échelle.
Los estilos APA, Harvard, Vancouver, ISO, etc.
29

Abdelhédi, Fatma. "Conception assistée d’entrepôts de données et de documents XML pour l’analyse OLAP". Thesis, Toulouse 1, 2014. http://www.theses.fr/2014TOU10005/document.

Texto completo
Resumen
Aujourd’hui, les entrepôts de données constituent un enjeu majeur pour les applications décisionnelles au sein des entreprises. Les sources d’un entrepôt, c’est à dire l’origine des données qui l’alimentent, sont diverses et hétérogènes : fichiers séquentiels, feuilles de tableur, bases de données relationnelles, documents du Web. La complexité est telle que les logiciels du marché ne répondent que partiellement aux attentes des décideurs lorsque ceux-ci souhaitent analyser les données. Nos travaux s’inscrivent donc dans le contexte des systèmes décisionnels qui intègrent tous types de données (principalement extraites de bases de données relationnelles et de bases de documents XML) et qui sont destinés à des décideurs. Ils visent à proposer des modèles, des méthodes et des outils logiciels pour élaborer et manipuler des entrepôts de données. Nos travaux ont plus précisément porté sur deux problématiques complémentaires : l’élaboration assistée d’un entrepôt de données ainsi que la modélisation et l’analyse OLAP de documents XML
Today, data warehouses are a major issue for business intelligence applications within companies. Sources of a warehouse, i.e. the origin of data that feed, are diverse and heterogeneous sequential files, spreadsheets, relational databases, Web documents. The complexity is such that the software on the market only partially meets the needs of decision makers when they want to analyze the data. Therefore, our work is within the decision support systems context that integrate all data types (mainly extracted from relational databases and XML documents databases) for decision makers. They aim to provide models, methods and software tools to elaborate and manipulate data warehouses. Our work has specifically focused on two complementary issues: aided data warehouse and modeling and OLAP analysis of XML documents
Los estilos APA, Harvard, Vancouver, ISO, etc.
30

Naouali, Sami. "Enrichissement d'entrepôts de données par la connaissance : application au web". Nantes, 2004. http://www.theses.fr/2004NANT2093.

Texto completo
Resumen
La problématique de cette thèse est l'enrichissement d'entrepôts de données par les méta-données et la connaissance extraite des données multidimensionnelles. L'intérêt d'un tel enrichissement est de rendre le processus OLAP dirigé par la connaissance et non pas uniquement par les hypothèses de l'analyste. Pour cela nous étudions les trois problèmes suivants: (1) la modélisation multidimensionnelle des données de l'entrepôt qui devient le lieu de convergence des données, méta-données et de la connaissance, (2) le langage de manipulation de l'entrepôt permettant de gérer le système en sa totalité et (3) la visualisation et l'interaction avec l'utilisateur via des cubes de données enrichies. Pour ceci, nous avons proposé un langage à trois niveaux incluant la manipulation des données de notre entrepôt, ainsi que la visualisation conjointe de ces données enrichies et l'interaction avec l'utilisateur. Ces trois niveaux intègrent respectivement les opérateurs OLAP classiques, d'enrichissement par la connaissance, et de visualisation et d'interaction avec l'utilisateur. Nous avons effectué deux expérimentations en considérant des données provenant du Web et décrivant son contenu ainsi que son usage.
Los estilos APA, Harvard, Vancouver, ISO, etc.
31

Jouhet, Vianney. "Automated adaptation of Electronic Heath Record for secondary use in oncology". Thesis, Bordeaux, 2016. http://www.theses.fr/2016BORD0373/document.

Texto completo
Resumen
Avec la montée en charge de l’informatisation des systèmes d’information hospitaliers, une quantité croissante de données est produite tout au long de la prise en charge des patients. L’utilisation secondaire de ces données constitue un enjeu essentiel pour la recherche ou l’évaluation en santé. Dans le cadre de cette thèse, nous discutons les verrous liés à la représentation et à la sémantique des données, qui limitent leur utilisation secondaire en cancérologie. Nous proposons des méthodes basées sur des ontologies pour l’intégration sémantique des données de diagnostics. En effet, ces données sont représentées par des terminologies hétérogènes. Nous étendons les modèles obtenus pour la représentation de la maladie tumorale, et les liens qui existent avec les diagnostics. Enfin, nous proposons une architecture combinant entrepôts de données, registres de métadonnées et web sémantique. L’architecture proposée permet l’intégration syntaxique et sémantique d’un grand nombre d’observations. Par ailleurs, l’intégration de données et de connaissances (sous la forme d’ontologies) a été utilisée pour construire un algorithme d’identification de la maladie tumorale en fonction des diagnostics présents dans les données de prise en charge. Cet algorithme basé sur les classes de l’ontologie est indépendant des données effectivement enregistrées. Ainsi, il fait abstraction du caractère hétérogène des données diagnostiques initialement disponibles. L’approche basée sur une ontologie pour l’identification de la maladie tumorale, permet une adaptation rapide des règles d’agrégation en fonction des besoins spécifiques d’identification. Ainsi, plusieurs versions du modèle d’identification peuvent être utilisées avec des granularités différentes
With the increasing adoption of Electronic Health Records (EHR), the amount of data produced at the patient bedside is rapidly increasing. Secondary use is there by an important field to investigate in order facilitate research and evaluation. In these work we discussed issues related to data representation and semantics within EHR that need to be address in order to facilitate secondary of structured data in oncology. We propose and evaluate ontology based methods for heterogeneous diagnosis terminologies integration in oncology. We then extend obtained model to enable tumoral disease representation and links with diagnosis as recorded in EHR. We then propose and implement a complete architecture combining a clinical data warehouse, a metadata registry and web semantic technologies and standards. This architecture enables syntactic and semantic integration of a broad range of hospital information System observation. Our approach links data with external knowledge (ontology), in order to provide a knowledge resource for an algorithm for tumoral disease identification based on diagnosis recorded within EHRs. As it based on the ontology classes, the identification algorithm is uses an integrated view of diagnosis (avoiding semantic heterogeneity). The proposed architecture leading to algorithm on the top of an ontology offers a flexible solution. Adapting the ontology, modifying for instance the granularity provide a way for adapting aggregation depending on specific needs
Los estilos APA, Harvard, Vancouver, ISO, etc.
32

Garcelon, Nicolas. "Problématique des entrepôts de données textuelles : dr Warehouse et la recherche translationnelle sur les maladies rares". Thesis, Sorbonne Paris Cité, 2017. http://www.theses.fr/2017USPCB257/document.

Texto completo
Resumen
La réutilisation des données de soins pour la recherche s’est largement répandue avec le développement d’entrepôts de données cliniques. Ces entrepôts de données sont modélisés pour intégrer et explorer des données structurées liées à des thesaurus. Ces données proviennent principalement d’automates (biologie, génétique, cardiologie, etc) mais aussi de formulaires de données structurées saisies manuellement. La production de soins est aussi largement pourvoyeuse de données textuelles provenant des comptes rendus hospitaliers (hospitalisation, opératoire, imagerie, anatomopathologie etc.), des zones de texte libre dans les formulaires électroniques. Cette masse de données, peu ou pas utilisée par les entrepôts classiques, est une source d’information indispensable dans le contexte des maladies rares. En effet, le texte libre permet de décrire le tableau clinique d’un patient avec davantage de précisions et en exprimant l’absence de signes et l’incertitude. Particulièrement pour les patients encore non diagnostiqués, le médecin décrit l’histoire médicale du patient en dehors de tout cadre nosologique. Cette richesse d’information fait du texte clinique une source précieuse pour la recherche translationnelle. Cela nécessite toutefois des algorithmes et des outils adaptés pour en permettre une réutilisation optimisée par les médecins et les chercheurs. Nous présentons dans cette thèse l'entrepôt de données centré sur le document clinique, que nous avons modélisé, implémenté et évalué. À travers trois cas d’usage pour la recherche translationnelle dans le contexte des maladies rares, nous avons tenté d’adresser les problématiques inhérentes aux données textuelles: (i) le recrutement de patients à travers un moteur de recherche adapté aux données textuelles (traitement de la négation et des antécédents familiaux), (ii) le phénotypage automatisé à partir des données textuelles et (iii) l’aide au diagnostic par similarité entre patients basés sur le phénotypage. Nous avons pu évaluer ces méthodes sur l’entrepôt de données de Necker-Enfants Malades créé et alimenté pendant cette thèse, intégrant environ 490 000 patients et 4 millions de comptes rendus. Ces méthodes et algorithmes ont été intégrés dans le logiciel Dr Warehouse développé pendant la thèse et diffusé en Open source depuis septembre 2017
The repurposing of clinical data for research has become widespread with the development of clinical data warehouses. These data warehouses are modeled to integrate and explore structured data related to thesauri. These data come mainly from machine (biology, genetics, cardiology, etc.) but also from manual data input forms. The production of care is also largely providing textual data from hospital reports (hospitalization, surgery, imaging, anatomopathologic etc.), free text areas in electronic forms. This mass of data, little used by conventional warehouses, is an indispensable source of information in the context of rare diseases. Indeed, the free text makes it possible to describe the clinical picture of a patient with more precision and expressing the absence of signs and uncertainty. Particularly for patients still undiagnosed, the doctor describes the patient's medical history outside any nosological framework. This wealth of information makes clinical text a valuable source for translational research. However, this requires appropriate algorithms and tools to enable optimized re-use by doctors and researchers. We present in this thesis the data warehouse centered on the clinical document, which we have modeled, implemented and evaluated. In three cases of use for translational research in the context of rare diseases, we attempted to address the problems inherent in textual data: (i) recruitment of patients through a search engine adapted to textual (data negation and family history detection), (ii) automated phenotyping from textual data, and (iii) diagnosis by similarity between patients based on phenotyping. We were able to evaluate these methods on the data warehouse of Necker-Enfants Malades created and fed during this thesis, integrating about 490,000 patients and 4 million reports. These methods and algorithms were integrated into the software Dr Warehouse developed during the thesis and distributed in Open source since September 2017
Los estilos APA, Harvard, Vancouver, ISO, etc.
33

Mathieu, Jean. "Intégration de données temps-réel issues de capteurs dans un entrepôt de données géo-décisionnel". Thesis, Université Laval, 2011. http://www.theses.ulaval.ca/2011/28019/28019.pdf.

Texto completo
Resumen
Nous avons pu, au cours des dernières années, assister à une augmentation du nombre de capteurs utilisés pour mesurer des phénomènes de plus en plus variés. En effet, nous pouvons aujourd'hui utiliser les capteurs pour mesurer un niveau d'eau, une position (GPS), une température et même le rythme cardiaque d'un individu. La grande diversité de capteurs fait d'eux aujourd'hui des outils par excellence en matière d'acquisition de données. En parallèle à cette effervescence, les outils d'analyse ont également évolué depuis les bases de données transactionnelles et ont mené à l'apparition d'une nouvelle famille d’outils, appelés systèmes d’analyse (systèmes décisionnels), qui répond à des besoins d’analyse globale sur les données. Les entrepôts de données et outils OLAP (On-Line Analytical Processing), qui font partie de cette famille, permettent dorénavant aux décideurs d'analyser l'énorme volume de données dont ils disposent, de réaliser des comparaisons dans le temps et de construire des graphiques statistiques à l’aide de simples clics de la souris. Les nombreux types de capteurs peuvent certainement apporter de la richesse à une analyse, mais nécessitent de longs travaux d'intégration pour les amener jusqu'à un entrepôt géo-décisionnel, qui est au centre du processus de prise de décision. Les différents modèles de capteurs, types de données et moyens de transférer les données sont encore aujourd'hui des obstacles non négligeables à l'intégration de données issues de capteurs dans un entrepôt géo-décisionnel. Également, les entrepôts de données géo-décisionnels actuels ne sont pas initialement conçus pour accueillir de nouvelles données sur une base fréquente. Puisque l'utilisation de l'entrepôt par les utilisateurs est restreinte lors d'une mise à jour, les nouvelles données sont généralement ajoutées sur une base hebdomadaire, mensuelle, etc. Il existe pourtant des entrepôts de données capables d'être mis à jour plusieurs fois par jour sans que les performances lors de leur exploitation ne soient atteintes, les entrepôts de données temps-réel (EDTR). Toutefois, cette technologie est encore aujourd’hui peu courante, très coûteuse et peu développée. Ces travaux de recherche visent donc à développer une approche permettant de publier et standardiser les données temps-réel issues de capteurs et de les intégrer dans un entrepôt géo-décisionnel conventionnel. Une stratégie optimale de mise à jour de l'entrepôt a également été développée afin que les nouvelles données puissent être ajoutées aux analyses sans que la qualité de l'exploitation de l'entrepôt par les utilisateurs ne soit remise en cause.
In the last decade, the use of sensors for measuring various phenomenons has greatly increased. As such, we can now make use of sensors to measure GPS position, temperature and even the heartbeats of a person. Nowadays, the wide diversity of sensor makes them the best tools to gather data. Along with this effervescence, analysis tools have also advanced since the creation of transactional databases, leading to a new category of tools, analysis systems (Business Intelligence (BI)), which respond to the need of the global analysis of the data. Data warehouses and OLAP (On-Line Analytical Processing) tools, which belong to this category, enable users to analyze big volumes of data, execute time-based requests and build statistic graphs in a few simple mouse clicks. Although the various types of sensor can surely enrich any analysis, such data requires heavy integration processes to be driven into the data warehouse, centerpiece of any decision-making process. The different data types produced by sensors, sensor models and ways to transfer such data are even today significant obstacles to sensors data streams integration in a geo-decisional data warehouse. Also, actual geo-decisional data warehouses are not initially built to welcome new data on a high frequency. Since the performances of a data warehouse are restricted during an update, new data is usually added weekly, monthly, etc. However, some data warehouses, called Real-Time Data Warehouses (RTDW), are able to be updated several times a day without letting its performance diminish during the process. But this technology is not very common, very costly and in most of cases considered as "beta" versions. Therefore, this research aims to develop an approach allowing to publish and normalize real-time sensors data streams and to integrate it into a classic data warehouse. An optimized update strategy has also been developed so the frequent new data can be added to the analysis without affecting the data warehouse performances.
Los estilos APA, Harvard, Vancouver, ISO, etc.
34

Salmi, Cheik. "Vers une description et une modélisation des entrées des modèles de coût mathématiques pour l'optimisation des entrepôts de données". Thesis, Chasseneuil-du-Poitou, Ecole nationale supérieure de mécanique et d'aérotechnique, 2017. http://www.theses.fr/2017ESMA0006/document.

Texto completo
Resumen
Les entrepôts de données (ED) sont devenus une technologie mature. L'accentuation des demandes d'analyse est motivée par l'évolution technologique, Les nouveaux paradigmes de programmation et L'ingénierie Dirigée par les Modèles (!DM). Avant d'utiliser ces progrès technologiques, l'entrepôt de données doit être construit et préparé pour sa bonne exploitation.La phase de construction a vu l'utilisation massive des efforts de description et de méta-modélisation afin de faciliter la définition des correspondances entre les schémas locaux des sources de données et le schéma de l'ED et de réduire l'hétérogénéité entre les sources. La phase d'exploitation et sa tâche physique, en particulier n'ont pas eu la même utilisation des solutions de description et de méta-modélisation, bien qu'elle est considérée comme un tunnel de toutes les phases de cycle de vie de conception d,un ED. Durant cette phase; des modèles de coût mathématiques sont utilisés pour quantifier la qualité des solutions proposées. Le développement de ces derniers nécessite des efforts de collection et d'analyse des paramètres pertinents.Pour bien simuler le fonctionnement d'un ED, toutes les dimensions d'un SGBD doivent être intégrées. Dans cette thèse, nous proposons de décrire en détail ces dimensions avec des mécanismes de méta-modélisation. Vu la similarité et la hiérarchisation gui existent entre les supports de stockage, nous avons développé une ontologie de domaine dédiée aux supports de stockage.Elle permet d'expliciter leurs propriétés. Les similarités entre ces supports nous a motivé à hybrider le cache mémoire avec les mémoires flashs pour augmenter sa capacité afin de stocker un nombre important de résultats intermédiaires partagés par plusieurs requêtes décisionnelles. La réutilisation de ces résultats permet d'augmenter la performance du SGBD. Nos contributions sont validées à l'aide des expérimentations en utilisant nos modèles de coût théoriques et le SGBD Oracle
Data warehouses (DW) have become a mature technology. The emphasis of the analysis requests is driven by technological change, the new programmig paradigms and ModelDriven Engineering (MDI). Before using these technological advances, the DW must be buil tand prepared for its proper operation. The construction phase bas seen massive description efforts and meta modeling to facilitate the definition of correspondence between local data sources schemas and DW schema and to reduce heterogeneity between sources. Despite its importance in all stages of the design life cycle of an DW, the operational phase and in particular its physical task, did not have the same interest in term of description and meta modeling. During this phase, mathematical cost models are used to quantify the quality of the solutions proposed. The development of these models requires collection efforts and analysis of relevant parameters. To simulate the operation of a DW, all the dimensions of a DBMS must be integrated. In this thesis, we propose to describe in detail these dimensions with meta-modeling mechanisms. Given the singularity and hierarchy between storage media, we have developed an ontology dedicated to storage media, which makes explicit their properties. The similarities between these supports motivated us to develop a hybrid cache based on flash memory. This increases the cache ability to store a large number of intermediate results shared by multiple decision-support queries. The reuse of these results will increase the overall performance of fue DBMS. Our contributions are validated with experiments using our theoretical cost models and the Oracle DBMS
Los estilos APA, Harvard, Vancouver, ISO, etc.
35

Guérin, Émilie. "Intégration de données pour l'analyse de transcriptome : mise en œuvre par l'entrepôt GEDAW (Gene Expression Data Warehouse)". Rennes 1, 2005. http://www.theses.fr/2005REN1S169.

Texto completo
Resumen
L'intégration de données en bioinformatique est devenue essentielle à l'exploitation des masses de données engendrées par les avancées de la génomique. D'autre part, l'interprétation des données générées par les technologies d'étude de transcriptome nécessite une confrontation de données complémentaires sur les gènes étudiés ainsi que des moyens d'analyses puissants. Dans ce contexte, nous avons développé une approche d'intégration dédiée à l'analyse de transcriptome. GEDAW (Gene Expression DAta Warehouse) est un entrepôt de données orienté objet qui intègre une variété de sources et de standards des domaines de la génomique, de la biologie et de la médecine. Les données intégrées sont ensuite consultées et analysées afin d'extraire de la connaissance sur les données d'expression. GEDAW a été utilisé dans le contexte de l'étude du transcriptome hépatique, et a permis de dégager de nouvelles hypothèses quant à l'association de gènes avec des pathologies hépatiques.
Los estilos APA, Harvard, Vancouver, ISO, etc.
36

Darmont, Jérôme. "Optimisation et évaluation de performance pour l'aide à la conception et à l'administration des entrepôts de données complexes". Habilitation à diriger des recherches, Université Lumière - Lyon II, 2006. http://tel.archives-ouvertes.fr/tel-00143361.

Texto completo
Resumen
Les entrepôts de données forment le socle des systèmes décisionnels. Ils permettent d'intégrer les données de production d'une entreprise ou d'un organisme et sont le support de l'analyse multidimensionnelle en ligne (OLAP) ou de la fouille de données. Avec l'exploitation de plus en plus courante de données complexes dans le cadre des processus décisionnels, de nouvelles approches d'entreposage, qui exploitent notamment le langage XML, sont développées. Dans ce contexte, le problème de la performance des entrepôts de données demeure plus que jamais un enjeu crucial.

Le travail présenté dans ce mémoire vise à proposer des solutions innovantes au niveau de l'optimisation et de l'évaluation des performances des entrepôts de données. Nous avons en effet conçu une approche générique dont l'objectif est de proposer automatiquement à l'administrateur d'un entrepôt des solutions permettant d'optimiser les temps d'accès aux données. Le principe de cette approche est d'appliquer des techniques de fouille de données sur une charge (ensemble de requêtes) représentative de l'utilisation de l'entrepôt de données afin de déduire une configuration quasi-optimale d'index et/ou de vues matérialisées. Des modèles de coût permettent ensuite de sélectionner parmi ces structures de données les plus efficaces en terme de rapport gain de performance/surcharge.

Par ailleurs, l'évaluation de performance peut venir en appui de la conception des entrepôts de données. Ainsi, afin de valider notre approche de manière expérimentale, nous avons également conçu plusieurs bancs d'essais génériques. Le principe directeur qui a présidé à leur élaboration est l'adaptabilité. En effet, pour comparer l'efficacité de différentes techniques d'optimisation des performances, il est nécessaire de les tester dans différents environnements, sur différentes configurations de bases de données et de charges, etc. La possibilité d'évaluer l'impact de différents choix d'architecture est aussi une aide appréciable dans la conception des entrepôts de données. Nos bancs d'essais permettent donc de générer diverses configurations d'entrepôts de données, ainsi que des charges décisionnelles qui s'y appliquent.

Finalement, nos solutions d'optimisation et d'évaluation des performances ont été mises en oeuvre dans les contextes des entrepôts de données relationnels et XML.
Los estilos APA, Harvard, Vancouver, ISO, etc.
37

Atigui, Faten. "Approche dirigée par les modèles pour l’implantation et la réduction d’entrepôts de données". Thesis, Toulouse 1, 2013. http://www.theses.fr/2013TOU10044/document.

Texto completo
Resumen
Nos travaux se situent dans le cadre des systèmes d'aide à la décision reposant sur un Entrepôt de Données multidimensionnelles (ED). Un ED est une collection de données thématiques, intégrées, non volatiles et historisées pour des fins décisionnelles. Les données pertinentes pour la prise de décision sont collectées à partir des sources au moyen des processus d'Extraction-Transformation-Chargement (ETL pour Extraction-Transformation-Loading). L'étude des systèmes et des méthodes existants montre deux insuffisances. La première concerne l'élaboration d'ED qui, typiquement, se fait en deux phases. Tout d'abord, il faut créer les structures multidimensionnelles ; ensuite, il faut extraire et transformer les données des sources pour alimenter l'ED. La plupart des méthodes existantes fournit des solutions partielles qui traitent soit de la modélisation du schéma de l'ED, soit des processus ETL. Toutefois, peu de travaux ont considéré ces deux problématiques dans un cadre unifié ou ont apporté des solutions pour automatiser l'ensemble de ces tâches.La deuxième concerne le volume de données. Dès sa création, l'entrepôt comporte un volume important principalement dû à l'historisation régulière des données. En examinant les analyses dans le temps, on constate que les décideurs portent généralement un intérêt moindre pour les données anciennes. Afin de pallier ces insuffisances, l'objectif de cette thèse est de formaliser le processus d'élaboration d'ED historisés (il a une dimension temporelle) depuis sa conception jusqu'à son implantation physique. Nous utilisons l'Ingénierie Dirigée par les Modèles (IDM) qui permet de formaliser et d'automatiser ce processus~; ceci en réduisant considérablement les coûts de développement et en améliorant la qualité du logiciel. Les contributions de cette thèse se résument comme suit : 1. Formaliser et automatiser le processus de développement d'un ED en proposant une approche dirigée par les modèles qui inclut : - un ensemble de métamodèles (conceptuel, logique et physique) unifiés décrivant les données et les opérations de transformation. - une extension du langage OCL (Object Constraint Langage) pour décrire de manière conceptuelle les opérations de transformation d'attributs sources en attributs cibles de l'ED. - un ensemble de règles de transformation d'un modèle conceptuel en modèles logique et physique.- un ensemble de règles permettant la génération du code de création et de chargement de l'entrepôt. 2. Formaliser et automatiser le processus de réduction de données historisées en proposant une approche dirigée par les modèles qui fournit : - un ensemble de métamodèles (conceptuel, logique et physique) décrivant les données réduites, - un ensemble d'opérations de réduction,- un ensemble de règles de transformation permettant d'implanter ces opérations au niveau physique. Afin de valider nos propositions, nous avons développé un prototype comportant trois parties. Le premier module réalise les transformations de modèles vers des modèles de plus bas niveau. Le deuxième module transforme le modèle physique en code. Enfin, le dernier module permet de réduire l'ED
Our work handles decision support systems based on multidimensional Data Warehouse (DW). A Data Warehouse (DW) is a huge amount of data, often historical, used for complex and sophisticated analysis. It supports the business process within an organization. The relevant data for the decision-making process are collected from data sources by means of software processes commonly known as ETL (Extraction-Transformation-Loading) processes. The study of existing systems and methods shows two major limits. Actually, when building a DW, the designer deals with two major issues. The first issue treats the DW's design, whereas the second addresses the ETL processes design. Current frameworks provide partial solutions that focus either on the multidimensional structure or on the ETL processes, yet both could benefit from each other. However, few studies have considered these issues in a unified framework and have provided solutions to automate all of these tasks. Since its creation, the DW has a large amount of data, mainly due to the historical data. Looking into the decision maker's analysis over time, we can see that they are usually less interested in old data.To overcome these shortcomings, this thesis aims to formalize the development of a time-varying (with a temporal dimension) DW from its design to its physical implementation. We use the Model Driven Engineering (MDE) that automates the process and thus significantly reduce development costs and improve the software quality. The contributions of this thesis are summarized as follows: 1. To formalize and to automate the development of a time-varying DW within a model-driven approach that provides: - A set of unified (conceptual, logical and physical) metamodels that describe data and transformation operations. - An OCL (Object Constraint Language) extension that aims to conceptually formalize the transformation operations. - A set of transformation rules that maps the conceptual model to logical and physical models. - A set of transformation rules that generates the code. 2. To formalize and to automate historical data reduction within a model-driven approach that provides : - A set of (conceptual, logical and physical) metamodels that describe the reduced data. - A set of reduction operations. - A set of transformation rules that implement these operations at the physical level.In order to validate our proposals, we have developed a prototype composed of three parts. The first part performs the transformation of models to lower level models. The second part transforms the physical model into code. The last part allows the DW reduction
Los estilos APA, Harvard, Vancouver, ISO, etc.
38

Péguiron, Frédérique. "Application de l'Intelligence Économique dans un Système d'Information Stratégique universitaire : les apports de la modélisation des acteurs". Nancy 2, 2006. http://docnum.univ-lorraine.fr/public/NANCY2/doc240/2006NAN21014.pdf.

Texto completo
Resumen
Le processus d'intelligence économique permet de faire évoluer un système d'information universitaire en un système d'information stratégique universitaire. Les questions : "Entreprendre une démarche d'IE dans l'amélioration d'un SI permet-il d'améliorer la satisfaction des usagers ?" et "Comment intégrer la représentation de l'utilisateur dans un SIS ?" guident notre démarche. Nous étudions les processus propres à l'organisation, les processus propres à l'enseignant et les processus propres à l'étudiant pour proposer un modèle "RUBI3". L'expérimentation met en relief les difficultés techniques et organisationnelles qu'implique la construction d'un entrepôt avec la prise en compte du contexte global de l'université. Nous identifions plusieurs niveaux à prendre en compte lors de la conception d'un SIS : niveau modélisation, niveau application et niveau métamodélisation. L'intégration du système d'information documentaire dans le système d'information décisionnel de l'université aboutit à l'élaboration d'un système d'intelligence économique. Les mondes de l'indexation et les mondes du décisionnel sont reliés par les entrepôts de données
The process of intelligence economic makes it possible to make move a university information system in a university strategic information system. Questions : "To take does a step of IE in the improvement of information system make it possible to improve satisfaction of the users ?" and "How to integrate the representation of the user ?" guide our step. We study the processes specific for the organization, the processes specific to the teacher and the processes specific to the student to propose a model "RUBI3". The experimentation shows the technical and organizational difficulties to build a data warehouse with the taking into account of the context of the university. We identify several levels to build a data warehouse of an university : level modeling, level application and level meta modeling. The integration of the documentary information system in the decisional information system of the university leads to a system of economic intelligence. The worlds of the indexing and the worlds of decisional are connected by the data warehouses
Los estilos APA, Harvard, Vancouver, ISO, etc.
39

Boullé, Marc. "Recherche d'une représentation des données efficace pour la fouille des grandes bases de données". Phd thesis, Télécom ParisTech, 2007. http://pastel.archives-ouvertes.fr/pastel-00003023.

Texto completo
Resumen
La phase de préparation du processus de fouille des données est critique pour la qualité des résultats et consomme typiquement de l'ordre de 80% d'une étude. Dans cette thèse, nous nous intéressons à l'évaluation automatique d'une représentation, en vue de l'automatisation de la préparation des données. A cette fin, nous introduisons une famille de modèles non paramétriques pour l'estimation de densité, baptisés modèles en grille. Chaque variable étant partitionnée en intervalles ou groupes de valeurs selon sa nature numérique ou catégorielle, l'espace complet des données est partitionné en une grille de cellules résultant du produit cartésien de ces partitions univariées. On recherche alors un modèle où l'estimation de densité est constante sur chaque cellule de la grille. Du fait de leur très grande expressivité, les modèles en grille sont difficiles à régulariser et à optimiser. Nous avons exploité une technique de sélection de modèles selon une approche Bayesienne et abouti à une évaluation analytique de la probabilité a posteriori des modèles. Nous avons introduit des algorithmes d'optimisation combinatoire exploitant les propriétés de notre critère d'évaluation et la faible densité des données en grandes dimensions. Ces algorithmes ont une complexité algorithmique garantie, super-linéaire en nombre d'individus. Nous avons évalué les modèles en grilles dans de nombreux contexte de l'analyse de données, pour la classification supervisée, la régression, le clustering ou le coclustering. Les résultats démontrent la validité de l'approche, qui permet automatiquement et efficacement de détecter des informations fines et fiables utiles en préparation des données.
Los estilos APA, Harvard, Vancouver, ISO, etc.
40

Nicolicin, Georgescu Vlad. "Knowledge acquisition and management for driving a decision support system - BI Self-X -". Nantes, 2011. https://archive.bu.univ-nantes.fr/pollux/show/show?id=8a74ae6d-d6f5-429b-a51c-9ea9117902b0.

Texto completo
Resumen
Les travaux de cette thèse combinent trois domaines de recherche : (i) la gestion des Systèmes d’Information Décisionnel (SID) et les entrepôts de données, (ii) la gestion autonomique avec le Calcul Autonomique et (iii) l’intégration des connaissances avec les technologies sémantiques et les ontologies. Dans la littérature, la plupart des travaux traitent les Systèmes Opérationnels, fondamentalement différent des SID. Les SID manquent de pratiques bien définies pour leur gestion. Dans ce contexte, la thèse adresse deux problématiques : (i) l’intégration des connaissances pour la gestion des SID à l’aide des ontologies et (ii) l’utilisation du Calcul Autonomique en tenant compte des particularités des SID. Les apports principaux de cette thèse sont :(i) l’élaboration d’une ontologie qui modélise le SID et sa gestion, comprenant donc : l’architecture des entrepôts de données, les paramètres et les performances subjectives (Qualité des Services), ainsi que les conseils de gestion; (ii) l’élaboration d’un modèle de Calcul Autonomique permettant au SID d’assurer des fonctions d’autogestion : configuration, diagnostic/réparation et optimisation, avec le but d’améliorer les niveaux de service ; (iii) le développement de l’approche BI Self-X, composée de trois modules, chacun chargé d’une fonction de gestion CA. Les résultats obtenus avec cette approche ont montré que les entreprises qui utilisent BI Self-X pour la gestion de leur SID ont des meilleures performances, ainsi qu’une baisse des coûts et du temps passé dans l’implémentation et la maintenance de leurs entrepôts de données
This thesis combines three major research domains: (i) the management Decision Support Systems (DSS) and Data Warehouses, (ii) autonomic task management using Autonomic Computing and (iii) the transformation and modeling of knowledge by adopting Web Semantic technologies and Ontologies. In the literature, most of the references are done towards Operational Systems, which are fundamentally different from DSSs. There is a lack of well defined management best practices for DSS. In this context the two main issues are addressed: (i) the integration of the DSS management knowledge into a unified knowledge source with the help of ontologies and (ii) the usage of the integrated knowledge base with the Autonomic Computing model. The principal contributions of the thesis are: (i) the elaboration of an ontology model of the DSS and its management policies, which includes architectures, parameters, technical performances, subjective performances (QoS), best practices, known issues, service levels (SLA/O); (ii) the elaboration of an autonomic computing adoption model that provides the DSS with self management functions: configuration, healing and optimization, with the main purpose of improving the levels of service; (iii) the development of BI Self-X, composed of three modules each in charge of an AC self management function. The results obtained with this approach have proven that enterprises using BI Self-X with their DSS have increased performance and service levels while decreasing the costs and time in the implementation and maintaining of their data warehouses
Los estilos APA, Harvard, Vancouver, ISO, etc.
41

Karadimas, Harry. "Stratégies et modèles de données pour la mise en place d'un système d'aide à la décision dirigé par les données et basé sur la syntaxe Arden". Paris 13, 2005. http://www.theses.fr/2005PA132039.

Texto completo
Resumen
La syntaxe Arden est un standard de représentation de la connaissance médicale destiné à l'exécution automatique de règles par des systèmes d'aide à la décision Ce standard reste cependant peu implémenté (manque d'implémentations, d'intégrations). Ce travail propose de décrire une approche basée sur un noyau appelé Environnement Système Arden (ESA), avec des spécifications pour l'intégration à un système d'information. Les modules spécifiques au CHU Henri Mondor seront décrits, ainsi que les différentes stratégies d'intégration. Enfin sera décrite l'implémentation d'un système appelé "serveur d'alerte", qui ajoute à l'ESA une base de données acceptant des documents XML, des éléments hiérachiques, de multiples nomenclatures, et de nouvelles syntaxes pour les requêtes données. L'utilisation de ces nouveaux formalismes permet d'augmenter l'étendue des inférences qu'il est possible de réaliser avec la Syntaxe Arden, sans recours aux systèmes utilisant des règles de production.
Los estilos APA, Harvard, Vancouver, ISO, etc.
42

Arres, Billel. "Optimisation des performances dans les entrepôts distribués avec Mapreduce : traitement des problèmes de partionnement et de distribution des données". Thesis, Lyon, 2016. http://www.theses.fr/2016LYSE2012.

Texto completo
Resumen
Dans ce travail de thèse, nous abordons les problèmes liés au partitionnement et à la distribution des grands volumes d’entrepôts de données distribués avec Mapreduce. Dans un premier temps, nous abordons le problème de la distribution des données. Dans ce cas, nous proposons une stratégie d’optimisation du placement des données, basée sur le principe de la colocalisation. L’objectif est d’optimiser les traitements lors de l’exécution des requêtes d’analyse à travers la définition d’un schéma de distribution intentionnelle des données permettant de réduire la quantité des données transférées entre les noeuds lors des traitements, plus précisément lors phase de tri (shuffle). Nous proposons dans un second temps une nouvelle démarche pour améliorer les performances du framework Hadoop, qui est l’implémentation standard du paradigme Mapreduce. Celle-ci se base sur deux principales techniques d’optimisation. La première consiste en un pré-partitionnement vertical des données entreposées, réduisant ainsi le nombre de colonnes dans chaque fragment. Ce partitionnement sera complété par la suite par un autre partitionnement d’Hadoop, qui est horizontal, appliqué par défaut. L’objectif dans ce cas est d’améliorer l’accès aux données à travers la réduction de la taille des différents blocs de données. La seconde technique permet, en capturant les affinités entre les attributs d’une charge de requêtes et ceux de l’entrepôt, de définir un placement efficace de ces blocs de données à travers les noeuds qui composent le cluster. Notre troisième proposition traite le problème de l’impact du changement de la charge de requêtes sur la stratégie de distribution des données. Du moment que cette dernière dépend étroitement des affinités des attributs des requêtes et de l’entrepôt. Nous avons proposé, à cet effet, une approche dynamique qui permet de prendre en considération les nouvelles requêtes d’analyse qui parviennent au système. Pour pouvoir intégrer l’aspect de "dynamicité", nous avons utilisé un système multi-agents (SMA) pour la gestion automatique et autonome des données entreposées, et cela, à travers la redéfinition des nouveaux schémas de distribution et de la redistribution des blocs de données. Enfin, pour valider nos contributions nous avons conduit un ensemble d’expérimentations pour évaluer nos différentes approches proposées dans ce manuscrit. Nous étudions l’impact du partitionnement et la distribution intentionnelle sur le chargement des données, l’exécution des requêtes d’analyses, la construction de cubes OLAP, ainsi que l’équilibrage de la charge (Load Balacing). Nous avons également défini un modèle de coût qui nous a permis d’évaluer et de valider la stratégie de partitionnement proposée dans ce travail
In this manuscript, we addressed the problems of data partitioning and distribution for large scale data warehouses distributed with MapReduce. First, we address the problem of data distribution. In this case, we propose a strategy to optimize data placement on distributed systems, based on the collocation principle. The objective is to optimize queries performances through the definition of an intentional data distribution schema of data to reduce the amount of data transferred between nodes during treatments, specifically during MapReduce’s shuffling phase. Secondly, we propose a new approach to improve data partitioning and placement in distributed file systems, especially Hadoop-based systems, which is the standard implementation of the MapReduce paradigm. The aim is to overcome the default data partitioning and placement policies which does not take any relational data characteristics into account. Our proposal proceeds according to two steps. Based on queries workload, it defines an efficient partitioning schema. After that, the system defines a data distribution schema that meets the best user’s needs, and this, by collocating data blocks on the same or closest nodes. The objective in this case is to optimize queries execution and parallel processing performances, by improving data access. Our third proposal addresses the problem of the workload dynamicity, since users analytical needs evolve through time. In this case, we propose the use of multi-agents systems (MAS) as an extension of our data partitioning and placement approach. Through autonomy and self-control that characterize MAS, we developed a platform that defines automatically new distribution schemas, as new queries appends to the system, and apply a data rebalancing according to this new schema. This allows offloading the system administrator of the burden of managing load balance, besides improving queries performances by adopting careful data partitioning and placement policies. Finally, to validate our contributions we conduct a set of experiments to evaluate our different approaches proposed in this manuscript. We study the impact of an intentional data partitioning and distribution on data warehouse loading phase, the execution of analytical queries, OLAP cubes construction, as well as load balancing. We also defined a cost model that allowed us to evaluate and validate the partitioning strategy proposed in this work
Los estilos APA, Harvard, Vancouver, ISO, etc.
43

Bimonte, Sandro. "Intégration de l'information géographique dans les entrepôts de données et l'analyse en ligne : de la modélisation à la visualisation". Lyon, INSA, 2007. http://theses.insa-lyon.fr/publication/2007ISAL0105/these.pdf.

Texto completo
Resumen
Les systèmes d’entrepôts de données et OLAP sont de solutions pour l’analyse décisionnelle. L’intégration des données spatiales dans l’ OLAP est un enjeu majeur. L’information géographique est très fréquemment présente dans les données, mais généralement sous-employée dans le processus décisionnel. Le couplage de systèmes OLAP et de Systèmes d’Informations Géographiques au sein de systèmes OLAP Spatial (SOLAP) est une voie prometteuse. La majorité des solutions SOLAP réduisent l’information géographique à la seule composante spatiale, limitant ainsi les capacités d’analyse du paradigme spatio-multidimensionnel. Nous proposons un modèle formel (GeoCube) et une algèbre associée, qui reformule les concepts du SOLAP afin d’introduire les aspects sémantiques et spatiaux de l’information géographique dans l’analyse multidimensionnelle. Cela se traduit par une modélisation des mesures sous forme d'objets géographiques, dans une vision complètement symétrique entre mesures et dimensions. Ainsi une mesure peut participer à une hiérarchie. Nous proposons une algèbre qui fournit les opérateurs de forage et de coupe, un opérateur qui permet d'intervertir mesure et dimension et des opérateurs de navigation au sein de la hiérarchie de mesures. Cette algèbre, grâce aux opérateurs qui modifient dynamiquement la structure de l’hypercube, permet de concilier analyse OLAP et analyse spatiale. Nous avons réalisé un prototype web conforme à GeoCube. Pour décrire nos solutions, nous utilisons des données environnementales de la lagune de Venise. Enfin, nous proposons un nouveau paradigme de visualisation et d’interaction pour l’analyse des mesures géographiques
Data warehouse and OLAP systems are decision-making solutions. Integration of spatial data into OLAP systems is an important challenge. Indeed, geographic information is always present implicitly or explicitly into data, but generally it is not well handled into the decisional process. Spatial OLAP (SOLAP) systems, which are the integration of OLAP and Geographic Information Systems (GIS), are a promising way. Most of SOLAP solution reduces geographic information to its spatial component, limiting the analysis capabilities of the spatio-multidimensional paradigm. We propose a formal model (GeoCube) and its associated algebra. GeoCube reformulates main SOLAP concepts in order to introduce semantic and spatial aspects of geographic information into the multidimensional analysis. We model measures and dimension members as geographic and/or complex objects. A measure can belong to one or more hierarchies. We propose an algebra which provides the drill and slice operators, an operator to invert measures and dimension, and two operators to navigate into the hierarchy of the measure. The algebra permits to introduce the spatial analysis methods into multidimensional analysis through some new operators which change dynamically the structure of the hypercube. We have realized a web prototype based on GeoCube. We describe our works using environmental data of Venice lagoon pollution. Finally, we propose a new visualization and interaction paradigm to analyze geographic measures
Los estilos APA, Harvard, Vancouver, ISO, etc.
44

Mavroudakis, Nicolas. "Stimulation magnétique corticale: données normatives et modifications pharmacologiques et pathologiques". Doctoral thesis, Universite Libre de Bruxelles, 2000. http://hdl.handle.net/2013/ULB-DIPOT:oai:dipot.ulb.ac.be:2013/211691.

Texto completo
Los estilos APA, Harvard, Vancouver, ISO, etc.
45

Negre, Elsa. "Exploration collaborative de cubes de données". Thesis, Tours, 2009. http://www.theses.fr/2009TOUR4023/document.

Texto completo
Resumen
Data warehouses store large volumes of consolidated and historized multidimensional data to be explored and analysed by various users. The data exploration is a process of searching relevant information in a dataset. In this thesis, the dataset to explore is a data cube which is an extract of the data warehouse that users query by launching sequences of OLAP (On-Line Analytical Processing) queries. However, this volume of information can be very large and diversified, it is thus necessary to help the user to face this problem by guiding him/her in his/her data cube exploration in order to find relevant information. The present work aims to propose recommendations, as OLAP queries, to a user querying a data cube. This proposal benefits from what the other users did during their previous explorations of the same data cube. We start by presenting an overview of the used framework and techniques in Information Retrieval, Web Usage Mining or e-commerce. Then, inspired by this framework, we present a state of the art on collaborative assistance for data exploration in (relationnal and multidimensional) databases. It enables us to release work axes in the context of multidimensional databases. Thereafter, we propose thus a generic framework to generate recommendations, generic in the sense that the three steps of the process are customizable. Thus, given a set of sequences of queries, corresponding to the previous explorations of various users, and given the sequence of queries of the current user, our framework proposes a set of queries as recommendations following his/her sequence. Then, various instantiations of our framework are proposed. Then, we present a Java prototype allowing a user to specify his/her current sequence of queries and it returns a set of recommendations. This prototype validates our approach and its effectiveness thanks to an experimentations collection. Finally, in order to improve this data cube exploration collaborative assistance and, in particular, to share, navigate or annotate the launched queries, we propose a framework to manage queries. Thus, an instantiation to manage recommendations is presented
Les entrepôts de données stockent de gros volumes de données multidimensionnelles, consolidées et historisées dans le but d'être explorées et analysées par différents utilisateurs. L'exploration de données est un processus de recherche d'informations pertinentes au sein d'un ensemble de données. Dans le cadre de nos travaux, l'ensemble de données à explorer est un cube de données qui est un extrait de l'entrepôt de données que les utilisateurs interrogent en lançant des séquences de requêtes OLAP (On-Line Analytical Processing). Cependant, cette masse d'informations à explorer peut être très importante et variée, il est donc nécessaire d'aider l'utilisateur à y faire face en le guidant dans son exploration du cube de données afin qu'il trouve des informations pertinentes. Le travail présenté dans cette thèse a pour objectif de proposer des recommandations, sous forme de requêtes OLAP, à un utilisateur interrogeant un cube de données. Cette proposition tire parti de ce qu'ont fait les autres utilisateurs lors de leurs précédentes explorations du même cube de données. Nous commençons par présenter un aperçu du cadre et des techniques utilisés en Recherche d'Informations, Exploration des Usages du Web ou e-commerce. Puis, en nous inspirant de ce cadre, nous présentons un état de l'art sur l'aide à l'exploration des bases de données (relationnelles et multidimensionnelles). Cela nous permet de dégager des axes de travail dans le contexte des bases de données multidimensionnelles. Par la suite, nous proposons donc un cadre générique de génération de recommandations, générique dans le sens où les trois étapes du processus sont paramétrables. Ainsi, à partir d'un ensemble de séquences de requêtes, correspondant aux explorations du cube de données faites précédemment par différents utilisateurs, et de la séquence de requêtes de l'utilisateur courant, notre cadre propose un ensemble de requêtes pouvant faire suite à la séquence de requêtes courante. Puis, diverses instanciations de ce cadre sont proposées. Nous présentons ensuite un prototype écrit en Java. Il permet à un utilisateur de spécifier sa séquence de requêtes courante et lui renvoie un ensemble de recommandations. Ce prototype nous permet de valider notre approche et d'en vérifier l'efficacité avec un série d'expérimentations. Finalement, afin d'améliorer cette aide collaborative à l'exploration de cubes de données et de permettre, notamment, le partage de requêtes, la navigation au sein des requêtes posées sur le cube de données, ou encore de les annoter, nous proposons un cadre d'organisation de requêtes. Ainsi, une instanciation adaptée à la gestion des recommandations est présentée
Los estilos APA, Harvard, Vancouver, ISO, etc.
46

Amanzougarene, Fatiha. "Extension du modèle multidimensionnel aux faits qualitatifs. Application à l'analyse en ligne des gênes des chantiers urbains". Versailles-St Quentin en Yvelines, 2014. http://www.theses.fr/2014VERS0019.

Texto completo
Resumen
Les entrepôts de données et les systèmes OLAP constituent les principaux éléments d’un système d’information décisionnel. Ces dernières années, plusieurs travaux ont été menés, afin d’étendre les concepts des entrepôts de données classiques pour traiter de nouveaux types de données, dites complexes (texte, multimédia, géographique, etc. ). Dans cette thèse, nous nous sommes intéressés à la problématique de l’intégration de l’information qualitative dans l’analyse multidimensionnelle. Nos travaux sont guidés par une étude de cas sur les gênes des chantiers urbains. Après avoir défini la notion de gêne et déterminé les différents facteurs qui interviennent dans son évaluation, nous avons mis en évidence le besoin d'un modèle de représentation qualitative s’appuyant sur des règles et des connaissances expertes. Or, l'analyse multidimensionnelle dans les entrepôts de données traditionnels ne considère que des mesures quantitatives. Notre principale contribution est donc d'étendre le modèle multidimensionnel aux mesures qualitatives exprimées sous forme de termes linguistiques. Partant du constat que les connaissances expertes sont parfois incomplètes, notre deuxième contribution est de proposer une méthode originale de reconstruction de données manquantes dans le contexte des entrepôts de données. Ce modèle consiste à combiner la technique des k-plus proches voisins (KPPV) avec la programmation par contraintes pour assurer une meilleure prédiction des valeurs manquantes dans une table de faits d’un entrepôt de données classique ou qualitatif
Data warehouses and OLAP systems constitute the main elements of decision support systems. In recent years, several studies have been conducted in order to extend the capabilities of conventional data warehouse to handle complex data types (e. G. , text, multimedia, geographic, etc. ) In this thesis, we focused on the integration problem of qualitative information in multidimensional analysis. Our work are guided by a case study on urban building sites annoyances. After defining the notion of annoyance and determined the factors involved in its evaluation, we highlighted the need for a qualitative representation model based on rules and expert knowledge. However, conventional multidimensional data models only consider quantitative measures. Therefore, our main contribution is to extend the multidimensional model to treat qualitative measures expressed as linguistic terms. Considering that expert knowledge are sometimes incomplete, our second contribution is to propose an original model for missing data reconstruction in the context of data warehouses. This model consists in combining the constraint programming and a technique of machine learning, namely the k-nearest neighbor algorithm. In addition to its application in classical data warehouses, our model adapts to qualitative data warehouses, as in the annoyances analysis of urban building sites
Los estilos APA, Harvard, Vancouver, ISO, etc.
47

Khemiri, Rym. "Vers l'OLAP collaboratif pour la recommandation des analyses en ligne personnalisées". Thesis, Lyon 2, 2015. http://www.theses.fr/2015LYO22015/document.

Texto completo
Resumen
La personnalisation vise à recueillir les intérêts, les préférences, les usages, les contraintes, le contexte, etc. souvent considérés comme faisant partie de ce que l'on appelle ''profil utilisateur'' pour ensuite les intégrer dans un système et les exploiter afin de permettre à l'utilisateur d'accéder rapidement aux informations les plus pertinentes pour lui. Par ailleurs, au sein d'une organisation, différents acteurs sont amenés à prendre des décisions à différents niveaux de responsabilité et ont donc besoin de réaliser des analyses à partir de l'entrepôt de données pour supporter la prise de décision. Ainsi, dans le contexte de cette communauté d'utilisateurs de l'entrepôt de données, la notion de collaboration émerge. Il est alors intéressant de combiner les concepts de personnalisation et de collaboration pour approcher au mieux les besoins des utilisateurs en leur recommandant des analyses en ligne pertinentes. L'objectif de ce mémoire est de proposer une approche collaborative pour l'OLAP, impliquant plusieurs utilisateurs, dirigée par un processus de personnalisation intégré aux systèmes décisionnels afin de pouvoir aider l'utilisateur final dans son processus d'analyse en ligne. Qu'il s'agisse de personnalisation du modèle d'entrepôt, de recommandation de requêtes décisionnelles ou de recommandation de chemins de navigation au sein des cubes de données, l'utilisateur a besoin d'un système décisionnel efficace qui l'aide dans sa démarche d'analyse en ligne. La finalité est de fournir à l'utilisateur des réponses pertinentes proches de ses besoins pour qu'il puisse mieux appréhender ses prises de décision. Nous nous sommes intéressés dans cette thèse à trois problèmes relevant de la prise en compte de l'utilisateur au sein des entrepôts de données et de l'OLAP. Nos contributions s'appuient sur la combinaison de techniques issues de la fouille de données avec les entrepôts et OLAP. Notre première contribution est une approche qui consiste à personnaliser les hiérarchies de dimensions afin d'obtenir des axes d'analyse nouveaux sémantiquement plus riches pouvant aider l'utilisateur à réaliser de nouvelles analyses non prévues par le modèle de l'entrepôt initial. En effet, nous relâchons la contrainte du modèle fixe de l'entrepôt, ce qui permet à l'utilisateur de créer de nouveaux axes d'analyse pertinents en tenant compte à la fois de ses contraintes et des connaissances enfouies dans les données entreposées. Notre approche repose sur une méthode d'apprentissage non-supervisé, le k-means contraint, capable de créer de nouveaux regroupements intéressants des données entreposées pouvant constituer un nouveau niveau de hiérarchie permettant de réaliser de nouvelles requêtes décisionnelles. L'intérêt est alors de pouvoir exploiter ces nouveaux niveaux de hiérarchie pour que les autres utilisateurs appartenant à la même communauté d'utilisateurs puissent en tirer profit, dans l'esprit d'un système collaboratif dans lequel chacun apporte sa pierre à l'édifice. Notre deuxième contribution est une approche interactive pour aider l'utilisateur à formuler de nouvelles requêtes décisionnelles pour construire des cubes OLAP pertinents en s'appuyant sur ses requêtes décisionnelles passées, ce qui lui permet d'anticiper sur ses besoins d'analyse futurs. Cette approche repose sur l'extraction des motifs fréquents à partir d'une charge de requêtes associée à un ou à un ensemble d'utilisateurs appartenant à la même communauté d'acteurs d'une organisation. Notre intuition est que la pertinence d'une requête décisionnelle est fortement corrélée avec la fréquence d'utilisation par l'utilisateur (ou un ensemble d'utilisateurs) des attributs associés à l'ensemble de ses (leurs) requêtes précédentes. Notre approche de formulation de requêtes (...)
The objective of this thesis is to provide a collaborative approach to the OLAP involving several users, led by an integrated personalization process in decision-making systems in order to help the end user in their analysis process. Whether personalizing the warehouse model, recommending decision queries or recommending navigation paths within the data cubes, the user need an efficient decision-making system that assist him. We were interested in three issues falling within data warehouse and OLAP personalization offering three major contributions. Our contributions are based on a combination of datamining techniques with data warehouses and OLAP technology. Our first contribution is an approach about personalizing dimension hierarchies to obtain new analytical axes semantically richer for the user that can help him to realize new analyzes not provided by the original data warehouse model. Indeed, we relax the constraint of the fixed model of the data warehouse which allows the user to create new relevant analysis axes taking into account both his/her constraints and his/her requirements. Our approach is based on an unsupervised learning method, the constrained k-means. Our goal is then to recommend these new hierarchy levels to other users of the same user community, in the spirit of a collaborative system in which each individual brings his contribution. The second contribution is an interactive approach to help the user to formulate new decision queries to build relevant OLAP cubes based on its past decision queries, allowing it to anticipate its future analysis needs. This approach is based on the extraction of frequent itemsets from a query load associated with one or a set of users belonging to the same actors in a community organization. Our intuition is that the relevance of a decision query is strongly correlated to the usage frequency of the corresponding attributes within a given workload of a user (or group of users). Indeed, our approach of decision queries formulation is a collaborative approach because it allows the user to formulate relevant queries, step by step, from the most commonly used attributes by all actors of the user community. Our third contribution is a navigation paths recommendation approach within OLAP cubes. Users are often left to themselves and are not guided in their navigation process. To overcome this problem, we develop a user-centered approach that suggests the user navigation guidance. Indeed, we guide the user to go to the most interesting facts in OLAP cubes telling him the most relevant navigation paths for him. This approach is based on Markov chains that predict the next analysis query from the only current query. This work is part of a collaborative approach because transition probabilities from one query to another in the cuboids lattice (OLAP cube) is calculated by taking into account all analysis queries of all users belonging to the same community. To validate our proposals, we present a support system user-centered decision which comes in two subsystems: (1) content personalization and (2) recommendation of decision queries and navigation paths. We also conducted experiments that showed the effectiveness of our analysis online user centered approaches using quality measures such as recall and precision
Los estilos APA, Harvard, Vancouver, ISO, etc.
48

Barkat, Okba. "Utilisation conjointe des ontologies et du contexte pour la conception des systèmes de stockage de données". Thesis, Chasseneuil-du-Poitou, Ecole nationale supérieure de mécanique et d'aérotechnique, 2017. http://www.theses.fr/2017ESMA0001/document.

Texto completo
Resumen
Nous assistons à une époque où toute entreprise (ou organisme), dans le but d’augmenter son pou- voir décisionnel, est fortement intéressée par la collecte et l’analyse des données provenant de multiples sources hétérogènes et variées. Ces sources présentent également une autre spécificité à savoir la sensibilité au contexte. Cette situation nous met face à un enjeu scientifique crucial, du fait qu’elle réunit trois problématiques complémentaires : (i) la résolution de l’hétérogénéité qui peut exister entre les sources,(ii) la construction d’un système d’intégration décisionnel, et (iii) la prise en compte du contexte dans cette intégration. Afin de répondre à ces problématiques, nous nous intéressons dans cette thèse à la conception des applications contextuelles basées sur une ontologie de domaine, supposée existante. Pour ce faire, nous proposons d’abord un modèle de contexte qui intègre les dimensions principales identifiées dans la littérature. Une fois construit, il est lié au modèle de l’ontologie. Cette façon de procéder augmente la flexibilité dans la conception des applications avancées. Ensuite, nous proposons deux cas d’étude : (1) la contextualisation de sources de données sémantiques où nous étendons le système On- toBD/OntoQL afin qu’il prenne en compte le contexte, et (2) la conception d’un entrepôt de données contextuel où le modèle de contexte est projeté sur les différentes phases de conception du cycle de vie. Afin de valider notre proposition, nous présentons un prototype d’outil d’aide à la conception implémentant les différentes étapes de l’approche de conception proposée
We are witnessing an era when any company is strongly interested in collecting and analyzing data from heterogeneous and varied sources. These sources also have another specificity, namely con- text awareness. Three complementary problems are identified: the resolution of the heterogeneity of the sources, (ii) the construction of a decisional integrating system, and (iii) taking into account the context in this integration. To solve these problems, we are interested in this thesis in the design of contextual applications based on a domain ontology.To do this, we first propose a context model that integrates the main dimensions identified in the literature. Once built, it is linked to the ontology model. This approach increases flexibility in the design of advanced applications. Then, we propose two case studies: (1) the contextualization of semantic data sources where we extend the OntoBD/OntoQL system to take the context into account, and (2) the design of a contextual data warehouse where the context model is projected on the different phases of the life cycle design. To validate our proposal, we present a tool implementing the different phases of the proposed design approach
Los estilos APA, Harvard, Vancouver, ISO, etc.
49

Favre, Cécile. "Évolution de schémas dans les entrepôts de données : mise à jour de hiérarchies de dimension pour la personnalisation des analyses". Phd thesis, Université Lumière - Lyon II, 2007. http://tel.archives-ouvertes.fr/tel-00269037.

Texto completo
Resumen
Cette thèse a été réalisée en collaboration avec l'établissement bancaire LCL-Le Crédit Lyonnais. Elle s'inscrit dans le domaine des entrepôts de données. Ces derniers constituent un élément fondamental de l'architecture décisionnelle, sur lesquels reposent des outils permettant de répondre à des besoins d'analyse. Or, l'émergence de nouveaux besoins d'analyse individuels fait apparaître la nécessité d'une personnalisation des analyses. Pour permettre cette personnalisation, nous proposons une solution basée sur une évolution du schéma de l'entrepôt guidée par les utilisateurs. Il s'agit en effet de recueillir les connaissances de l'utilisateur et de les intégrer dans l'entrepôt de données afin de créer de nouveaux axes d'analyse. Cette solution s'appuie sur la définition d'un modèle formel d'entrepôt de données évolutif, basé sur des règles "si-alors", que nous appelons règles d'agrégation, qui permettent de représenter les connaissances utilisateurs. Notre modèle d'entrepôt évolutif est soutenu par une architecture qui place l'utilisateur au cœur du processus d'évolution du schéma de l'entrepôt. Nous nous sommes par ailleurs intéressés à l'évaluation de la performance de notre modèle d'entrepôt de données évolutif. L'évaluation de performances se base généralement sur une charge (ensemble de requêtes). Dans le contexte évolutif dans lequel nous nous plaçons, nous proposons alors une méthode de mise à jour incrémentale d'une charge donnée en répercutant l'évolution de schéma subie par l'entrepôt. Pour valider nos différentes contributions, nous avons développé la plateforme WEDriK (data Warehouse Evolution Driven by Knowledge).
Los estilos APA, Harvard, Vancouver, ISO, etc.
50

Hachicha, Marouane. "Modélisation de hiérarchies complexes dans les entrepôts de données XML et traitement des problèmes d'additivité dans l'analyse en ligne XOLAP". Thesis, Lyon 2, 2012. http://www.theses.fr/2012LYO22016/document.

Texto completo
Resumen
Depuis son apparition en 1998, le langage XML (eXtensible Markup Language) est devenu un standard pour la modélisation et l'échange de données. En effet, XML permet de modéliser des structures de données qui ne sont pas facilement représentées dans les systèmes relationnels. Dans ce contexte, les entrepôts de données XML représentent aujourd'hui la base de plusieurs applications décisionnelles qui exploitent des données hétérogènes (peu structurées et provenant des sources multiples) aux structures complexes comme par exemple des hiérarchies complexes.Dans ce mémoire, nous proposons une nouvelle solution XOLAP (XML-OLAP) en temps réel qui traite les problèmes d'additivité dus aux hiérarchies complexes. Tout d'abord, nous proposons un nouveau modèle de données : les arbres de données multidimensionnels, qui permet de modéliser les faits, les dimensions, les mesures et les hiérarchies complexes d'un entrepôt de données XML. Pour pouvoir interroger les arbres de données multidimensionnels, nous modélisons les requêtes utilisateur à l'aide de modèles d'arbre XML. Nous proposons ensuite un nouvel algorithme de regroupement et d'agrégation pour la résolution en temps réel des problèmes d'additivité dans les hiérarchies complexes. Nous généralisons enfin cet algorithme à un nouvel opérateur XOLAP de forage vers le haut (roll-up).Finalement, nous validons nos propositions de manière expérimentale. Pour cela, nous étendons le banc d'essais XWeB en introduisant des hiérarchies complexes dans son schéma. La comparaison de notre approche à une approche de référence montre que la surcharge due à l'exécution en temps réel de notre approche est tout à fait acceptable et que nos algorithmes sont susceptibles de passer à l'échelle
Since its inception in 1998, the eXtensible Markup Language (XML) has emerged as a standard for data representation and exchange over the Internet. XML provides an opportunity for modeling data structures that are not easily represented in relational systems. In this context, XML data warehouses nowadays form the basis of several decision-support applications exploiting heterogeneous data (little structured and coming from various sources) bearing complex structures, such as complex hierarchies. In this thesis, we propose a novel XOLAP (XML-OLAP) approach that automatically detects and processes summarizability issues at query time, without requiring any particular expertise from the user. Thus, at the logical level, we choose XML data trees, so-called multidimensional data trees, to model the multidimensional structures (facts, dimensions, measures and complex hierarchies) of XML data warehouses. In order to query multidimensional data trees, we model user queries as XML pattern trees. Then, we introduce a new aggregation algorithm to address summarizability issues in complex hierarchies. On the basis of this algorithm, we propose a novel XOLAP roll-up operator. Finally, we experimentally validate our proposal and compare our approach with the reference approach for addressing summarizability issues in complex hierarchies. For this sake, we extend the XML warehouse benchmark XWeB with complex hierarchies to generate XML data warehouses with scalable complex hierarchies. The results of our experiments show that the overhead induced by managing hierarchy complexity at run-time is totally acceptable and that our approach is expected to scale up well
Los estilos APA, Harvard, Vancouver, ISO, etc.
Ofrecemos descuentos en todos los planes premium para autores cuyas obras están incluidas en selecciones literarias temáticas. ¡Contáctenos para obtener un código promocional único!

Pasar a la bibliografía