Se connecter

Bibliographies thématiques / Données massives – Analyse informatique / Thèses

Thèses sur le sujet « Données massives – Analyse informatique »

Pour voir les autres types de publications sur ce sujet consultez le lien suivant : Données massives – Analyse informatique.

Auteur : Grafiati

Publié le 13 juillet 2024

Créez une référence correcte selon les styles APA, MLA, Chicago, Harvard et plusieurs autres

Choisissez une source :

Consultez les 50 meilleures thèses pour votre recherche sur le sujet « Données massives – Analyse informatique ».

À côté de chaque source dans la liste de références il y a un bouton « Ajouter à la bibliographie ». Cliquez sur ce bouton, et nous générerons automatiquement la référence bibliographique pour la source choisie selon votre style de citation préféré : APA, MLA, Harvard, Vancouver, Chicago, etc.

Vous pouvez aussi télécharger le texte intégral de la publication scolaire au format pdf et consulter son résumé en ligne lorsque ces informations sont inclues dans les métadonnées.

Parcourez les thèses sur diverses disciplines et organisez correctement votre bibliographie.

1

Haddad, Raja. « Apprentissage supervisé de données symboliques et l'adaptation aux données massives et distribuées ». Thesis, Paris Sciences et Lettres (ComUE), 2016. http://www.theses.fr/2016PSLED028/document.

Texte intégral

Résumé :

Cette thèse a pour but l'enrichissement des méthodes supervisées d'analyse de données symboliques et l'extension de ce domaine aux données volumineuses, dites "Big Data". Nous proposons à cette fin une méthode supervisée nommée HistSyr. HistSyr convertit automatiquement les variables continues en histogrammes les plus discriminants pour les classes d'individus. Nous proposons également une nouvelle méthode d'arbres de décision symbolique, dite SyrTree. SyrTree accepte tous plusieurs types de variables explicatives et à expliquer pour construire l'arbre de décision symbolique. Enfin, nous étendons HistSyr aux Big Data, en définissant une méthode distribuée nommée CloudHistSyr. CloudHistSyr utilise Map/Reduce pour créer les histogrammes les plus discriminants pour des données trop volumineuses pour HistSyr. Nous avons testé CloudHistSyr sur Amazon Web Services (AWS). Nous démontrons la scalabilité et l’efficacité de notre méthode sur des données simulées et sur les données expérimentales. Nous concluons sur l’utilité de CloudHistSyr qui , grâce à ses résultats, permet l'étude de données massives en utilisant les méthodes d'analyse symboliques existantes
This Thesis proposes new supervised methods for Symbolic Data Analysis (SDA) and extends this domain to Big Data. We start by creating a supervised method called HistSyr that converts automatically continuous variables to the most discriminant histograms for classes of individuals. We also propose a new method of symbolic decision trees that we call SyrTree. SyrTree accepts many types of inputs and target variables and can use all symbolic variables describing the target to construct the decision tree. Finally, we extend HistSyr to Big Data, by creating a distributed method called CloudHistSyr. Using the Map/Reduce framework, CloudHistSyr creates of the most discriminant histograms for data too big for HistSyr. We tested CloudHistSyr on Amazon Web Services. We show the efficiency of our method on simulated data and on actual car traffic data in Nantes. We conclude on overall utility of CloudHistSyr which, through its results, allows the study of massive data using existing symbolic analysis methods

Styles APA, Harvard, Vancouver, ISO, etc.

2

Adjout, Rehab Moufida. « Big Data : le nouvel enjeu de l'apprentissage à partir des données massives ». Thesis, Sorbonne Paris Cité, 2016. http://www.theses.fr/2016USPCD052.

Texte intégral

Résumé :

Le croisement du phénomène de mondialisation et du développement continu des technologies de l’information a débouché sur une explosion des volumes de données disponibles. Ainsi, les capacités de production, de stockage et de traitement des donnée sont franchi un tel seuil qu’un nouveau terme a été mis en avant : Big Data.L’augmentation des quantités de données à considérer, nécessite la mise en oeuvre de nouveaux outils de traitement. En effet, les outils classiques d’apprentissage sont peu adaptés à ce changement de volumétrie tant au niveau de la complexité de calcul qu’à la durée nécessaire au traitement. Ce dernier, étant le plus souvent centralisé et séquentiel,ce qui rend les méthodes d’apprentissage dépendantes de la capacité de la machine utilisée. Par conséquent, les difficultés pour analyser un grand jeu de données sont multiples.Dans le cadre de cette thèse, nous nous sommes intéressés aux problèmes rencontrés par l’apprentissage supervisé sur de grands volumes de données. Pour faire face à ces nouveaux enjeux, de nouveaux processus et méthodes doivent être développés afin d’exploiter au mieux l’ensemble des données disponibles. L’objectif de cette thèse est d’explorer la piste qui consiste à concevoir une version scalable de ces méthodes classiques. Cette piste s’appuie sur la distribution des traitements et des données pou raugmenter la capacité des approches sans nuire à leurs précisions.Notre contribution se compose de deux parties proposant chacune une nouvelle approche d’apprentissage pour le traitement massif de données. Ces deux contributions s’inscrivent dans le domaine de l’apprentissage prédictif supervisé à partir des données volumineuses telles que la Régression Linéaire Multiple et les méthodes d’ensemble comme le Bagging.La première contribution nommée MLR-MR, concerne le passage à l’échelle de la Régression Linéaire Multiple à travers une distribution du traitement sur un cluster de machines. Le but est d’optimiser le processus du traitement ainsi que la charge du calcul induite, sans changer évidement le principe de calcul (factorisation QR) qui permet d’obtenir les mêmes coefficients issus de la méthode classique.La deuxième contribution proposée est appelée "Bagging MR_PR_D" (Bagging based Map Reduce with Distributed PRuning), elle implémente une approche scalable du Bagging,permettant un traitement distribué sur deux niveaux : l’apprentissage et l’élagage des modèles. Le but de cette dernière est de concevoir un algorithme performant et scalable sur toutes les phases de traitement (apprentissage et élagage) et garantir ainsi un large spectre d’applications.Ces deux approches ont été testées sur une variété de jeux de données associées àdes problèmes de régression. Le nombre d’observations est de plusieurs millions. Nos résultats expérimentaux démontrent l’efficacité et la rapidité de nos approches basées sur la distribution de traitement dans le Cloud Computing
In recent years we have witnessed a tremendous growth in the volume of data generatedpartly due to the continuous development of information technologies. Managing theseamounts of data requires fundamental changes in the architecture of data managementsystems in order to adapt to large and complex data. Single-based machines have notthe required capacity to process such massive data which motivates the need for scalablesolutions.This thesis focuses on building scalable data management systems for treating largeamounts of data. Our objective is to study the scalability of supervised machine learningmethods in large-scale scenarios. In fact, in most of existing algorithms and datastructures,there is a trade-off between efficiency, complexity, scalability. To addressthese issues, we explore recent techniques for distributed learning in order to overcomethe limitations of current learning algorithms.Our contribution consists of two new machine learning approaches for large scale data.The first contribution tackles the problem of scalability of Multiple Linear Regressionin distributed environments, which permits to learn quickly from massive volumes ofexisting data using parallel computing and a divide and-conquer approach to providethe same coefficients like the classic approach.The second contribution introduces a new scalable approach for ensembles of modelswhich allows both learning and pruning be deployed in a distributed environment.Both approaches have been evaluated on a variety of datasets for regression rangingfrom some thousands to several millions of examples. The experimental results showthat the proposed approaches are competitive in terms of predictive performance while reducing significantly the time of training and prediction

Styles APA, Harvard, Vancouver, ISO, etc.

3

Ledieu, Thibault. « Analyse et visualisation de trajectoires de soins par l’exploitation de données massives hospitalières pour la pharmacovigilance ». Thesis, Rennes 1, 2018. http://www.theses.fr/2018REN1B032/document.

Texte intégral

Résumé :

Le phénomène de massification des données de santé constitue une opportunité de répondre aux questions des vigilances et de qualité des soins. Dans les travaux effectués au cours de cette thèse, nous présenterons des approches permettant d’exploiter la richesse et le volume des données intra hospitalières pour des cas d’usage de pharmacovigilance et de surveillance de bon usage du médicament. Cette approche reposera sur la modélisation de trajectoires de soins intra hospitalières adaptées aux besoins spécifiques de la pharmacovigilance. Il s’agira, à partir des données d’un entrepôt hospitalier de caractériser les événements d’intérêt et d’identifier un lien entre l’administration de ces produits de santé et l’apparition des effets indésirables, ou encore de rechercher les cas de mésusage du médicament. L’hypothèse posée dans cette thèse est qu’une approche visuelle interactive serait adaptée pour l’exploitation de ces données biomédicales hétérogènes et multi-domaines dans le champ de la pharmacovigilance. Nous avons développé deux prototypes permettant la visualisation et l’analyse des trajectoires de soins. Le premier prototype est un outil de visualisation du dossier patient sous forme de frise chronologique. La deuxième application est un outil de visualisation et fouille d’une cohorte de séquences d’événements. Ce dernier outil repose sur la mise en œuvre d’algorithme d’analyse de séquences (Smith-Waterman, Apriori, GSP) pour la recherche de similarité ou de motifs d’événements récurrents. Ces interfaces homme-machine ont fait l’objet d’études d’utilisabilité sur des cas d’usage tirées de la pratique réelle qui ont prouvé leur potentiel pour un usage en routine
The massification of health data is an opportunity to answer questions about vigilance and quality of care. The emergence of big data in health is an opportunity to answer questions about vigilance and quality of care. In this thesis work, we will present approaches to exploit the diversity and volume of intra-hospital data for pharmacovigilance use and monitoring the proper use of drugs. This approach will be based on the modelling of intra-hospital care trajectories adapted to the specific needs of pharmacovigilance. Using data from a hospital warehouse, it will be necessary to characterize events of interest and identify a link between the administration of these health products and the occurrence of adverse reactions, or to look for cases of misuse of the drug. The hypothesis put forward in this thesis is that an interactive visual approach would be suitable for the exploitation of these heterogeneous and multi-domain biomedical data in the field of pharmacovigilance. We have developed two prototypes allowing the visualization and analysis of care trajectories. The first prototype is a tool for visualizing the patient file in the form of a timeline. The second application is a tool for visualizing and searching a cohort of event sequences The latter tool is based on the implementation of sequence analysis algorithms (Smith-Waterman, Apriori, GSP) for the search for similarity or patterns of recurring events. These human-machine interfaces have been the subject of usability studies on use cases from actual practice that have proven their potential for routine use

Styles APA, Harvard, Vancouver, ISO, etc.

4

El, Ouazzani Saïd. « Analyse des politiques publiques en matière d’adoption du cloud computing et du big data : une approche comparative des modèles français et marocain ». Thesis, Université Paris-Saclay (ComUE), 2016. http://www.theses.fr/2016SACLE009/document.

Texte intégral

Résumé :

Notre recherche repose sur l’analyse des politiques publiques françaises et marocaines en matière d’adoption des technologies du Cloud Computing et du Big Data. Nous avons analysé ce que les Etats, français et marocain, font — ou ne font pas — pour faire face aux enjeux du numérique. Enjeux pour lesquels l’Etat doit apporter aujourd’hui des réponses politiques et techniques. En effet, l’Etat, dans une acception weberienne, voit sa représentation idéal-typique se modifier en un cyber-Etat qui a pour mission :— Assurer une souveraineté en développant des plateformes Cloud Computing nationales susceptibles de fournir les mêmes services que des plateformes étrangères ;— Développer des outils numériques du type Big Data articulés à des solutions « Cloud Computing » afin d’améliorer des services publics. — Développer et assurer la présence de l’Etat et de ses administrations dans le cyberespace ;— Mettre les outils du type Coud Computing au service de la sécurité nationale pour faire face aux dispositifs de cyber-renseignement étrangers.Dans un contexte de transformations profondes de la société induites par le numérique, l’Etat doit réaffirmer ses droits sur son propre territoire. En effet, le Net offre aux individus des possibilités de sociabilité croissantes à travers une «vie numérique» qui constitue une facette, un prolongement de la vie réelle. Cette vie numérique individuelle évolue en suivant les transformations de la technologie qui potentialisent la sociabilité en ligne et qui s’accompagnent de contraintes liées au traitement des données personnelles et font surgir des débats relatifs à la vie privée.Pour faire face aux risques sécuritaires, l’Etat français comme l’Etat marocain se sont dotés des instruments juridiques et techniques qui s’appuient précisément sur les technologies du Cloud Computing et du Big Data. L’arsenal juridique français s’est vu renforcé dernièrement par l’adoption successive et accélérée — sans débat national — de la Loi de programmation militaire (2014-2019) puis sur les lois anti-terroriste (2014) et sur le Renseignement (2015). Ces différents textes ont agité le débat politique en instillant une inquiétude grandissante relative au déploiement de dispositifs numériques de surveillance. Surveillance, ou cyber-surveillance, qui trouve sa légitimité dans la lutte contre le terrorisme en faisant, à chaque fois, référence à la notion de sécurité nationale, concept au contenu juridiquement flou et dépendant des autorités publiques. Notre travail couvre quatre axes principaux : 1- L’évolution de la conception même de l’Etat qui implique la mise en place de cyber-politiques publiques ainsi que le développement d’un cyber-secteur public, d’un cyber-service publique et également d’une évolution de la fonction publique elle-même.2- Les enjeux sécuritaires à l’ère du Cyber-Etat. Nous avons ainsi pu traiter des notions comme celles de cyber-sécurité, de cyber-souveraineté et de cyber-surveillance au sein du Cyber-Etat.3- Les enjeux liés au traitement des données personnelles au sein du Cyber-Etat et produites par les activités quotidiennes du cyber-citoyen.4- Les fondements techniques du Cyber-Etat : le Cloud Computing et et le Big Data. On pu être ainsi analysées techniquement ces deux technologies.C’est grâce à la collaboration avec des partenaires français et nord-américains : la Mairie de Boulogne Billancourt et les Engaged Public et CausesLabs que nous avons pu montrer, à travers une étude de cas, l’apport concret du Cloud Computing dans le cadre d’une collectivité locale française. Une expérimentation qu’il conviendra de suivre, si ce n’est développer, dans l’avenir
Our research concerns the public policy analysis on how Cloud Computing and Big data are adopted by French and Moroccan States with a comparative approach between the two models. We have covered these main areas: The impact of the digital on the organization of States and Government ; The digital Public Policy in both France and Morocco countries ;The concept related to the data protection, data privacy ; The limits between security, in particular home security, and the civil liberties ; The future and the governance of the Internet ; A use case on how the Cloud could change the daily work of a public administration ; Our research aims to analyze how the public sector could be impacted by the current digital (re) evolution and how the States could be changed by emerging a new model in digital area called Cyber-State. This term is a new concept and is a new representation of the State in the cyberspace. We tried to analyze the digital transformation by looking on how the public authorities treat the new economics, security and social issues and challenges based on the Cloud Computing and Big Data as the key elements on the digital transformation. We tried also to understand how the States – France and Morocco - face the new security challenges and how they fight against the terrorism, in particular, in the cyberspace. We studied the recent adoption of new laws and legislation that aim to regulate the digital activities. We analyzed the limits between security risks and civil liberties in context of terrorism attacks. We analyzed the concepts related to the data privacy and the data protection. Finally, we focused also on the future of the internet and the impacts on the as is internet architecture and the challenges to keep it free and available as is the case today

Styles APA, Harvard, Vancouver, ISO, etc.

5

Belghache, Elhadi. « AMAS4BigData : analyse dynamique de grandes masses de données par systèmes multi-agents adaptatifs ». Thesis, Toulouse 3, 2019. http://www.theses.fr/2019TOU30149.

Texte intégral

Résumé :

L'ère des grandes masses de données (big data) nous a mis face à de nouvelles problématiques de gestion et de traitement des données. Les outils conventionnels actuels d'analyse sont maintenant proches de répondre aux problématiques actuelles et de fournir des résultats satisfaisants avec un coût raisonnable. Mais la vitesse à laquelle les nouvelles données sont générées et la nécessité de gérer les modifications de ces données à la fois dans le contenu et la structure conduisent à de nouvelles problématiques émergentes. La théorie des AMAS (Adaptive Multi-Agent Systems) propose de résoudre par autoorganisation des problèmes complexes pour lesquels aucune solution algorithmique n'est connue. Le comportement coopératif des agents permet au système de s'adapter à un environnement dynamique pour maintenir le système dans un état de fonctionnement adéquat. Les systèmes ambiants présentent un exemple typique de système complexe nécessitant ce genre d'approche, et ont donc été choisis comme domaine d'application pour notre travail. Cette thèse vise à explorer et décrire comment la théorie des Systèmes Multi-Agents Adaptatifs peut être appliquée aux grandes masses de données en fournissant des capacités d'analyse dynamique, en utilisant un nouvel outil analytique qui mesure en temps réel la similarité des évolutions des données. Cette recherche présente des résultats prometteurs et est actuellement appliquée dans l'opération neOCampus, le campus ambiant de l'Université Toulouse III
Understanding data is the main purpose of data science and how to achieve it is one of the challenges of data science, especially when dealing with big data. The big data era brought us new data processing and data management challenges to face. Existing state-of-the-art analytics tools come now close to handle ongoing challenges and provide satisfactory results with reasonable cost. But the speed at which new data is generated and the need to manage changes in data both for content and structure lead to new rising challenges. This is especially true in the context of complex systems with strong dynamics, as in for instance large scale ambient systems. One existing technology that has been shown as particularly relevant for modeling, simulating and solving problems in complex systems are Multi-Agent Systems. The AMAS (Adaptive Multi-Agent Systems) theory proposes to solve complex problems for which there is no known algorithmic solution by self-organization. The cooperative behavior of the agents enables the system to self-adapt to a dynamical environment so as to maintain the system in a functionality adequate state. In this thesis, we apply this theory to Big Data Analytics. In order to find meaning and relevant information drowned in the data flood, while overcoming big data challenges, a novel analytic tool is needed, able to continuously find relations between data, evaluate them and detect their changes and evolution over time. The aim of this thesis is to present the AMAS4BigData analytics framework based on the Adaptive Multi-agent systems technology, which uses a new data similarity metric, the Dynamics Correlation, for dynamic data relations discovery and dynamic display. This framework is currently being applied in the neOCampus operation, the ambient campus of the University Toulouse III - Paul Sabatier

Styles APA, Harvard, Vancouver, ISO, etc.

6

Cantu, Alma. « Proposition de modes de visualisation et d'interaction innovants pour les grandes masses de données et/ou les données structurées complexes en prenant en compte les limitations perceptives des utilisateurs ». Thesis, Ecole nationale supérieure Mines-Télécom Atlantique Bretagne Pays de la Loire, 2018. http://www.theses.fr/2018IMTA0068/document.

Texte intégral

Résumé :

Suite à l’amélioration des outils de capture et de stockage des données, ces dernières années ont vu les quantités de données à traiter croître énormément. De nombreux travaux, allant du traitement automatique à la visualisation d’information, ont alors été mis en place, mais certains domaines sont encore trop spécifiques pour en profiter. C’est le cas du Renseignement d’Origine ÉlectroMagnétique (ROEM). Ce domaine ne fait pas uniquement face à de grandes quantités de données mais doit aussi gérer des données et des usages complexes ainsi que des populations d’utilisateurs ayant de moins en moins d’expérience. Dans cette thèse nous nous sommes intéressés à l’usage de l’existant et des nouvelles technologies appliquées à la visualisation pour proposer des solutions à la combinaison de problématiques comme les données en grandes quantité et les données complexes. Nous commençons par présenter une analyse du domaine du ROEM qui a permis d’extraire les problématiques auxquelles il doit faire face. Nous nous intéressons ensuite aux solutions gérant les combinaisons de telles problématiques. L’existant ne contenant pas directement de telles solutions, nous nous intéressons alors à la description des problématiques de visualisation et proposons une caractérisation de ces problématiques. Cette caractérisation nous permet de décrire les représentations existantes et de mettre en place un outil de recommandation des représentations basé sur la façon dont l’existant résout les problématiques. Enfin nous nous intéressons à identifier de nouvelles métaphores pour compléter l’existant et proposons une représentation immersive permettant de résoudre les problématiques du ROEM. Ces contributions permettent d’analyser et d’utiliser l’existant et approfondissent l’usage des représentations immersives pour la visualisation d’information
As a result of the improvement of data capture and storage, recent years have seen the amount of data to be processed increase dramatically. Many studies, ranging from automatic processing to information visualization, have been performed, but some areas are still too specific to take advantage of. This is the case of ELectromagnetic INTelligence(ELINT). This domain does not only deal with a huge amount of data but also has to handle complex data and usage as well as populations of users with less and less experience. In this thesis we focus on the use of existing and new technologies applied to visualization to propose solutions to the combination of issues such as huge amount and complex data. We begin by presenting an analysis of the ELINT field which made it possible to extract the issues that it must faces. Then, we focus on the visual solutions handling the combinations of such issues but the existing work do not contain directly such solutions. Therefore, we focus on the description of visual issues and propose a characterization of these issues. This characterization allows us to describe the existing representations and to build a recommendation tool based on how the existing work solves the issues. Finally, we focus on identifying new metaphors to complete the existing work and propose an immersive representation to solve the issues of ELINT. These contributions make it possible to analyze and use the existing and deepen the use of immersive representations for the visualization of information

Styles APA, Harvard, Vancouver, ISO, etc.

7

Soler, Maxime. « Réduction et comparaison de structures d'intérêt dans des jeux de données massifs par analyse topologique ». Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS364.

Texte intégral

Résumé :

Dans cette thèse, nous proposons différentes méthodes, basées sur l'analyse topologique de données, afin de répondre aux problématiques modernes concernant l'analyse de données scientifiques. Dans le cas de données scalaires, extraire un savoir pertinent à partir de données statiques, de données qui varient dans le temps, ou données d'ensembles s'avère de plus en plus difficile. Nos approches pour la réduction et l'analyse de telles données reposent sur l'idée de définir des structures d'intérêt dans les champs scalaires à l’aide d’abstractions topologiques. Dans un premier temps, nous proposons un nouvel algorithme de compression avec pertes offrant de fortes garanties topologiques, afin de préserver les structures topologiques tout au long de la compression. Des extensions sont proposées pour offrir un contrôle supplémentaire sur l'erreur géométrique. Nous ciblons ensuite les données variables dans le temps en proposant une nouvelle méthode de suivi des structures topologiques, basée sur des métriques topologiques. Ces métriques sont étendues pour être plus robustes. Nous proposons un nouvel algorithme efficace pour les calculer, obtenant des accélérations de plusieurs ordres de grandeur par rapport aux approches de pointe. Enfin, nous appliquons et adaptons nos méthodes aux données d'ensemble relatives à la simulation de réservoir, dans un cas de digitation visqueuse en milieu poreux. Nous adaptons les métriques topologiques pour quantifier l’écart entre les simulations et la vérité terrain, évaluons les métriques proposées avec le retour d’experts, puis implémentons une méthode de classement in-situ pour évaluer la fidélité des simulations
In this thesis, we propose different methods, based on topological data analysis, in order to address modern problematics concerning the increasing difficulty in the analysis of scientific data. In the case of scalar data defined on geometrical domains, extracting meaningful knowledge from static data, then time-varying data, then ensembles of time-varying data proves increasingly challenging. Our approaches for the reduction and analysis of such data are based on the idea of defining structures of interest in scalar fields as topological features. In a first effort to address data volume growth, we propose a new lossy compression scheme which offers strong topological guarantees, allowing topological features to be preserved throughout compression. The approach is shown to yield high compression factors in practice. Extensions are proposed to offer additional control over the geometrical error. We then target time-varying data by designing a new method for tracking topological features over time, based on topological metrics. We extend the metrics in order to overcome robustness and performance limitations. We propose a new efficient way to compute them, gaining orders of magnitude speedups over state-of-the-art approaches. Finally, we apply and adapt our methods to ensemble data related to reservoir simulation, for modeling viscous fingering in porous media. We show how to capture viscous fingers with topological features, adapt topological metrics for capturing discrepancies between simulation runs and a ground truth, evaluate the proposed metrics with feedback from experts, then implement an in-situ ranking framework for rating the fidelity of simulation runs

Styles APA, Harvard, Vancouver, ISO, etc.

8

Liu, Rutian. « Semantic services for assisting users to augment data in the context of analytic data sources ». Electronic Thesis or Diss., Sorbonne université, 2020. http://www.theses.fr/2020SORUS208.

Texte intégral

Résumé :

La production de collections de données analytiques est une tendance importante et a dépassé le cadre des technologies traditionnelles de production d'information et de données. Les collections de données analytiques sont maintenant directement créées par les utilisateurs (experts, data scientists). Malgré l'apparition des nouvelles technologies "big data" et d'outils de préparation de données agiles, l'intégration et l'enrichissement de schémas analytiques avec des attributs provenant d'autres sources de données reste une tâche difficile qui nécessite une bonne connaissance des schémas de données manipulées. Cette thèse présente une nouvelle solution pour compléter des schémas de données analytiques avec des attributs provenant d'autres sources de données sémantiquement liées : -Nous introduisons les graphes d'attributs comme une nouvelle façon concise et naturelle pour représenter les dépendances fonctionnelles littérales sur des attributs de dimensions hiérarchiques et pour déduire des identificateurs uniques de dimensions et de tables de faits. -Nous donnons des définitions formelles d'augmentation de schémas, de complément de schémas et de requête de fusion dans le contexte des données analytiques. Nous introduisons ensuite plusieurs opérations de réduction pour éviter la multiplication de lignes dans la table de données augmentée. -Nous définissons des critères formels de qualité et des algorithmes pour contrôler l'exactitude, la non-ambiguïté et l'exhaustivité des augmentations et des compléments de schéma générés. -Nous décrivons l'implémentation de notre solution au sein de la plate-forme SAP HANA et fournissons une description détaillée de nos algorithmes. -Nous évaluons la performance de nos algorithmes et analysons l'efficacité de notre approche avec deux scénarios d'application
The production of analytic datasets is a significant big data trend and has gone well beyond the scope of traditional IT-governed dataset development. Analytic datasets are now created by data scientists and data analysts using bigdata frameworks and agile data preparation tools. However, it still remains difficult for a data analyst to start from a dataset at hand and customize it with additional attributes coming from other existing datasets. This thesis presents a new solution for business users and data scientists who want to augment the schema of analytic datasets with attributes coming from other semantically related datasets : We introduce attribute graphs as a novel concise and natural way to represent literal functional dependencies over hierarchical dimension level types to infer unique dimension and fact table identifiers We give formal definitions for schema augmentation, schema complement, and merge query in the context of analytic tables. We then introduce several reduction operations to enforce schema complements when schema augmentation yields a row multiplication in the augmented dataset. We define formal quality criteria and algorithms to control the correctness, non-ambiguity, and completeness of generated schema augmentations and schema complements. We describe the implementation of our solution as a REST service within the SAP HANA platform and provide a detailed description of our algorithms. We evaluate the performance of our algorithms to compute unique identifiers in dimension and fact tables and analyze the effectiveness of our REST service using two application scenarios

Styles APA, Harvard, Vancouver, ISO, etc.

9

Baudin, Alexis. « Cliques statiques et temporelles : algorithmes d'énumération et de détection de communautés ». Electronic Thesis or Diss., Sorbonne université, 2023. http://www.theses.fr/2023SORUS609.

Texte intégral

Résumé :

Les graphes sont des objets mathématiques qui permettent de modéliser des interactions ou connexions entre entités de types variés. Un graphe peut représenter par exemple un réseau social qui connecte les utilisateurs entre eux, un réseau de transport comme le métro où les stations sont connectées entre elles, ou encore un cerveau avec les milliards de neurones en interaction qu'il contient. Depuis quelques années, la forte dynamicité de ces structures a été mise en évidence, ainsi que l'importance de prendre en compte l'évolution temporelle de ces réseaux pour en comprendre le fonctionnement. Alors que de nombreux concepts et algorithmes ont été développés sur les graphes pour décrire des structures de réseaux statiques, il reste encore beaucoup à faire pour formaliser et développer des algorithmes pertinents pour décrire la dynamique des réseaux réels. Cette thèse vise à mieux comprendre comment sont structurés les graphes massifs qui sont issus du monde réel et à développer des outils pour étendre notre compréhension à des structures évoluant dans le temps. Il a été montré que ces graphes ont des propriétés particulières, qui les distinguent des graphes théoriques ou tirés aléatoirement. Exploiter ces propriétés permet alors de concevoir des algorithmes pour résoudre certains problèmes difficiles beaucoup plus rapidement sur ces instances que dans le cas général. La thèse se focalise sur les cliques, qui sont des groupes d'éléments tous connectés entre eux. Nous étudions l'énumération des cliques dans les graphes statiques et temporels et la détection de communautés qu'elles permettent de mettre en œuvre. Les communautés d'un graphe sont des ensembles de sommets tels qu'au sein d'une communauté, les sommets interagissent fortement entre eux, et peu avec le reste du graphe. Leur étude aide à comprendre les propriétés structurelles et fonctionnelles des réseaux. Nous évaluons nos algorithmes sur des graphes massifs issus du monde réel, ouvrant ainsi de nouvelles perspectives pour comprendre les interactions au sein de ces réseaux. Nous travaillons d'abord sur des graphes, sans tenir compte de la composante temporelle des interactions. Nous commençons par utiliser la méthode de détection de communautés par percolation de cliques, en mettant en évidence ses limites en mémoire, qui empêchent de l'appliquer à des graphes trop massifs. En introduisant un algorithme de résolution approchée du problème, nous dépassons cette limite. Puis, nous améliorons l'énumération des cliques maximales dans le cas des graphes particuliers dits bipartis. Ils correspondent à des interactions entre des groupes de sommets de type différent, par exemple des liens entre des personnes et du contenu consulté, la participation à des événements, etc. Ensuite, nous considérons des interactions qui ont lieu au cours du temps, grâce au formalisme des flots de liens. Nous cherchons à étendre les algorithmes présentés en première partie, pour exploiter leurs avantages dans l'étude des interactions temporelles. Nous fournissons un nouvel algorithme d'énumération des cliques maximales dans les flots de liens, beaucoup plus efficace que l'état de l'art sur des jeux de données massifs. Enfin, nous nous intéressons aux communautés dans les flots de liens par percolation de cliques, en développant une extension de la méthode utilisée sur les graphes. Les résultats montrent une amélioration significative par rapport à l'état de l'art, et nous analysons les communautés obtenues pour fournir des informations pertinentes sur l'organisation des interactions temporelles dans les flots de liens. Mon travail de thèse a permis d’apporter de nouvelles réflexions sur l’étude des réseaux massifs issus du monde réel. Cela montre l'importance d'explorer le potentiel des graphes dans un contexte réel, et pourrait contribuer à l'émergence de solutions novatrices pour les défis complexes de notre société moderne
Graphs are mathematical objects used to model interactions or connections between entities of various types. A graph can represent, for example, a social network that connects users to each other, a transport network like the metro where stations are connected to each other, or a brain with the billions of interacting neurons it contains. In recent years, the dynamic nature of these structures has been highlighted, as well as the importance of taking into account the temporal evolution of these networks to understand their functioning. While many concepts and algorithms have been developed on graphs to describe static network structures, much remains to be done to formalize and develop relevant algorithms to describe the dynamics of real networks. This thesis aims to better understand how massive graphs are structured in the real world, and to develop tools to extend our understanding to structures that evolve over time. It has been shown that these graphs have particular properties, which distinguish them from theoretical or randomly drawn graphs. Exploiting these properties then enables the design of algorithms to solve certain difficult problems much more quickly on these instances than in the general case. My PhD thesis focuses on cliques, which are groups of elements that are all connected to each other. We study the enumeration of cliques in static and temporal graphs and the detection of communities they enable. The communities of a graph are sets of vertices such that, within a community, the vertices interact strongly with each other, and little with the rest of the graph. Their study helps to understand the structural and functional properties of networks. We are evaluating our algorithms on massive real-world graphs, opening up new perspectives for understanding interactions within these networks. We first work on graphs, without taking into account the temporal component of interactions. We begin by using the clique percolation method of community detection, highlighting its limitations in memory, which prevent it from being applied to graphs that are too massive. By introducing an approximate problem-solving algorithm, we overcome this limitation. Next, we improve the enumeration of maximal cliques in the case of bipartite graphs. These correspond to interactions between groups of vertices of different types, e.g. links between people and viewed content, participation in events, etc. Next, we consider interactions that take place over time, using the link stream formalism. We seek to extend the algorithms presented in the first part, to exploit their advantages in the study of temporal interactions. We provide a new algorithm for enumerating maximal cliques in link streams, which is much more efficient than the state-of-the-art on massive datasets. Finally, we focus on communities in link streams by clique percolation, developing an extension of the method used on graphs. The results show a significant improvement over the state of the art, and we analyze the communities obtained to provide relevant information on the organization of temporal interactions in link streams. My PhD work has provided new insights into the study of massive real-world networks. This shows the importance of exploring the potential of graphs in a real-world context, and could contribute to the emergence of innovative solutions for the complex challenges of our modern society

Styles APA, Harvard, Vancouver, ISO, etc.

10

Larroche, Corentin. « Network-wide intrusion detection through statistical analysis of event logs : an interaction-centric approach ». Electronic Thesis or Diss., Institut polytechnique de Paris, 2021. http://www.theses.fr/2021IPPAT041.

Texte intégral

Résumé :

Les journaux d’événements sont des données structurées décrivant toutes sortes d’activités au sein d’un réseau informatique. En particulier, les comportements malveillants adoptés par d’éventuels attaquants sont susceptibles de laisser une trace dans ces journaux, rendant ces derniers utiles pour la supervision et la détection d’intrusion. Cependant, le volume considérable des journaux d’événements générés en production en rend l’analyse difficile. Cette problématique a suscité de nombreux travaux de recherche sur l’analyse statistique de journaux d’événements pour la détection d’intrusion.Cette thèse étudie certaines des principales difficultés rendant actuellement peu aisé le déploiementde telles approches. Tout d’abord, il n’est pas évident de construire une représentation abstraite des journaux d’événements : ces données sont complexes et peuvent être abordées sous de multiples perspectives, et il est donc difficile d’en capturer tout le sens dans un objet mathématique simple. Nous choisissons une approche centrée sur la notion d’interaction, motivée par l’idée que de nombreux événements malveillants peuvent être vus comme des interactions inattendues entre des entités (utilisateurs, hôtes, etc.). Tout en préservant les informations les plus cruciales, cette représentation rend cependant la modélisation statistique ardue. Nous proposons donc un modèle ad hoc ainsi que la procédure d’inférence associée, en nous inspirant de concepts tels que les modèles à espace d’états, le filtrage bayésien et l’apprentissage multitâche.Une autre caractéristique des journaux d’événements est qu’ils contiennent une large majorité d’événements bénins, dont certains sont incongrus bien que légitimes. Il n’est donc pas suffisant de détecter des événements anormaux, et nous étudions également la détection de clusters d’événementspotentiellement malveillants. Nous nous appuyons pour cela sur la notion de graphe d’événements afinde redéfinir les scores d’anormalité associés aux événements comme un signal structuré en graphe. Cela permet l’usage d’outils de traitement du signal afin de débruiter les scores d’anormalité produits par un modèle statistique. Enfin, nous proposons des méthodes efficaces pour la détection de cluster anormal dans un graphe de grande taille dont les sommets portent des observations scalaires
Event logs are structured records of all kinds of activities taking place in a computer network. In particular, malicious actions taken by intruders are likely to leave a trace in the logs, making this data source useful for security monitoring and intrusion detection. However, the considerable volume of real-world event logs makes them difficult to analyze. This limitation has motivated a fair amount of research on malicious behavior detection through statistical methods. This thesis addresses some of the challenges that currently hinder the use of this approach in realistic settings. First of all, building an abstract representation of the data is nontrivial: event logs are complex and multi-faceted, making it difficult to capture all the relevant information they contain in a simple mathematical object. We take an interaction-centric approach to event log representation, motivated by the intuition that malicious events can often be seen as unexpected interactions between entities (users, hosts, etc.). While this representation preserves critical information, it also makes statistical modelling difficult. We thus build an ad hoc model and design a suitable inference procedure, using elements of latent space modelling, Bayesian filtering and multi-task learning.Another key challenge in event log analysis is that benign events account for a vast majority of the data, including a lot of unusual albeit legitimate events. Detecting individually anomalous events is thus not enough, and we also deal with spotting clusters of potentially malicious events. To that end, we leverage the concept of event graph and recast event-wise anomaly scores as a noisy graph-structured signal. This allows us to use graph signal processing tools to improve anomaly scores provided by statistical models.Finally, we propose scalable methods for anomalous cluster detection in node-valued signals defined over large graphs

Styles APA, Harvard, Vancouver, ISO, etc.

11

Scholler, Rémy. « Analyse de données de signalisation mobile pour l’étude de la mobilité respectueuse de la vie privée : Application au secteur du transport routier de marchandises ». Electronic Thesis or Diss., Bourgogne Franche-Comté, 2024. http://www.theses.fr/2024UBFCD001.

Texte intégral

Résumé :

Les opérateurs de réseau mobile disposent d'une importante source de données issue des communications de l'ensemble des objets connectés (smartphones mais pas uniquement) avec le réseau. Ces données de signalisation constituent une source massive de données de localisation et sont régulièrement utilisées pour l'étude de la mobilité (humaine ou non). Cependant, les usages potentiels se heurtent à deux écueils majeurs: leur faible précision spatiotemporelle et leur caractère éminemment sensible au regard de la protection de la vie privée.Dans un premier temps, les travaux de cette thèse améliorent la connaissance de l'état de mobilité (immobile ou en mouvement), de la vitesse, de la direction de déplacement des objets connectés et de la route qu'ils empruntent sur une infrastructure de transport (routier ou ferré par exemple).Dans un second temps, nous montrons comment garantir la confidentialité de statistiques de mobilité produites en flux continu. L'utilisation de données de signalisation, qu'elle soient relatives à des utilisateurs ou à des objets connectés divers, est encadrée légalement. Pour l'étude de la mobilité, les opérateurs ont donc tendance à publier des statistiques anonymisées (données agrégées). Plus précisément, on cherche à calculer des statistiques de mobilité complexes et anonymisées ``à la volée'' à l'aide de méthodes de confidentialité différentielle et de structures de données probabilistes (telles que des filtres de Bloom).Enfin, dans un troisième temps, nous illustrons le potentiel des données de signalisation et des approches proposées dans ce manuscrit pour le calcul en temps quasi-réel de statistiques anonymes sur le transport routier de marchandises. Cependant, il ne s'agit ici que d'un exemple de ce qui pourrait s'appliquer à d'autres sujets d'analyses de comportements de populations et d'activités avec des enjeux de politiques publiques et économiques importants
Mobile network operators have a significant data source derived from communications of all connected objects (not just smartphones) with the network. These signaling data is a massive source of location data and are regularly used for the mobility analysis. However, potential uses face two major challenges: their low spatiotemporal precision and their highly sensitive nature concerning privacy.In the first phase, the thesis work enhances the understanding of the mobility state (stationary or in motion), speed, direction of movement of connected objects, and the route they take on a transportation infrastructure (e.g., road or rail).In the second phase, we demonstrate how to ensure the confidentiality of continuously produced mobility statistics. The use of signaling data, whether related to users or various connected objects, is legally regulated. For the study of mobility, operators tend to publish anonymized statistics (aggregated data). Specifically, the aim is to calculate complex and anonymized mobility statistics "on the fly" using differential privacy methods and probabilistic data structures (such as Bloom filters).Finally, in the third phase, we illustrate the potential of signaling data and the proposed approaches in this manuscript for quasi-real-time calculation of anonymous statistics on road freight transport. However, this is just an example of what could apply to other subjects analyzing population behaviors and activities with significant public and economic policy implications

Styles APA, Harvard, Vancouver, ISO, etc.

12

Aussel, Nicolas. « Real-time anomaly detection with in-flight data : streaming anomaly detection with heterogeneous communicating agents ». Electronic Thesis or Diss., Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLL007.

Texte intégral

Résumé :

Avec l'augmentation du nombre de capteurs et d'actuateurs dans les avions et le développement de liaisons de données fiables entre les avions et le sol, il est devenu possible d'améliorer la sécurité et la fiabilité des systèmes à bord en appliquant des techniques d'analyse en temps réel. Cependant, étant donné la disponibilité limité des ressources de calcul embarquées et le coût élevé des liaisons de données, les solutions architecturelles actuelles ne peuvent pas exploiter pleinement toutes les ressources disponibles, limitant leur précision.Notre but est de proposer un algorithme distribué de prédiction de panne qui pourrait être exécuté à la fois à bord de l'avion et dans une station au sol tout en respectant un budget de communication. Dans cette approche, la station au sol disposerait de ressources de calcul rapides et de données historiques et l'avion disposerait de ressources de calcul limitées et des données de vol actuelles.Dans cette thèse, nous étudierons les spécificités des données aéronautiques et les méthodes déjà existantes pour produire des prédictions de pannes à partir de ces dernières et nous proposerons une solution au problème posé. Notre contribution sera détaillé en trois parties.Premièrement, nous étudierons le problème de prédiction d'événements rares créé par la haute fiabilité des systèmes aéronautiques. Beaucoup de méthodes d'apprentissage en classification reposent sur des jeux de données équilibrés. Plusieurs approches existent pour corriger le déséquilibre d'un jeu de donnée et nous étudierons leur efficacité sur des jeux de données extrêmement déséquilibrés.Deuxièmement, nous étudierons le problème d'analyse textuelle de journaux car de nombreux systèmes aéronautiques ne produisent pas d'étiquettes ou de valeurs numériques faciles à interpréter mais des messages de journaux textuels. Nous étudierons les méthodes existantes basées sur une approche statistique et sur l'apprentissage profond pour convertir des messages de journaux textuels en une forme utilisable en entrée d'algorithmes d'apprentissage pour classification. Nous proposerons notre propre méthode basée sur le traitement du langage naturel et montrerons comment ses performances dépassent celles des autres méthodes sur un jeu de donnée public standard.Enfin, nous offrirons une solution au problème posé en proposant un nouvel algorithme d'apprentissage distribué s'appuyant sur deux paradigmes d'apprentissage existant, l'apprentissage actif et l'apprentissage fédéré. Nous détaillerons notre algorithme, son implémentation et fournirons une comparaison de ses performances avec les méthodes existantes
With the rise of the number of sensors and actuators in an aircraft and the development of reliable data links from the aircraft to the ground, it becomes possible to improve aircraft security and maintainability by applying real-time analysis techniques. However, given the limited availability of on-board computing and the high cost of the data links, current architectural solutions cannot fully leverage all the available resources limiting their accuracy.Our goal is to provide a distributed algorithm for failure prediction that could be executed both on-board of the aircraft and on a ground station and that would produce on-board failure predictions in near real-time under a communication budget. In this approach, the ground station would hold fast computation resources and historical data and the aircraft would hold limited computational resources and current flight's data.In this thesis, we will study the specificities of aeronautical data and what methods already exist to produce failure prediction from them and propose a solution to the problem stated. Our contribution will be detailed in three main parts.First, we will study the problem of rare event prediction created by the high reliability of aeronautical systems. Many learning methods for classifiers rely on balanced datasets. Several approaches exist to correct a dataset imbalance and we will study their efficiency on extremely imbalanced datasets.Second, we study the problem of log parsing as many aeronautical systems do not produce easy to classify labels or numerical values but log messages in full text. We will study existing methods based on a statistical approach and on Deep Learning to convert full text log messages into a form usable as an input by learning algorithms for classifiers. We will then propose our own method based on Natural Language Processing and show how it outperforms the other approaches on a public benchmark.Last, we offer a solution to the stated problem by proposing a new distributed learning algorithm that relies on two existing learning paradigms Active Learning and Federated Learning. We detail our algorithm, its implementation and provide a comparison of its performance with existing methods

Styles APA, Harvard, Vancouver, ISO, etc.

13

Ben, Abdallah Emna. « Étude de la dynamique des réseaux biologiques : apprentissage des modèles, intégration des données temporelles et analyse formelle des propriétés dynamiques ». Thesis, Ecole centrale de Nantes, 2017. http://www.theses.fr/2017ECDN0041.

Texte intégral

Résumé :

Au cours des dernières décennies, l’émergence d’une large gamme de nouvelles technologies a permis de produire une quantité massive de données biologiques (génomique, protéomique...). Ainsi, une grande quantité de données de séries temporelles est maintenant élaborée tous les jours. Nouvellement produites, ces données peuvent nous fournir des nouvelles interprétations sur le comportement des Systèmes Biologiques (SB). Cela conduit alors à des développements considérables dans le domaine de la bioinformatique qui peuvent tirer profit de ces données. Ceci justifie notre motivation pour le développement de méthodes efficaces qui exploitent ces données pour l’apprentissage des Réseaux de Régulation Biologique (RRB) modélisant les SB. Nous introduisons alors, dans cette thèse, une nouvelle approche qui infère des RRB à partir des données de séries temporelles. Les RRB appris sont présentés avec un nouveau formalisme, introduit dans cette thèse, appelé " réseau d’automates avec le temps" (T-AN). Ce dernier assure le raffinement de la dynamique des RRB, modélisés avec le formalisme des réseaux d’automates (AN), grâce à l’intégration d’un paramètre temporel (délai) dans les transitions locales des automates. Cet enrichissement permet de paramétrer les transitions entre les états locaux des automates et aussi entre les états globaux du réseau. À posteriori de l’apprentissage des RRB, et dans le but d’avoir une meilleure compréhension de la nature du fonctionnement des SB, nous procédons à l’analyse formelle de la dynamique des RRB. Nous introduisons alors des méthodes logiques originales (développées en Answer Set Programming) pour déchiffrer l’énorme complexité de la dynamique des SB. Les propriétés dynamiques étudiées sont : l’identification des attracteurs (ensemble d’états globaux terminaux dont le réseau ne peut plus s’échapper) et la vérification de la propriété d’atteignabilité d’un objectif (un ensemble de composants) à partir d’un état global initial du réseau
Over the last few decades, the emergence of a wide range of new technologies has produced a massive amount of biological data (genomics, proteomics...). Thus, a very large amount of time series data is now produced every day. The newly produced data can give us new ideas about the behavior of biological systems. This leads to considerable developments in the field of bioinformatics that could benefit from these enormous data. This justifies the motivation to develop efficient methods for learning Biological Regulatory Networks (BRN) modeling a biological system from its time series data. Then, in order to understand the nature of system functions, we study, in this thesis, the dynamics of their BRN models. Indeed, we focus on developing original and scalable logical methods (implemented in Answer Set Programming) to deciphering the emerging complexity of dynamics of biological systems. The main contributions of this thesis are enumerated in the following. (i) Refining the dynamics of the BRN, modeling with the automata Network (AN) formalism, by integrating a temporal parameter (delay) in the local transitions of the automata. We call the extended formalism a Timed Automata Network (T-AN). This integration allows the parametrization of the transitions between each automata local states as well as between the network global states. (ii) Learning BRNs modeling biological systems from their time series data. (iii) Model checking of discrete dynamical properties of BRN (modeling with AN and T-AN) by dynamical formal analysis : attractors identification (minimal trap domains from which the network cannot escape) and reachability verification of an objective from a network global initial state

Styles APA, Harvard, Vancouver, ISO, etc.

14

Hannou, Fatma-Zohra. « A Pattern Model and Algebra for Representing and Querying Relative Information Completenes ». Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS110.

Texte intégral

Résumé :

L'incomplétude des données est un problème majeur de qualité qui s'amplifie par la quantité croissante de données collectées par des sources peu fiables. L'évaluation de l'exhaustivité des données est cruciale pour déterminer leur qualité mais aussi la validité des réponses de requêtes qui en découlent. Dans le contexte de l'information relative, la complétude d'une base de données est évaluée en comparaison à une base référence. Nous apportons deux principales contributions à ce domaine: un modèle de motifs produisant des couvertures minimales résumant l’étendue des partitions de données complètes et manquantes, ainsi qu'une algèbre de motifs permettant de dériver des couvertures minimales pour l'analyse de la validité des réponses des requêtes. Ce modèle de motifs offre une opportunité intéressante pour réaliser de nombreuses applications, en particulier celles visant à améliorer la qualité des tâches affectées par les données manquantes. Nous adoptons une technique de réécriture de requêtes à base de règles pour imputer les réponses des requêtes d'agrégation manquantes ou présentant des valeurs incorrectes. Nous étudions également la généralisation de notre modèle de motifs pour effectuer la synthèse des fragments de données. Les résumés peuvent être interrogés pour analyser et comparer les fragments de données de manière synthétique et flexible
Information incompleteness is a major data quality issue which is amplified by the increasing amount of data collected from unreliable sources. Assessing the completeness of data is crucial for determining the quality of the data and the validity of query answers.In this work, we tackle the issue of extracting and reasoning about complete and missing information under relative information completeness setting. Under this setting, the completeness of a dataset is assessed with respect to a complete reference dataset. We advance the field by proposing two contributions: a pattern model for providing minimal covers summarizing the extent of complete and missing data partitions and a pattern algebra for deriving minimal pattern covers for query answers to analyze their validity.The completeness pattern framework presents an intriguing opportunity to achieve many applications, particularly those aiming at improving the quality of tasks impacted by missing data. Data imputation is a well-known technique for repairing missing data values but can incur a prohibitive cost when applied to large data sets. Query-driven imputation offers a better alternative as it allows for We adopt a rule-based query rewriting technique for imputing the answers of aggregation queries that are missing or suffer from incorrectness due to data incompleteness. We present a novel query rewriting mechanism that is guided by the completeness pattern model and algebra.We also investigate the generalization of our pattern model for summarizing any data fragments. Summaries can be queried to analyze and compare data fragments in a synthetic and flexible way

Styles APA, Harvard, Vancouver, ISO, etc.

15

Debaere, Steven. « Proactive inferior member participation management in innovation communities ». Thesis, Lille, 2018. http://www.theses.fr/2018LIL1A012.

Texte intégral

Résumé :

Aujourd’hui, des entreprises reconnaissent de plus en plus les avantages des communautés d'innovation en ligne (IC) pour injecter des connaissances externes dans des procédures d'innovation. Malgré les avantages des ICs, garantir la viabilité pose deux défis importants. Premièrement, les ICs sont des environnements de données volumineux qui peuvent rapidement submerger les gestionnaires de communauté lorsque les membres communiquent par messages, créant ainsi des données substantielles (volumiques), rapidement extensibles (vélocité) et non structurées pouvant contenir des combinaisons linguistiques, vidéo, image et audio (variété). Deuxièmement, la plupart des communautés en ligne ne parviennent pas à générer de bons résultats car elles sont souvent incapables de tirer de la valeur des membres individuels de l'IC en raison de la participation inférieure des membres. Cette thèse doctorale s'appuie sur des stratégies de gestion de la relation client pour relever ces défis et ajoute de la valeur en introduisant un cadre proactif de gestion de la participation inférieure des membres pour réduire de manière proactive la participation inférieure des membres tout en gérant efficacement l'environnement IC. Cela prouve que la participation inférieure des membres peut être identifiée de manière proactive en analysant le style d'écriture des acteurs de la communauté. Il montre que les dépendances entre les comportements de participation des membres peuvent être exploitées pour améliorer les performances de prédiction. À l'aide d'une expérience sur le terrain, il démontre qu'une campagne d'email ciblée proactive permet de réduire efficacement la participation inférieure des membres
Nowadays, companies increasingly recognize the benefits of innovation communities (ICs) to inject external consumer knowledge into innovation processes. Despite the advantages of ICs, guaranteeing the viability poses two important challenges. First, ICs are big data environments that can quickly overwhelm community managers as members communicate through posts, thereby creating substantial (volume), rapidly expanding (velocity), and unstructured data that might encompass combinations of linguistic, video, image, and audio cues (variety). Second, most online communities fail to generate successful outcomes as they are often unable to derive value from individual IC members owing to members’ inferior participation. This doctoral dissertation leverages customer relationship management strategies to tackle these challenges and adds value by introducing a proactive inferior member participation management framework for community managers to proactively reduce inferior member participation, while effectively dealing with the data-rich IC environment. It proves that inferior member participation can be identified proactively by analyzing community actors’ writing style. It shows that dependencies between members’ participation behaviour can be exploited to improve prediction performance. Using a field experiment, it demonstrates that a proactive targeted email campaign allows to effectively reduce inferior member participation

Styles APA, Harvard, Vancouver, ISO, etc.

16

Chen, Longbiao. « Big data-driven optimization in transportation and communication networks ». Electronic Thesis or Diss., Sorbonne université, 2018. https://accesdistant.sorbonne-universite.fr/login?url=https://theses-intra.sorbonne-universite.fr/2018SORUS393.pdf.

Texte intégral

Résumé :

L'évolution des structures métropolitaines ont créé divers types de réseaux urbains. Parmi lesquels deux types de réseaux sont d'une grande importance pour notre vie quotidienne : les réseaux de transport correspondant à la mobilité humaine dans l'espace physique et les réseaux de communications soutenant les interactions humaines dans l'espace numérique. L'expansion rapide dans la portée et l'échelle de ces deux réseaux soulève des questions de recherche fondamentales sur la manière d’optimiser ces réseaux. Certains des objectifs principaux comprennent le provisioning de ressources à la demande, la détection des anomalies, l'efficacité énergétique et la qualité de service. Malgré les différences dans la conception et les technologies de mise en œuvre, les réseaux de transport et les réseaux de communications partagent des structures fondamentales communes, et présentent des caractéristiques spatio-temporelles dynamiques similaires. En conséquence, ils existent les défis communs dans l’optimisation de ces deux réseaux : le profil du trafic, la prédiction de la mobilité, l’agrégation de trafic, le clustering des nœuds et l'allocation de ressources. Pour atteindre les objectifs d'optimisation et relever les défis de la recherche, différents modèles analytiques, algorithmes d'optimisation et systèmes de simulation ont été proposés et largement étudiés à travers plusieurs disciplines. Ces modèles analytiques sont souvent validés par la simulation et pourraient conduire à des résultats sous-optimaux dans le déploiement. Avec l'émergence de l’Internet, un volume massif de données de réseau urbain peuvent être collecté. Les progrès récents dans les techniques d'analyse de données Big Data ont fourni aux chercheurs de grands potentiels pour comprendre ces données. Motivé par cette tendance, l’objectif de cette thèse est d'explorer un nouveau paradigme d'optimisation des réseaux basé sur les données. Nous abordons les défis scientifiques mentionnés ci-dessus en appliquant des méthodes d'analyse de données pour l'optimisation des réseaux. Nous proposons deux algorithmes data-driven pour le clustering de trafic réseau et la prédiction de la mobilité d’utilisateur, et appliquer ces algorithmes à l'optimisation dans les réseaux de transport et de communications. Premièrement, en analysant les jeux de données de trafic à grande échelle des deux réseaux, nous proposons un algorithme de clustering à base de graphe pour mieux comprendre les similitudes de la circulation et les variations de trafic entre différents zones et heures. Sur cette base, nous appliquons l'algorithme d’agrégation (clustering) de trafic aux deux applications d'optimisation de réseau suivants : 1. Un clustering de trafic dynamique pour la planification à la demande des réseaux de vélos partagés. Dans cette application, nous regroupons dynamiquement les stations de vélos avec des motifs de trafic similaires pour obtenir des demandes de trafic groupées (en cluster) plus stables et plus prédictible, de manière à pouvoir prévoir les stations surchargés dans le réseau et à permettre une planification dynamique de réseau en fonction de la demande. Les résultats d'évaluation en utilisant les données réelles de New York City et Washington, D.C. montrent que notre solution prévoit précisément des clusters surchargés [...]
The evolution of metropolitan structures and the development of urban systems have created various kinds of urban networks, among which two types of networks are of great importance for our daily life, the transportation networks corresponding to human mobility in the physical space, and the communication networks supporting human interactions in the digital space. The rapid expansion in the scope and scale of these two networks raises a series of fundamental research questions on how to optimize these networks for their users. Some of the major objectives include demand responsiveness, anomaly awareness, cost effectiveness, energy efficiency, and service quality. Despite the distinct design intentions and implementation technologies, both the transportation and communication networks share common fundamental structures, and exhibit similar spatio-temporal dynamics. Correspondingly, there exists an array of key challenges that are common in the optimization in both networks, including network profiling, mobility prediction, traffic clustering, and resource allocation. To achieve the optimization objectives and address the research challenges, various analytical models, optimization algorithms, and simulation systems have been proposed and extensively studied across multiple disciplines. Generally, these simulation-based models are not evaluated in real-world networks, which may lead to sub-optimal results in deployment. With the emergence of ubiquitous sensing, communication and computing diagrams, a massive number of urban network data can be collected. Recent advances in big data analytics techniques have provided researchers great potentials to understand these data. Motivated by this trend, we aim to explore a new big data-driven network optimization paradigm, in which we address the above-mentioned research challenges by applying state-of-the-art data analytics methods to achieve network optimization goals. Following this research direction, in this dissertation, we propose two data-driven algorithms for network traffic clustering and user mobility prediction, and apply these algorithms to real-world optimization tasks in the transportation and communication networks. First, by analyzing large-scale traffic datasets from both networks, we propose a graph-based traffic clustering algorithm to better understand the traffic similarities and variations across different area and time. Upon this basis, we apply the traffic clustering algorithm to the following two network optimization applications. 1. Dynamic traffic clustering for demand-responsive bikeshare networks. In this application, we dynamically cluster bike stations with similar usage patterns to obtain stable and predictable cluster-wise bike traffic demands, so as to foresee over-demand stations in the network and enable demand-responsive bike scheduling. Evaluation results using real-world data from New York City and Washington, D.C. show that our framework accurately foresees over-demand clusters (e.g. with 0.882 precision and 0.938 recall in NYC), and outperforms other baseline methods significantly. 2. Complementary traffic clustering for cost-effective C-RAN. In this application, we cluster RRHs with complementary traffic patterns (e.g., an RRH in residential area and an RRH in business district) to reuse the total capacity of the BBUs, so as to reduce the overall deployment cost. We evaluate our framework with real-world network data collected from the city of Milan, Italy and the province of Trentino, Italy. Results show that our method effectively reduces the overall deployment cost to 48.4\% and 51.7\% of the traditional RAN architecture in the two datasets, respectively, and consistently outperforms other baseline methods. Second, by analyzing large-scale user mobility datasets from both networks, we propose [...]

Styles APA, Harvard, Vancouver, ISO, etc.

17

Aussel, Nicolas. « Real-time anomaly detection with in-flight data : streaming anomaly detection with heterogeneous communicating agents ». Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLL007/document.

Texte intégral

Résumé :

Avec l'augmentation du nombre de capteurs et d'actuateurs dans les avions et le développement de liaisons de données fiables entre les avions et le sol, il est devenu possible d'améliorer la sécurité et la fiabilité des systèmes à bord en appliquant des techniques d'analyse en temps réel. Cependant, étant donné la disponibilité limité des ressources de calcul embarquées et le coût élevé des liaisons de données, les solutions architecturelles actuelles ne peuvent pas exploiter pleinement toutes les ressources disponibles, limitant leur précision.Notre but est de proposer un algorithme distribué de prédiction de panne qui pourrait être exécuté à la fois à bord de l'avion et dans une station au sol tout en respectant un budget de communication. Dans cette approche, la station au sol disposerait de ressources de calcul rapides et de données historiques et l'avion disposerait de ressources de calcul limitées et des données de vol actuelles.Dans cette thèse, nous étudierons les spécificités des données aéronautiques et les méthodes déjà existantes pour produire des prédictions de pannes à partir de ces dernières et nous proposerons une solution au problème posé. Notre contribution sera détaillé en trois parties.Premièrement, nous étudierons le problème de prédiction d'événements rares créé par la haute fiabilité des systèmes aéronautiques. Beaucoup de méthodes d'apprentissage en classification reposent sur des jeux de données équilibrés. Plusieurs approches existent pour corriger le déséquilibre d'un jeu de donnée et nous étudierons leur efficacité sur des jeux de données extrêmement déséquilibrés.Deuxièmement, nous étudierons le problème d'analyse textuelle de journaux car de nombreux systèmes aéronautiques ne produisent pas d'étiquettes ou de valeurs numériques faciles à interpréter mais des messages de journaux textuels. Nous étudierons les méthodes existantes basées sur une approche statistique et sur l'apprentissage profond pour convertir des messages de journaux textuels en une forme utilisable en entrée d'algorithmes d'apprentissage pour classification. Nous proposerons notre propre méthode basée sur le traitement du langage naturel et montrerons comment ses performances dépassent celles des autres méthodes sur un jeu de donnée public standard.Enfin, nous offrirons une solution au problème posé en proposant un nouvel algorithme d'apprentissage distribué s'appuyant sur deux paradigmes d'apprentissage existant, l'apprentissage actif et l'apprentissage fédéré. Nous détaillerons notre algorithme, son implémentation et fournirons une comparaison de ses performances avec les méthodes existantes
With the rise of the number of sensors and actuators in an aircraft and the development of reliable data links from the aircraft to the ground, it becomes possible to improve aircraft security and maintainability by applying real-time analysis techniques. However, given the limited availability of on-board computing and the high cost of the data links, current architectural solutions cannot fully leverage all the available resources limiting their accuracy.Our goal is to provide a distributed algorithm for failure prediction that could be executed both on-board of the aircraft and on a ground station and that would produce on-board failure predictions in near real-time under a communication budget. In this approach, the ground station would hold fast computation resources and historical data and the aircraft would hold limited computational resources and current flight's data.In this thesis, we will study the specificities of aeronautical data and what methods already exist to produce failure prediction from them and propose a solution to the problem stated. Our contribution will be detailed in three main parts.First, we will study the problem of rare event prediction created by the high reliability of aeronautical systems. Many learning methods for classifiers rely on balanced datasets. Several approaches exist to correct a dataset imbalance and we will study their efficiency on extremely imbalanced datasets.Second, we study the problem of log parsing as many aeronautical systems do not produce easy to classify labels or numerical values but log messages in full text. We will study existing methods based on a statistical approach and on Deep Learning to convert full text log messages into a form usable as an input by learning algorithms for classifiers. We will then propose our own method based on Natural Language Processing and show how it outperforms the other approaches on a public benchmark.Last, we offer a solution to the stated problem by proposing a new distributed learning algorithm that relies on two existing learning paradigms Active Learning and Federated Learning. We detail our algorithm, its implementation and provide a comparison of its performance with existing methods

Styles APA, Harvard, Vancouver, ISO, etc.

18

Caigny, Arno de. « Innovation in customer scoring for the financial services industry ». Thesis, Lille, 2019. http://www.theses.fr/2019LIL1A011.

Texte intégral

Résumé :

Cette thèse améliore la notation des clients. L’évaluation des clients est importante pour les entreprises dans leurs processus de prise de décision parce qu'elle aide à résoudre des problèmes de gestion clés tels que le choix des clients à cibler pour une campagne de marketing ou l'analyse des clients qui sont susceptibles de quitter l'entreprise. La recherche effectuée dans le cadre de cette thèse apporte plusieurs contributions dans trois domaines de la littérature sur la notation des clients. Premièrement, de nouvelles sources de données sont utilisées pour évaluer les clients. Deuxièmement, la méthodologie pour passer des données aux décisions est améliorée. Troisièmement, la prédiction des événements courants du client est proposée comme une nouvelle application de la notation des clients. Tous les résultats présentés dans cette thèse sont issus de données réelles et sont non seulement d'une grande valeur académique, mais aussi d'une grande pertinence commerciale
This dissertation improves customer scoring. Customer scoring is important for companies in their decision making processes because it helps to solve key managerial issues such as the decision of which customers to target for a marketing campaign or the assessment of customer that are likely to leave the company. The research in this dissertation makes several contributions in three areas of the customer scoring literature. First, new sources of data are used to score customers. Second, methodology to go from data to decisions is improved. Third, customer life event prediction is proposed as a new application of customer scoring

Styles APA, Harvard, Vancouver, ISO, etc.

19

Audebert, Nicolas. « Classification de données massives de télédétection ». Thesis, Lorient, 2018. http://www.theses.fr/2018LORIS502/document.

Texte intégral

Résumé :

La multiplication des sources de données et la mise à disposition de systèmes d'imagerie à haute résolution a fait rentrer l'observation de la Terre dans le monde du big data. Cela a permis l'émergence de nouvelles applications (étude de la répartition des sols par data mining, etc.) et a rendu possible l'application d'outils statistiques venant des domaines de l'apprentissage automatique et de la vision par ordinateur. Cette thèse cherche à concevoir et implémenter un modèle de classification bénéficiant de l'existence de grande bases de données haute résolution (si possible, annotées) et capable de générer des cartes sémantiques selon diverses thématiques. Les applications visés incluent la cartographie de zones urbaines ainsi que l'étude de la géologie et de la végétation à des fins industrielles.L'objectif de la thèse est de développer de nouveaux outils statistiques pour la classification d'images aériennes et satellitaires. Des approches d'apprentissage supervisé telles que les réseaux de neurones profonds, surpassant l'état-de-l'art en combinant des caractéristiques locales des images et bénéficiant d'une grande quantité de données annotées, seront particulièrement étudiées. Les principales problématiques sont les suivantes : (a) la prédiction structurée (comment introduire la structure spatial et spectral dans l'apprentissage ?), (b) la fusion de données hétérogènes (comment fusionner des données SAR, hyperspectrales et Lidar ?), (c) la cohérence physique du modèle (comment inclure des connaissances physiques a priori dans le modèle ?) et (d) le passage à l'échelle (comment rendre les solutions proposées capables de traiter une quantité massive de données ?)
Thanks to high resolution imaging systems and multiplication of data sources, earth observation(EO) with satellite or aerial images has entered the age of big data. This allows the development of new applications (EO data mining, large-scale land-use classification, etc.) and the use of tools from information retrieval, statistical learning and computer vision that were not possible before due to the lack of data. This project is about designing an efficient classification scheme that can benefit from very high resolution and large datasets (if possible labelled) for creating thematic maps. Targeted applications include urban land use, geology and vegetation for industrial purposes.The PhD thesis objective will be to develop new statistical tools for classification of aerial andsatellite image. Beyond state-of-art approaches that combine a local spatial characterization of the image content and supervised learning, machine learning approaches which take benefit from large labeled datasets for training classifiers such that Deep Neural Networks will be particularly investigated. The main issues are (a) structured prediction (how to incorporate knowledge about the underlying spatial and contextual structure), (b) data fusion from various sensors (how to merge heterogeneous data such as SAR, hyperspectral and Lidar into the learning process ?), (c) physical plausibility of the analysis (how to include prior physical knowledge in the classifier ?) and (d) scalability (how to make the proposed solutions tractable in presence of Big RemoteSensing Data ?)

Styles APA, Harvard, Vancouver, ISO, etc.

20

Marty, Philippe. « Etalonnages de l'instrument EPIC du satellite XMM-Newton : observations d'amas de galaxies en rayons-X ». Paris 11, 2003. https://tel.archives-ouvertes.fr/tel-00141571.

Texte intégral

Résumé :

Le satellite XMM-Newton est l'une des quatre missions les plus importantes de l'Agence Spatiale Européenne, et a pour but d'ouvrir plus largement la fenêtre des rayons-X afin d'explorer la population de sources à hautes énergies tant de la Galaxie que du ciel profond. Dans la première partie, je dresse un portrait de l'astronomie contemporaine dans les hautes énergies, puis je résume le contexte, notamment celui de l'observation des grandes structures et des amas de galaxies, ayant mené au développement d'un observatoire spatial tel qu'XMM-Newton. Une description de ses télescopes, aussi détaillée que nécessaire compte-tenu des études présentées par la suite, est faite dans la seconde partie. Je décris dans la troisième partie comment se sont déroulées les campagnes d'étalonnage au sol des instruments EPIC sur le banc de test synchrotron d'Orsay, ainsi que ma contribution à l'analyse des données subséquentes. Dans une quatrième partie, je confronte des résultats d'étalonnage à des données de vol, fais le bilan des méthodes d'analyse de ces données et présente une application de ces méthodes à l'observation d'amas de galaxies. Je conclus enfin quant aux perspectives en matière d'observations de sources étendues avec XMM-Newton ainsi qu'en matière d'instrumentation pour les hautes énergies en général et de techniques de traitement de données massives dont les Observatoires Virtuels pourront être demandeurs
The XMM-Newton satellite is one of the four cornerstones on which the Euro-pean Space Agency based its sky exploration program, and is aimed at opening further the X-rays window and map the high energies population from the Galaxy as well as from the deep Universe. Within the first part, I make a review of the high energies astrophysics current main topics, like the observations of clusters of galaxies, and summarize the. . . Having brought forward such an X-ray space observatory. A description of the XMM-Newton X-ray telescopes is then presented in the second part, as detailed as needed by the following. I explain in the third part how were conducted the EPIC instruments ground calibration campaigns within the synchrotron test facility in Orsay, and the analysis of the resulting data. In the fourth part, ground calibrations results are compared to some in-flight calibrations datasets, and methods for analysing data from extended sources (like clusters of galaxies) observations are extensively described. Finally, my conclusions regarding future extended sources observations with XMM-Newton and relevant data analysis strategies are drawn in the light of X-rays instrumentation general perspectives as well as the development of Virtual Observatories

Styles APA, Harvard, Vancouver, ISO, etc.

21

Dia, Amadou Fall. « Filtrage sémantique et gestion distribuée de flux de données massives ». Electronic Thesis or Diss., Sorbonne université, 2018. http://www.theses.fr/2018SORUS495.

Texte intégral

Résumé :

Notre utilisation quotidienne de l’Internet et des technologies connexes génère, de manière continue et à des vitesses rapides et variables, de grandes quantités de données hétérogènes issues des réseaux de capteurs, des logs de moteurs de recherches génériques ou spécialisés, des données de sites de contenu multimédia, des données de mesure de stations météorologiques, de la géolocalisation, des applications IoT (l’Internet des objets), etc. Traiter de telles données dans les bases de données conventionnelles (Systèmes de Gestion de Bases de Données Relationnelles) peut être très coûteux en ressources temporelles et mémoires. Pour répondre efficacement aux besoins et aider à la prise de décision, ces flots d’informations nécessitent des traitements en temps réel. Les Systèmes de Gestion de Flux de Données (SGFDs) posent et évaluent des requêtes sur les données récentes d’un flux dans des structures appelées fenêtre. Les données en entrée des SGFDs sont de différents formats bruts tels que CSV, XML, RSS, ou encore JSON. Ce verrou d’hétérogénéité émane de la nature des flux de données et doit être levé. Pour cela, plusieurs groupes de recherche ont bénéficié des avantages des technologies du web sémantique (RDF et SPARQL) en proposant des systèmes de traitement de flux de données RDF appelés RSPs. Cependant, la volumétrie des données, le débit d’entrée élevé, les requêtes concurrentes, le croisement des flux RDF à de larges volumes de données stockées et les calculs coûteux baissent considérablement les performances de ces systèmes. Il faut prévoir une nouvelle approche de réduction de la charge de traitement des flux de données RDF. Dans cette thèse, nous proposons plusieurs solutions pour réduire la charge de traitement de flux de données en mode centralisé. Une approche d’échantillonnage à la volée de flux de graphes RDF est proposée afin de réduire la charge de données et du traitement des flux tout en préservant les liens sémantiques. Cette approche est approfondie en adoptant une méthode de résumé orienté graphe pour extraire des graphes RDF les informations les plus pertinentes en utilisant des mesures de centralité issues de l’Analyse des Réseaux Sociaux. Nous adoptons également un format compressé des données RDF et proposons une approche d’interrogation de données RDF compressées sans phase de décompression. Pour assurer une gestion parallèle et distribuée des flux de données, le travail présenté propose deux solutions supplémentaires de réduction de la charge de traitement en mode distribué : un moteur de traitement parallèle et distribué de flux de graphes RDF et une approche de traitement optimisé des opérations de croisement entre données statiques et dynamiques sont présentés
Our daily use of the Internet and related technologies generates, at a rapid and variable speeds, large volumes of heterogeneous data issued from sensor networks, search engine logs, multimedia content sites, weather forecasting, geolocation, Internet of Things (IoT) applications, etc. Processing such data in conventional databases (Relational Database Management Systems) may be very expensive in terms of time and memory storage resources. To effectively respond to the needs of rapid decision-making, these streams require real-time processing. Data Stream Management Systems (SGFDs) evaluate queries on the recent data of a stream within structures called windows. The input data are different formats such as CSV, XML, RSS, or JSON. This heterogeneity lock comes from the nature of the data streams and must be resolved. For this, several research groups have benefited from the advantages of semantic web technologies (RDF and SPARQL) by proposing RDF data streams processing systems called RSPs. However, large volumes of RDF data, high input streams, concurrent queries, combination of RDF streams and large volumes of stored RDF data and expensive processing drastically reduce the performance of these systems. A new approach is required to considerably reduce the processing load of RDF data streams. In this thesis, we propose several complementary solutions to reduce the processing load in centralized environment. An on-the-fly RDF graphs streams sampling approach is proposed to reduce data and processing load while preserving semantic links. This approach is deepened by adopting a graph-oriented summary approach to extract the most relevant information from RDF graphs by using centrality measures issued from the Social Networks Analysis. We also adopt a compressed format of RDF data and propose an approach for querying compressed RDF data without decompression phase. To ensure parallel and distributed data streams management, the presented work also proposes two solutions for reducing the processing load in distributed environment. An engine and parallel processing approaches and distributed RDF graphs streams. Finally, an optimized processing approach for static and dynamic data combination operations is also integrated into a new distributed RDF graphs streams management system

Styles APA, Harvard, Vancouver, ISO, etc.

22

Rebecq, Antoine. « Méthodes de sondage pour les données massives ». Thesis, Paris 10, 2019. http://www.theses.fr/2019PA100014/document.

Texte intégral

Résumé :

Cette thèse présente trois parties liées à la théorie des sondages. La première partie présente deux résultats originaux de sondages qui ont eu des applications pratiques dans des enquêtes par sondage de l'Insee. Le premier article présente un théorème autorisant un plan de sondage stratifié constituant un compromis entre la dispersion des poids et l'allocation de précision optimale pour une variable d'intérêt spécifique. Les données d’enquête sont souvent utilisées pour estimer nombre de totaux ou modèles issus de variables exclues du design. La précision attendue pour ces variables est donc faible, mais une faible dispersion des poids permet de limiter les risques qu'une estimation dépendant d'une de ces variables ait une très mauvaise précision. Le second article concerne le facteur de repondération dans les estimateurs par calage. On propose un algorithme efficace capable de calculer les facteurs de poids les plus rapprochés autour de 1 tels qu'une solution au problème de calage existe. Cela permet de limiter les risques d'apparition d'unités influentes, particulièrement pour l'estimation sur des domaines. On étudie par simulations sur données réelles les propriétés statistiques des estimateurs obtenus. La seconde partie concerne l'étude des propriétés asymptotique des estimateurs sur données issues de sondage. Celles-ci sont difficiles à étudier en général. On présente une méthode originale qui établit la convergence faible vers un processus gaussien pour le processus empirique d'Horvitz-Thompson indexé par des classes de fonction, pour de nombreux algorithmes de sondage différents utilisés en pratique. Dans la dernière partie, on s'intéresse à des méthodes de sondage pour des données issues de graphes, qui ont des applications pratiques lorsque les graphes sont de taille telles que leur exploitation informatique est coûteuse. On détaille des algorithmes de sondage permettant d'estimer des statistiques d'intérêt pour le réseaux. Deux applications, à des données de Twitter puis à des données simulées, concluent cette partie
This thesis presents three different parts with ties to survey sampling theory. In the first part, we present two original results that led to practical applications in surveys conducted at Insee (French official statistics Institute). The first chapter deals with allocations in stratified sampling. We present a theorem that proves the existence of an optimal compromise between the dispersion of the sampling weights and the allocation yielding optimal precision for a specific variable of interest. Survey data are commonly used to compute estimates for variables that were not included in the survey design. Expected precision is poor, but a low dispersion of the weights limits risks of very high variance for one or several estimates. The second chapter deals with reweighting factors in calibration estimates. We study an algorithm that computes the minimal bounds so that the calibration estimators exist, and propose an efficient way of resolution. We also study the statistical properties of estimates using these minimal bounds. The second part studies asymptotic properties of sampling estimates. Obtaining asymptotic guarantees is often hard in practice. We present an original method that establishes weak convergence for the Horvitz-Thompson empirical process indexed by a class of functions for a lot of sampling algorithms used in practice. In the third and last part, we focus on sampling methods for populations that can be described as networks. They have many applications when the graphs are so big that storing and computing algorithms on them are very costly. Two applications are presented, one using Twitter data, and the other using simulated data to establish guidelines to design efficient sampling designs for graphs

Styles APA, Harvard, Vancouver, ISO, etc.

23

Pageau, Jasmine. « Choix occupationnels et espérance de vie : une analyse par l'approche des données massives ». Master's thesis, Université Laval, 2019. http://hdl.handle.net/20.500.11794/33867.

Texte intégral

Résumé :

Dans ce mémoire, nous tentons d’évaluer si le choix de profession a un effet sur l’espérance de vie à l’aide de techniques d’apprentissage automatique. Nous utilisons des arbres d’inférence conditionnelle (CTree) afin d’obtenir des courbes de survie Kaplan-Meier qui permettent de prédire des taux de mortalité en fonction des déterminants sociodémographiques qui ont le plus grand pouvoir explicatif. À l’aide des données ontariennes et québécoises du recensement de 1991 couplées aux enregistrements de la base canadienne de données sur la mortalité de 1991 à 2006 nous avons pu déterminer qu’il existe une corrélation entre le choix occupationnel et l’espérance de vie d’un individu pour certains groupes. Tel qu’attendu, l’algorithme a identifié le sexe de l’individu comme principal prédicteur de l’espérance de vie. Nous obtenons que l’éducation et le statut de natif sont, respectivement, les variables plus influentes chez les hommes et chez les femmes des deux provinces.
In this thesis, we try to assess the impact of occupational choice on life expectancy using machine learning techniques. We use Conditional Inference Trees (CTree) to obtain Kaplan- Meier survival curves that enable us to predict mortality rates regarding the influential sociodemographic features. Using the Québec and Ontario data from the 1991 census merged with the Canadian Mortality Database from 1991 to 2006, we observe a correlation between occupational choice and life expectancy for particular groups. As it was expected, we find that the primary predictor of life expectancy is the person’s sex. Education and Canadian-born status are respectively the most influential variable for men and women of both provinces

Styles APA, Harvard, Vancouver, ISO, etc.

24

El, Malki Mohammed. « Modélisation NoSQL des entrepôts de données multidimensionnelles massives ». Thesis, Toulouse 2, 2016. http://www.theses.fr/2016TOU20139/document.

Texte intégral

Résumé :

Les systèmes d’aide à la décision occupent une place prépondérante au sein des entreprises et des grandes organisations, pour permettre des analyses dédiées à la prise de décisions. Avec l’avènement du big data, le volume des données d’analyses atteint des tailles critiques, défiant les approches classiques d’entreposage de données, dont les solutions actuelles reposent principalement sur des bases de données R-OLAP. Avec l’apparition des grandes plateformes Web telles que Google, Facebook, Twitter, Amazon… des solutions pour gérer les mégadonnées (Big Data) ont été développées et appelées « Not Only SQL ». Ces nouvelles approches constituent une voie intéressante pour la construction des entrepôts de données multidimensionnelles capables de supporter des grandes masses de données. La remise en cause de l’approche R-OLAP nécessite de revisiter les principes de la modélisation des entrepôts de données multidimensionnelles. Dans ce manuscrit, nous avons proposé des processus d’implantation des entrepôts de données multidimensionnelles avec les modèles NoSQL. Nous avons défini quatre processus pour chacun des deux modèles NoSQL orienté colonnes et orienté documents. De plus, le contexte NoSQL rend également plus complexe le calcul efficace de pré-agrégats qui sont habituellement mis en place dans le contexte ROLAP (treillis). Nous avons élargis nos processus d’implantations pour prendre en compte la construction du treillis dans les deux modèles retenus.Comme il est difficile de choisir une seule implantation NoSQL supportant efficacement tous les traitements applicables, nous avons proposé deux processus de traductions, le premier concerne des processus intra-modèles, c’est-à-dire des règles de passage d’une implantation à une autre implantation du même modèle logique NoSQL, tandis que le second processus définit les règles de transformation d’une implantation d’un modèle logique vers une autre implantation d’un autre modèle logique
Decision support systems occupy a large space in companies and large organizations in order to enable analyzes dedicated to decision making. With the advent of big data, the volume of analyzed data reaches critical sizes, challenging conventional approaches to data warehousing, for which current solutions are mainly based on R-OLAP databases. With the emergence of major Web platforms such as Google, Facebook, Twitter, Amazon...etc, many solutions to process big data are developed and called "Not Only SQL". These new approaches are an interesting attempt to build multidimensional data warehouse capable of handling large volumes of data. The questioning of the R-OLAP approach requires revisiting the principles of modeling multidimensional data warehouses.In this manuscript, we proposed implementation processes of multidimensional data warehouses with NoSQL models. We defined four processes for each model; an oriented NoSQL column model and an oriented documents model. Each of these processes fosters a specific treatment. Moreover, the NoSQL context adds complexity to the computation of effective pre-aggregates that are typically set up within the ROLAP context (lattice). We have enlarged our implementations processes to take into account the construction of the lattice in both detained models.As it is difficult to choose a single NoSQL implementation that supports effectively all the applicable treatments, we proposed two translation processes. While the first one concerns intra-models processes, i.e., pass rules from an implementation to another of the same NoSQL logic model, the second process defines the transformation rules of a logic model implementation to another implementation on another logic model

Styles APA, Harvard, Vancouver, ISO, etc.

25

Collet, Julien. « Exploration of parallel graph-processing algorithms on distributed architectures ». Thesis, Compiègne, 2017. http://www.theses.fr/2017COMP2391/document.

Texte intégral

Résumé :

Avec l'explosion du volume de données produites chaque année, les applications du domaine du traitement de graphes ont de plus en plus besoin d'être parallélisées et déployées sur des architectures distribuées afin d'adresser le besoin en mémoire et en ressource de calcul. Si de telles architectures larges échelles existent, issue notamment du domaine du calcul haute performance (HPC), la complexité de programmation et de déploiement d’algorithmes de traitement de graphes sur de telles cibles est souvent un frein à leur utilisation. De plus, la difficile compréhension, a priori, du comportement en performances de ce type d'applications complexifie également l'évaluation du niveau d'adéquation des architectures matérielles avec de tels algorithmes. Dans ce contexte, ces travaux de thèses portent sur l’exploration d’algorithmes de traitement de graphes sur architectures distribuées en utilisant GraphLab, un Framework de l’état de l’art dédié à la programmation parallèle de tels algorithmes. En particulier, deux cas d'applications réelles ont été étudiées en détails et déployées sur différentes architectures à mémoire distribuée, l’un venant de l’analyse de trace d’exécution et l’autre du domaine du traitement de données génomiques. Ces études ont permis de mettre en évidence l’existence de régimes de fonctionnement permettant d'identifier des points de fonctionnements pertinents dans lesquels on souhaitera placer un système pour maximiser son efficacité. Dans un deuxième temps, une étude a permis de comparer l'efficacité d'architectures généralistes (type commodity cluster) et d'architectures plus spécialisées (type serveur de calcul hautes performances) pour le traitement de graphes distribué. Cette étude a démontré que les architectures composées de grappes de machines de type workstation, moins onéreuses et plus simples, permettaient d'obtenir des performances plus élevées. Cet écart est d'avantage accentué quand les performances sont pondérées par les coûts d'achats et opérationnels. L'étude du comportement en performance de ces architectures a également permis de proposer in fine des règles de dimensionnement et de conception des architectures distribuées, dans ce contexte. En particulier, nous montrons comment l’étude des performances fait apparaitre les axes d’amélioration du matériel et comment il est possible de dimensionner un cluster pour traiter efficacement une instance donnée. Finalement, des propositions matérielles pour la conception de serveurs de calculs plus performants pour le traitement de graphes sont formulées. Premièrement, un mécanisme est proposé afin de tempérer la baisse significative de performance observée quand le cluster opère dans un point de fonctionnement où la mémoire vive est saturée. Enfin, les deux applications développées ont été évaluées sur une architecture à base de processeurs basse-consommation afin d'étudier la pertinence de telles architectures pour le traitement de graphes. Les performances mesurés en utilisant de telles plateformes sont encourageantes et montrent en particulier que la diminution des performances brutes par rapport aux architectures existantes est compensée par une efficacité énergétique bien supérieure
With the advent of ever-increasing graph datasets in a large number of domains, parallel graph-processing applications deployed on distributed architectures are more and more needed to cope with the growing demand for memory and compute resources. Though large-scale distributed architectures are available, notably in the High-Performance Computing (HPC) domain, the programming and deployment complexity of such graphprocessing algorithms, whose parallelization and complexity are highly data-dependent, hamper usability. Moreover, the difficult evaluation of performance behaviors of these applications complexifies the assessment of the relevance of the used architecture. With this in mind, this thesis work deals with the exploration of graph-processing algorithms on distributed architectures, notably using GraphLab, a state of the art graphprocessing framework. Two use-cases are considered. For each, a parallel implementation is proposed and deployed on several distributed architectures of varying scales. This study highlights operating ranges, which can eventually be leveraged to appropriately select a relevant operating point with respect to the datasets processed and used cluster nodes. Further study enables a performance comparison of commodity cluster architectures and higher-end compute servers using the two use-cases previously developed. This study highlights the particular relevance of using clustered commodity workstations, which are considerably cheaper and simpler with respect to node architecture, over higher-end systems in this applicative context. Then, this thesis work explores how performance studies are helpful in cluster design for graph-processing. In particular, studying throughput performances of a graph-processing system gives fruitful insights for further node architecture improvements. Moreover, this work shows that a more in-depth performance analysis can lead to guidelines for the appropriate sizing of a cluster for a given workload, paving the way toward resource allocation for graph-processing. Finally, hardware improvements for next generations of graph-processing servers areproposed and evaluated. A flash-based victim-swap mechanism is proposed for the mitigation of unwanted overloaded operations. Then, the relevance of ARM-based microservers for graph-processing is investigated with a port of GraphLab on a NVIDIA TX2-based architecture

Styles APA, Harvard, Vancouver, ISO, etc.

26

Bouhamoum, Redouane. « Découverte automatique de schéma pour les données irrégulières et massives ». Electronic Thesis or Diss., université Paris-Saclay, 2021. http://www.theses.fr/2021UPASG081.

Texte intégral

Résumé :

Le web des données est un espace dans lequel de nombreuses sources sont publiées et interconnectées, et qui repose sur les technologies du web sémantique. Cet espace offre des possibilités d'utilisation sans précédent, cependant, l'exploitation pertinente des sources qu'il contient est rendue difficile par l'absence de schéma décrivant leur contenu. Des approches de découverte automatique de schéma ont été proposées, mais si elles produisent des schémas de bonne qualité, leur complexité limite leur utilisation pour des sources de données massives. Dans notre travail, nous nous intéressons au problème du passage à l'échelle de la découverte de schéma à partir de sources de données RDF massives dont le schéma est incomplet ou absent. Nous nous intéressons également à l'incrémentalité de ces approches et à la prise en compte de connaissances implicites fournies par une source de données.Notre première contribution consiste en une approche scalable de découverte de schéma qui permet l'extraction des classes décrivant le contenu d'une source de données RDF massive. Pour cela, nous avons d'abord proposé d'extraire une représentation condensée d'une source de données RDF qui servira en entrée du processus de découverte de schéma afin d'en améliorer les performances.Cette représentation est un ensemble de patterns qui correspondent à des combinaisons de propriétés décrivant les entités du jeu de données.Nous avons ensuite proposé une approche scalable de découverte de schéma fondée sur un algorithme de clustering distribué qui forme des groupes d'entités structurellement similaires représentant les classes du schéma.Notre deuxième contribution a pour but de maintenir le schéma extrait cohérent avec les changements survenant au niveau des sources RDF, ces dernières étant en constante évolution. Nous proposons pour cela une approche incrémentale de découverte de schéma qui modifie l'ensemble des classes extraites en propageant dans ces dernières les changements survenus dans les sources.Enfin, dans la troisième contribution de notre travail, nous adaptons notre approche de découverte de schéma afin qu'elle prenne en compte toute la sémantique portée par la source de données, qui est représentée par les triplets explicitement déclarés, mais également tous ceux qui peuvent en être déduits par inférence. Nous proposons une extension permettant de prendre en compte toutes les propriétés d'une entité lors de la découverte de schéma, qu'elles correspondent à des triplets explicites ou implicites, ce qui améliorera la qualité du schéma produit
The web of data is a huge global data space, relying on semantic web technologies, where a high number of sources are published and interlinked. This data space provides an unprecedented amount of knowledge available for novel applications, but the meaningful usage of its sources is often difficult due to the lack of schema describing the content of these data sources. Several automatic schema discovery approaches have been proposed, but while they provide good quality schemas, their use for massive data sources is a challenge as they rely on costly algorithms. In our work, we are interested in both the scalability and the incrementality of schema discovery approaches for RDF data sources where the schema is incomplete or missing.Furthermore, we extend schema discovery to take into account not only the explicit information provided by a data source, but also the implicit information which can be inferred.Our first contribution consists of a scalable schema discovery approach which extracts the classes describing the content of a massive RDF data source.We have proposed to extract a condensed representation of the source, which will be used as an input to the schema discovery process in order to improve its performances.This representation is a set of patterns, each one representing a combination of properties describing some entities in the dataset. We have also proposed a scalable schema discovery approach relying on a distributed clustering algorithm that forms groups of structurally similar entities representing the classes of the schema.Our second contribution aims at maintaining the generated schema consistent with the data source it describes, as this latter may evolve over time. We propose an incremental schema discovery approach that modifies the set of extracted classes by propagating the changes occurring at the source, in order to keep the schema consistent with its evolutions.Finally, the goal of our third contribution is to extend schema discovery to consider the whole semantics expressed by a data source, which is represented not only by the explicitly declared triples, but also by the ones which can be inferred through reasoning. We propose an extension allowing to take into account all the properties of an entity during schema discovery, represented either by explicit or by implicit triples, which will improve the quality of the generated schema

Styles APA, Harvard, Vancouver, ISO, etc.

27

Alshaer, Mohammad. « An Efficient Framework for Processing and Analyzing Unstructured Text to Discover Delivery Delay and Optimization of Route Planning in Realtime ». Thesis, Lyon, 2019. http://www.theses.fr/2019LYSE1105/document.

Texte intégral

Résumé :

L'Internet des objets, ou IdO (en anglais Internet of Things, ou IoT) conduit à un changement de paradigme du secteur de la logistique. L'avènement de l'IoT a modifié l'écosystème de la gestion des services logistiques. Les fournisseurs de services logistiques utilisent aujourd'hui des technologies de capteurs telles que le GPS ou la télémétrie pour collecter des données en temps réel pendant la livraison. La collecte en temps réel des données permet aux fournisseurs de services de suivre et de gérer efficacement leur processus d'expédition. Le principal avantage de la collecte de données en temps réel est qu’il permet aux fournisseurs de services logistiques d’agir de manière proactive pour éviter des conséquences telles que des retards de livraison dus à des événements imprévus ou inconnus. De plus, les fournisseurs ont aujourd'hui tendance à utiliser des données provenant de sources externes telles que Twitter, Facebook et Waze, parce que ces sources fournissent des informations critiques sur des événements tels que le trafic, les accidents et les catastrophes naturelles. Les données provenant de ces sources externes enrichissent l'ensemble de données et apportent une valeur ajoutée à l'analyse. De plus, leur collecte en temps réel permet d’utiliser les données pour une analyse en temps réel et de prévenir des résultats inattendus (tels que le délai de livraison, par exemple) au moment de l’exécution. Cependant, les données collectées sont brutes et doivent être traitées pour une analyse efficace. La collecte et le traitement des données en temps réel constituent un énorme défi. La raison principale est que les données proviennent de sources hétérogènes avec une vitesse énorme. La grande vitesse et la variété des données entraînent des défis pour effectuer des opérations de traitement complexes telles que le nettoyage, le filtrage, le traitement de données incorrectes, etc. La diversité des données - structurées, semi-structurées et non structurées - favorise les défis dans le traitement des données à la fois en mode batch et en temps réel. Parce que, différentes techniques peuvent nécessiter des opérations sur différents types de données. Une structure technique permettant de traiter des données hétérogènes est très difficile et n'est pas disponible actuellement. En outre, l'exécution d'opérations de traitement de données en temps réel est très difficile ; des techniques efficaces sont nécessaires pour effectuer les opérations avec des données à haut débit, ce qui ne peut être fait en utilisant des systèmes d'information logistiques conventionnels. Par conséquent, pour exploiter le Big Data dans les processus de services logistiques, une solution efficace pour la collecte et le traitement des données en temps réel et en mode batch est essentielle. Dans cette thèse, nous avons développé et expérimenté deux méthodes pour le traitement des données: SANA et IBRIDIA. SANA est basée sur un classificateur multinomial Naïve Bayes, tandis qu'IBRIDIA s'appuie sur l'algorithme de classification hiérarchique (CLH) de Johnson, qui est une technologie hybride permettant la collecte et le traitement de données par lots et en temps réel. SANA est une solution de service qui traite les données non structurées. Cette méthode sert de système polyvalent pour extraire les événements pertinents, y compris le contexte (tel que le lieu, l'emplacement, l'heure, etc.). En outre, il peut être utilisé pour effectuer une analyse de texte sur les événements ciblés. IBRIDIA a été conçu pour traiter des données inconnues provenant de sources externes et les regrouper en temps réel afin d'acquérir une connaissance / compréhension des données permettant d'extraire des événements pouvant entraîner un retard de livraison. Selon nos expériences, ces deux approches montrent une capacité unique à traiter des données logistiques
Internet of Things (IoT) is leading to a paradigm shift within the logistics industry. The advent of IoT has been changing the logistics service management ecosystem. Logistics services providers today use sensor technologies such as GPS or telemetry to collect data in realtime while the delivery is in progress. The realtime collection of data enables the service providers to track and manage their shipment process efficiently. The key advantage of realtime data collection is that it enables logistics service providers to act proactively to prevent outcomes such as delivery delay caused by unexpected/unknown events. Furthermore, the providers today tend to use data stemming from external sources such as Twitter, Facebook, and Waze. Because, these sources provide critical information about events such as traffic, accidents, and natural disasters. Data from such external sources enrich the dataset and add value in analysis. Besides, collecting them in real-time provides an opportunity to use the data for on-the-fly analysis and prevent unexpected outcomes (e.g., such as delivery delay) at run-time. However, data are collected raw which needs to be processed for effective analysis. Collecting and processing data in real-time is an enormous challenge. The main reason is that data are stemming from heterogeneous sources with a huge speed. The high-speed and data variety fosters challenges to perform complex processing operations such as cleansing, filtering, handling incorrect data, etc. The variety of data – structured, semi-structured, and unstructured – promotes challenges in processing data both in batch-style and real-time. Different types of data may require performing operations in different techniques. A technical framework that enables the processing of heterogeneous data is heavily challenging and not currently available. In addition, performing data processing operations in real-time is heavily challenging; efficient techniques are required to carry out the operations with high-speed data, which cannot be done using conventional logistics information systems. Therefore, in order to exploit Big Data in logistics service processes, an efficient solution for collecting and processing data in both realtime and batch style is critically important. In this thesis, we developed and experimented with two data processing solutions: SANA and IBRIDIA. SANA is built on Multinomial Naïve Bayes classifier whereas IBRIDIA relies on Johnson's hierarchical clustering (HCL) algorithm which is hybrid technology that enables data collection and processing in batch style and realtime. SANA is a service-based solution which deals with unstructured data. It serves as a multi-purpose system to extract the relevant events including the context of the event (such as place, location, time, etc.). In addition, it can be used to perform text analysis over the targeted events. IBRIDIA was designed to process unknown data stemming from external sources and cluster them on-the-fly in order to gain knowledge/understanding of data which assists in extracting events that may lead to delivery delay. According to our experiments, both of these approaches show a unique ability to process logistics data. However, SANA is found more promising since the underlying technology (Naïve Bayes classifier) out-performed IBRIDIA from performance measuring perspectives. It is clearly said that SANA was meant to generate a graph knowledge from the events collected immediately in realtime without any need to wait, thus reaching maximum benefit from these events. Whereas, IBRIDIA has an important influence within the logistics domain for identifying the most influential category of events that are affecting the delivery. Unfortunately, in IBRIRDIA, we should wait for a minimum number of events to arrive and always we have a cold start. Due to the fact that we are interested in re-optimizing the route on the fly, we adopted SANA as our data processing framework

Styles APA, Harvard, Vancouver, ISO, etc.

28

Baron, Benjamin. « Transport intermodal de données massives pour le délestage des réseaux d'infrastructure ». Electronic Thesis or Diss., Paris 6, 2016. http://www.theses.fr/2016PA066454.

Texte intégral

Résumé :

Dans cette thèse, nous exploitons la mobilité des véhicules pour créer un médium de communication ad hoc utile pour déployer des services connectés. Notre objectif est de tirer partie des trajets quotidiens effectués en voiture ou en transport en commun pour surmonter les limitations des réseaux de données tels que l’Internet. Dans une première partie, nous profitons de la bande passante que génèrent les déplacements de véhicules équipés de capacités de stockage pour délester en masse l’Internet d’une partie de son trafic. Les données sont détournées vers des équipements de stockage appelés points de délestage installés aux abords de zones où les véhicules s’arrêtent habituellement, permettant ainsi de relayer les données entre véhicules jusqu'au point de délestage suivant où elles pourront éventuellement être déchargées. Nous proposons ensuite deux extensions étendant le concept de point de délestage selon deux directions dans le contexte de services reposant toujours la mobilité des véhicules. Dans la première extension, nous exploitons les capacités de stockage des points de délestage pour concevoir un service de stockage et partage de fichiers offert aux passagers de véhicules. Dans la seconde extension, nous dématérialisons les points de délestage en zones géographiques pré-définies où un grand nombre de véhicules se rencontrent suffisamment longtemps pour transférer de grandes quantités de données. L’évaluation des performances des différents travaux menés au cours de cette thèse montrent que la mobilité inhérente aux entités du quotidien permet la fourniture de services innovants avec une dépendance limitée vis-à-vis des réseaux de données traditionnels
In this thesis, we exploit the daily mobility of vehicles to create an alternative transmission medium. Our objective is to draw on the many vehicular trips taken by cars or public transports to overcome the limitations of conventional data networks such as the Internet. In the first part, we take advantage of the bandwidth resulting from the mobility of vehicles equipped with storage capabilities to offload large amounts of delay-tolerant traffic from the Internet. Data is transloaded to data storage devices we refer to as offloading spots, located where vehicles stop often and long enough to transfer large amounts of data. Those devices act as data relays, i.e., they store data it is until loaded on and carried by a vehicle to the next offloading spot where it can be dropped off for later pick-up and delivery by another vehicle. We further extend the concept of offloading spots according to two directions in the context of vehicular cloud services. In the first extension, we exploit the storage capabilities of the offloading spots to design a cloud-like storage and sharing system for vehicle passengers. In the second extension, we dematerialize the offloading spots into pre-defined areas with high densities of vehicles that meet long enough to transfer large amounts of data. The performance evaluation of the various works conducted in this thesis shows that everyday mobility of entities surrounding us enables innovative services with limited reliance on conventional data networks

Styles APA, Harvard, Vancouver, ISO, etc.

29

Legrand, Nicolas. « Numerical and modeling methods for multi-level large eddy simulations of turbulent flows in complex geometries ». Thesis, Normandie, 2017. http://www.theses.fr/2017NORMIR16/document.

Texte intégral

Résumé :

La simulation aux grandes échelles est devenue un outil d’analyse incontournable pour l’étude des écoulements turbulents dans des géométries complexes. Cependant, à cause de l’augmentation constante des ressources de calcul, le traitement des grandes quantités de données générées par les simulations hautement résolues est devenu un véritable défi qu’il n’est plus possible de relever avec des outils traditionnels. En mécanique des fluides numérique, cette problématique émergente soulève les mêmes questions que celles communément rencontrées en informatique avec des données massives. A ce sujet, certaines méthodes ont déjà été développées telles que le partitionnement et l’ordonnancement des données ou bien encore le traitement en parallèle mais restent insuffisantes pour les simulations numériques modernes. Ainsi, l’objectif de cette thèse est de proposer de nouveaux formalismes permettant de contourner le problème de volume de données en vue des futurs calculs exaflopiques que l’informatique devrait atteindre en 2020. A cette fin, une méthode massivement parallèle de co-traitement, adaptée au formalisme non-structuré, a été développée afin d’extraire les grandes structures des écoulements turbulents. Son principe consiste à introduire une série de grilles de plus en plus grossières réduisant ainsi la quantité de données à traiter tout en gardant intactes les structures cohérentes d’intérêt. Les données sont transférées d’une grille à une autre grâce à l’utilisation de filtres et de méthodes d’interpolation d’ordre élevé. L’efficacité de cette méthodologie a pu être démontrée en appliquant des techniques de décomposition modale lors de la simulation 3D d’une pale de turbine turbulente sur une grille de plusieurs milliards d’éléments. En outre, cette capacité à pouvoir gérer plusieurs niveaux de grilles au sein d’une simulation a été utilisée par la suite pour la mise en place de calculs basés sur une stratégie multi-niveaux. L’objectif de cette méthode est d’évaluer au cours du calcul les erreurs numériques et celles liées à la modélisation en simulant simultanément la même configuration pour deux résolutions différentes. Cette estimation de l’erreur est précieuse car elle permet de générer des grilles optimisées à travers la construction d’une mesure objective de la qualité des grilles. Ainsi, cette méthodologie de multi-résolution tente de limiter le coût de calcul de la simulation en minimisant les erreurs de modélisation en sous-maille, et a été appliquée avec succès à la simulation d’un écoulement turbulent autour d’un cylindre
Large-Eddy Simulation (LES) has become a major tool for the analysis of highly turbulent flows in complex geometries. However, due to the steadily increase of computational resources, the amount of data generated by well-resolved numerical simulations is such that it has become very challenging to manage them with traditional data processing tools. In Computational Fluid Dynamics (CFD), this emerging problematic leads to the same "Big Data" challenges as in the computer science field. Some techniques have already been developed such as data partitioning and ordering or parallel processing but still remain insufficient for modern numerical simulations. Hence, the objective of this work is to propose new processing formalisms to circumvent the data volume issue for the future 2020 exa-scale computing objectives. To this aim, a massively parallel co-processing method, suited for complex geometries, was developed in order to extract large-scale features in turbulent flows. The principle of the method is to introduce a series of coarser nested grids to reduce the amount of data while keeping the large scales of interest. Data is transferred from one grid level to another using high-order filters and accurate interpolation techniques. This method enabled to apply modal decomposition techniques to a billion-cell LES of a 3D turbulent turbine blade, thus demonstrating its effectiveness. The capability of performing calculations on several embedded grid levels was then used to devise the multi-resolution LES (MR-LES). The aim of the method is to evaluate the modeling and numerical errors during an LES by conducting the same simulation on two different mesh resolutions, simultaneously. This error estimation is highly valuable as it allows to generate optimal grids through the building of an objective grid quality measure. MR-LES intents to limit the computational cost of the simulation while minimizing the sub-grid scale modeling errors. This novel framework was applied successfully to the simulation of a turbulent flow around a 3D cylinder

Styles APA, Harvard, Vancouver, ISO, etc.

30

Laur, Pierre Alain. « Données semi structurées : Découverte, maintenance et analyse de tendances ». Montpellier 2, 2004. http://www.theses.fr/2004MON20053.

Texte intégral

Styles APA, Harvard, Vancouver, ISO, etc.

31

Madera, Cedrine. « L’évolution des systèmes et architectures d’information sous l’influence des données massives : les lacs de données ». Thesis, Montpellier, 2018. http://www.theses.fr/2018MONTS071/document.

Texte intégral

Résumé :

La valorisation du patrimoine des données des organisation est mise au cœur de leur transformation digitale. Sous l’influence des données massives le système d’information doit s’adapter et évoluer. Cette évolution passe par une transformation des systèmes décisionnels mais aussi par l’apparition d’un nouveau composant du système d’information : Les lacs de données. Nous étudions cette évolution des systèmes décisionnels, les éléments clés qui l’influence mais aussi les limites qui apparaissent , du point de vue de l’architecture, sous l’influence des données massives. Nous proposons une évolution des systèmes d’information avec un nouveau composant qu’est le lac de données. Nous l’étudions du point de vue de l’architecture et cherchons les facteurs qui peuvent influencer sa conception , comme la gravité des données. Enfin, nous amorçons une piste de conceptualisation des lacs de données en explorant l’approche ligne de produit.Nouvelle versionSous l'influence des données massives nous étudions l'impact que cela entraîne notamment avec l'apparition de nouvelles technologies comme Apache Hadoop ainsi que les limite actuelles des système décisionnel.Les limites rencontrées par les systèmes décisionnels actuels impose une évolution au système d 'information qui doit s'adapter et qui donne naissance à un nouveau composant : le lac de données.Dans un deuxième temps nous étudions en détail ce nouveau composant, formalisons notre définition, donnons notre point de vue sur son positionnement dans le système d information ainsi que vis à vis des systèmes décisionnels.Par ailleurs, nous mettons en évidence un facteur influençant l’architecture des lacs de données : la gravité des données, en dressant une analogie avec la loi de la gravité et en nous concentrant sur les facteurs qui peuvent influencer la relation donnée-traitement.Nous mettons en évidence , au travers d'un cas d'usage , que la prise en compte de la gravité des données peut influencer la conception d'un lac de données.Nous terminons ces travaux par une adaptation de l'approche ligne de produit logiciel pour amorcer une méthode de formalisations et modélisation des lacs de données. Cette méthode nous permet :- d’établir une liste de composants minimum à mettre en place pour faire fonctionner un lac de données sans que ce dernier soit transformé en marécage,- d’évaluer la maturité d'un lac de donnée existant,- de diagnostiquer rapidement les composants manquants d'un lac de données existant qui serait devenu un marécage,- de conceptualiser la création des lacs de données en étant "logiciel agnostique”
Data is on the heart of the digital transformation.The consequence is anacceleration of the information system evolution , which must adapt. The Big data phenomenonplays the role of catalyst of this evolution.Under its influence appears a new component of the information system: the data lake.Far from replacing the decision support systems that make up the information system, data lakes comecomplete information systems’s architecture.First, we focus on the factors that influence the evolution of information systemssuch as new software and middleware, new infrastructure technologies, but also the decision support system usage itself.Under the big data influence we study the impact that this entails especially with the appearance ofnew technologies such as Apache Hadoop as well as the current limits of the decision support system .The limits encountered by the current decision support system force a change to the information system which mustadapt and that gives birth to a new component: the data lake.In a second time we study in detail this new component, formalize our definition, giveour point of view on its positioning in the information system as well as with regard to the decision support system .In addition, we highlight a factor influencing the architecture of data lakes: data gravity, doing an analogy with the law of gravity and focusing on the factors that mayinfluence the data-processing relationship. We highlight, through a use case, that takingaccount of the data gravity can influence the design of a data lake.We complete this work by adapting the software product line approach to boot a methodof formalizations and modeling of data lakes. This method allows us:- to establish a minimum list of components to be put in place to operate a data lake without transforming it into a data swamp,- to evaluate the maturity of an existing data lake,- to quickly diagnose the missing components of an existing data lake that would have become a dataswamp- to conceptualize the creation of data lakes by being "software agnostic “

Styles APA, Harvard, Vancouver, ISO, etc.

32

Baron, Benjamin. « Transport intermodal de données massives pour le délestage des réseaux d'infrastructure ». Thesis, Paris 6, 2016. http://www.theses.fr/2016PA066454/document.

Texte intégral

Résumé :

Dans cette thèse, nous exploitons la mobilité des véhicules pour créer un médium de communication ad hoc utile pour déployer des services connectés. Notre objectif est de tirer partie des trajets quotidiens effectués en voiture ou en transport en commun pour surmonter les limitations des réseaux de données tels que l’Internet. Dans une première partie, nous profitons de la bande passante que génèrent les déplacements de véhicules équipés de capacités de stockage pour délester en masse l’Internet d’une partie de son trafic. Les données sont détournées vers des équipements de stockage appelés points de délestage installés aux abords de zones où les véhicules s’arrêtent habituellement, permettant ainsi de relayer les données entre véhicules jusqu'au point de délestage suivant où elles pourront éventuellement être déchargées. Nous proposons ensuite deux extensions étendant le concept de point de délestage selon deux directions dans le contexte de services reposant toujours la mobilité des véhicules. Dans la première extension, nous exploitons les capacités de stockage des points de délestage pour concevoir un service de stockage et partage de fichiers offert aux passagers de véhicules. Dans la seconde extension, nous dématérialisons les points de délestage en zones géographiques pré-définies où un grand nombre de véhicules se rencontrent suffisamment longtemps pour transférer de grandes quantités de données. L’évaluation des performances des différents travaux menés au cours de cette thèse montrent que la mobilité inhérente aux entités du quotidien permet la fourniture de services innovants avec une dépendance limitée vis-à-vis des réseaux de données traditionnels
In this thesis, we exploit the daily mobility of vehicles to create an alternative transmission medium. Our objective is to draw on the many vehicular trips taken by cars or public transports to overcome the limitations of conventional data networks such as the Internet. In the first part, we take advantage of the bandwidth resulting from the mobility of vehicles equipped with storage capabilities to offload large amounts of delay-tolerant traffic from the Internet. Data is transloaded to data storage devices we refer to as offloading spots, located where vehicles stop often and long enough to transfer large amounts of data. Those devices act as data relays, i.e., they store data it is until loaded on and carried by a vehicle to the next offloading spot where it can be dropped off for later pick-up and delivery by another vehicle. We further extend the concept of offloading spots according to two directions in the context of vehicular cloud services. In the first extension, we exploit the storage capabilities of the offloading spots to design a cloud-like storage and sharing system for vehicle passengers. In the second extension, we dematerialize the offloading spots into pre-defined areas with high densities of vehicles that meet long enough to transfer large amounts of data. The performance evaluation of the various works conducted in this thesis shows that everyday mobility of entities surrounding us enables innovative services with limited reliance on conventional data networks

Styles APA, Harvard, Vancouver, ISO, etc.

33

Fraisse, Bernard. « Automatisation, traitement du signal et recueil de données en diffraction x et analyse thermique : Exploitation, analyse et représentation des données ». Montpellier 2, 1995. http://www.theses.fr/1995MON20152.

Texte intégral

Résumé :

La recherche en chimie du solide necessite l'utilisation et la maitrise de techniques indispensables telles que la diffraction des rayons x et l'analyse thermique. Tout en ameliorant leurs performances, l'automatisation des appareils classiques permet a un grand nombre de laboratoires d'acceder a ces techniques pour un cout modeste. Cette derniere n'a pu etre envisagee qu'apres le developpement d'outils informatiques, en particulier les bibliotheques de communication entre le micro-ordinateur et les differents peripheriques. Les logiciels d'acquisition, d'exploitation, de representation tridimensionnelle et de comparaison des diffractogrammes de rayons x avec ceux contenus dans un fichier de references, ont ete concus et ecrits au laboratoire. De plus, la realisation de chambres de mesures autorise l'enregistrement des diffractogrammes en fonction de la temperature. L'experience acquise a pu etre appliquee a l'analyse thermique: les logiciels ecrits permettent respectivement l'acquisition et l'exploitation des diagrammes d'analyse thermique, directe et differentielle

Styles APA, Harvard, Vancouver, ISO, etc.

34

David, Claire. « Analyse de XML avec données non-bornées ». Paris 7, 2009. http://www.theses.fr/2009PA077107.

Texte intégral

Résumé :

Cette thèse est motivée par la spécification et l'analyse de schémas XML, en se focalisant sur données présentes dans les documents. On s'intéresse à des structure de mots et d'arbres dont chaque position ou noeud est étiqueté à la fois par une lettre provenant d'un alphabet fini et par une donnée provenant d'un domaine potentiellement infini muni d'une relation d'égalité. Le travail de cette thèse a été de proposer et étudier des formalismes permettant de spécifier des langages de mots/d'arbres de données et dont le problème de satisfaisabilité soit décidable. Toute la difficulté est de trouver un compromis entre expressivité, décidabilité (et complexité). Une première approche consiste à étendre la logique du premier ordre à l'aide d'un prédicat binaire testant l'égalité de données. On étudie la frontière de décidabilité ainsi que la complexité du problème de satisfaisabilité pour différents fragments/extensions de cette logique et on fait le lien avec la spécification de schémas. Cette approche est élégante et générique, malheureusement les complexités obtenues extrêmement élevées. Afin d'obtenir des résultats de complexité plus raisonnables, on étudie un formalisme basé sur des combinaisons booléennes d'objets appelés "patterns". On s'intéresse encore une fois à la frontière de décidabilité et la complexité du problème de satisfaisabilité, au problème de model-checking. Les complexités obtenues sont plus encourageantes. En terme d'expressivité, ce formalisme est incomparable au précédent, on explicite les liens par rapport aux schémas XML
The motivation of the work is the specification and static analysis of schema for XML documents paying special attention to data values. We consider words and trees whose positions are labeled both by a letter from a finite alphabet and a data value from an infinite domain. Our goal is to find formalisms which offer good trade-offs between expressibility, decidability and complexity (for the satisfiability problem). We first study an extension of first-order logic with a binary predicate representing data equality. We obtain interesting some interesting results when we consider the two variable fragment. This appraoch is elegant but the complexity results are not encouraging. We proposed another formalism based data patterns which can be desired, forbidden or any boolean combination thereof. We drw precisely the decidability frontier for various fragments on this model. The complexity results that we get, while still high, seems more amenable. In terms of expressivity theses two approaches are orthogonal, the two variable fragment of the extension of FO can expressed unary key and unary foreign key while the boolean combination of data pattern can express arbitrary key but can not express foreign key

Styles APA, Harvard, Vancouver, ISO, etc.

35

Abdali, Abdelkebir. « Systèmes experts et analyse de données industrielles ». Lyon, INSA, 1992. http://www.theses.fr/1992ISAL0032.

Texte intégral

Résumé :

L'analyse du fonctionnement des Systèmes de Production Industrielle s'appuie sur des informations de natures diverses. Une bonne partie d'entre elles se présentant sous forme numérisée, on leur applique des méthodes d'analyse des données dont les résultats doivent être confrontés, puis interprétés à l'aide des autres connaissances. Notre travail s'insère dans le cadre de l'application des techniques de l'Intelligence Artificielle à la Statistique. Il vise en particulier à étudier la faisabilité et le développement d'un Système Expert Statistique dans le domaine des Systèmes de Production Industrielle. Nous avons élaboré ALADIN (Aide Logicielle pour l'Analyse de Données Industrielles), un système destiné à aider un utilisateur non-spécialiste à analyser des données recueillies sur des procédés industriels. L'architecture de ce système est flexible et allie aspect qualitatif (connaissances sur les procédés industriels et connaissances sur les méthodes statistiques et d'analyse de données) et aspect quantitatif (collection de programmes d'analyse). Pour l'instant, nous nous sommes limités aux problèmes d'Analyse en Composantes Principales. Outre l'aspect industriel, ALADIN présente l'avantage de fournir une assistance au niveau de chacun des nombreux maillons de la conduite d'une analyse de données et particulièrement en amont de l'analyse proprement dite i. E. Lors de la phase de prétraitement et de préparation des données: cette étape, toujours nécessaire compte tenu de la nature des mesures, est en effet généralement longue et fastidieuse
To analyses industrial process behavio, many kinds of information are needed. As tye ar mostly numerical, statistical and data analysis methods are well-suited to this activity. Their results must be interpreted with other knowledge about analysis prcess. Our work falls within the framework of the application of the techniques of the Artificial Intelligence to the Statistics. Its aim is to study the feasibility and the development of statistical expert systems in an industrial process field. The prototype ALADIN is a knowledge-base system designed to be an intelligent assistant to help a non-specialist user analyze data collected on industrial processes, written in Turbo-Prolong, it is coupled with the statistical package MODULAD. The architecture of this system is flexible and combing knowledge with general plants, the studied process and statistical methods. Its validation is performed on continuous manufacturing processes (cement and cast iron processes). At present time, we have limited to principal Components analysis problems

Styles APA, Harvard, Vancouver, ISO, etc.

36

Rabah, Mazouzi. « Approches collaboratives pour la classification des données complexes ». Electronic Thesis or Diss., Paris 8, 2016. http://www.theses.fr/2016PA080079.

Texte intégral

Résumé :

La présente thèse s'intéresse à la classification collaborative dans un contexte de données complexes, notamment dans le cadre du Big Data, nous nous sommes penchés sur certains paradigmes computationels pour proposer de nouvelles approches en exploitant des technologies de calcul intensif et large echelle. Dans ce cadre, nous avons mis en oeuvre des classifieurs massifs, au sens où le nombre de classifieurs qui composent le multi-classifieur peut être tres élevé. Dans ce cas, les méthodes classiques d'interaction entre classifieurs ne demeurent plus valables et nous devions proposer de nouvelles formes d'interactions, qui ne se contraignent pas de prendre la totalité des prédictions des classifieurs pour construire une prédiction globale. Selon cette optique, nous nous sommes trouvés confrontés à deux problèmes : le premier est le potientiel de nos approches à passer à l'echelle. Le second, relève de la diversité qui doit être créée et maintenue au sein du système, afin d'assurer sa performance. De ce fait, nous nous sommes intéressés à la distribution de classifieurs dans un environnement de Cloud-computing, ce système multi-classifieurs est peut etre massif et ses propréités sont celles d'un système complexe. En terme de diversité des données, nous avons proposé une approche d'enrichissement de données d'apprentissage par la génération de données de synthèse, à partir de modèles analytiques qui décrivent une partie du phenomène étudié. Aisni, la mixture des données, permet de renforcer l'apprentissage des classifieurs. Les expérientations menées ont montré un grand potentiel pour l'amélioration substantielle des résultats de classification
This thesis focuses on the collaborative classification in the context of complex data, in particular the context of Big Data, we used some computational paradigms to propose new approaches based on HPC technologies. In this context, we aim at offering massive classifiers in the sense that the number of elementary classifiers that make up the multiple classifiers system can be very high. In this case, conventional methods of interaction between classifiers is no longer valid and we had to propose new forms of interaction, where it is not constrain to take all classifiers predictions to build an overall prediction. According to this, we found ourselves faced with two problems: the first is the potential of our approaches to scale up. The second, is the diversity that must be created and maintained within the system, to ensure its performance. Therefore, we studied the distribution of classifiers in a cloud-computing environment, this multiple classifiers system can be massive and their properties are those of a complex system. In terms of diversity of data, we proposed a training data enrichment approach for the generation of synthetic data from analytical models that describe a part of the phenomenon studied. so, the mixture of data reinforces learning classifiers. The experimentation made have shown the great potential for the substantial improvement of classification results

Styles APA, Harvard, Vancouver, ISO, etc.

37

Cayot, Robert-Olivier. « Récupération automatique d'erreurs syntaxiques en analyse discriminante rétrograde ». Nice, 2001. http://www.theses.fr/2001NICE5690.

Texte intégral

Styles APA, Harvard, Vancouver, ISO, etc.

38

Sibony, Eric. « Analyse mustirésolution de données de classements ». Electronic Thesis or Diss., Paris, ENST, 2016. http://www.theses.fr/2016ENST0036.

Texte intégral

Résumé :

Cette thèse introduit un cadre d’analyse multirésolution pour les données de classements. Initiée au 18e siècle dans le contexte d’élections, l’analyse des données de classements a attiré un intérêt majeur dans de nombreux domaines de la littérature scientifique : psychométrie, statistiques, économie, recherche opérationnelle, apprentissage automatique ou choix social computationel entre autres. Elle a de plus été revitalisée par des applications modernes comme les systèmes de recommandation, où le but est d’inférer les préférences des utilisateurs pour leur proposer les meilleures suggestions personnalisées. Dans ces contextes, les utilisateurs expriment leurs préférences seulement sur des petits sous-ensembles d’objets variant au sein d’un large catalogue. L’analyse de tels classements incomplets pose cependant un défi important, tant du point de vue statistique que computationnel, poussant les acteurs industriels à utiliser des méthodes qui n’exploitent qu’une partie de l’information disponible. Cette thèse introduit une nouvelle représentation pour les données, qui surmonte par construction ce double défi. Bien qu’elle repose sur des résultats de combinatoire et de topologie algébrique, ses nombreuses analogies avec l’analyse multirésolution en font un cadre naturel et efficace pour l’analyse des classements incomplets. Ne faisant aucune hypothèse sur les données, elle mène déjà à des estimateurs au-delà de l’état-de-l’art pour des petits catalogues d’objets et peut être combinée avec de nombreuses procédures de régularisation pour des larges catalogues. Pour toutes ces raisons, nous croyons que cette représentation multirésolution ouvre la voie à de nombreux développements et applications futurs
This thesis introduces a multiresolution analysis framework for ranking data. Initiated in the 18th century in the context of elections, the analysis of ranking data has attracted a major interest in many fields of the scientific literature : psychometry, statistics, economics, operations research, machine learning or computational social choice among others. It has been even more revitalized by modern applications such as recommender systems, where the goal is to infer users preferences in order to make them the best personalized suggestions. In these settings, users express their preferences only on small and varying subsets of a large catalog of items. The analysis of such incomplete rankings poses however both a great statistical and computational challenge, leading industrial actors to use methods that only exploit a fraction of available information. This thesis introduces a new representation for the data, which by construction overcomes the two aforementioned challenges. Though it relies on results from combinatorics and algebraic topology, it shares several analogies with multiresolution analysis, offering a natural and efficient framework for the analysis of incomplete rankings. As it does not involve any assumption on the data, it already leads to overperforming estimators in small-scale settings and can be combined with many regularization procedures for large-scale settings. For all those reasons, we believe that this multiresolution representation paves the way for a wide range of future developments and applications

Styles APA, Harvard, Vancouver, ISO, etc.

39

Ghesmoune, Mohammed. « Apprentissage non supervisé de flux de données massives : application aux Big Data d'assurance ». Thesis, Sorbonne Paris Cité, 2016. http://www.theses.fr/2016USPCD061/document.

Texte intégral

Résumé :

Le travail de recherche exposé dans cette thèse concerne le développement d'approches à base de growing neural gas (GNG) pour le clustering de flux de données massives. Nous proposons trois extensions de l'approche GNG : séquentielle, distribuée et parallèle, et une méthode hiérarchique; ainsi qu'une nouvelle modélisation pour le passage à l'échelle en utilisant le paradigme MapReduce et l'application de ce modèle pour le clustering au fil de l'eau du jeu de données d'assurance. Nous avons d'abord proposé la méthode G-Stream. G-Stream, en tant que méthode "séquentielle" de clustering, permet de découvrir de manière incrémentale des clusters de formes arbitraires et en ne faisant qu'une seule passe sur les données. G-Stream utilise une fonction d'oubli an de réduire l'impact des anciennes données dont la pertinence diminue au fil du temps. Les liens entre les nœuds (clusters) sont également pondérés par une fonction exponentielle. Un réservoir de données est aussi utilisé an de maintenir, de façon temporaire, les observations très éloignées des prototypes courants. L'algorithme batchStream traite les données en micro-batch (fenêtre de données) pour le clustering de flux. Nous avons défini une nouvelle fonction de coût qui tient compte des sous ensembles de données qui arrivent par paquets. La minimisation de la fonction de coût utilise l'algorithme des nuées dynamiques tout en introduisant une pondération qui permet une pénalisation des données anciennes. Une nouvelle modélisation utilisant le paradigme MapReduce est proposée. Cette modélisation a pour objectif de passer à l'échelle. Elle consiste à décomposer le problème de clustering de flux en fonctions élémentaires (Map et Reduce). Ainsi de traiter chaque sous ensemble de données pour produire soit les clusters intermédiaires ou finaux. Pour l'implémentation de la modélisation proposée, nous avons utilisé la plateforme Spark. Dans le cadre du projet Square Predict, nous avons validé l'algorithme batchStream sur les données d'assurance. Un modèle prédictif combinant le résultat du clustering avec les arbres de décision est aussi présenté. L'algorithme GH-Stream est notre troisième extension de GNG pour la visualisation et le clustering de flux de données massives. L'approche présentée a la particularité d'utiliser une structure hiérarchique et topologique, qui consiste en plusieurs arbres hiérarchiques représentant des clusters, pour les tâches de clustering et de visualisation
The research outlined in this thesis concerns the development of approaches based on growing neural gas (GNG) for clustering of data streams. We propose three algorithmic extensions of the GNG approaches: sequential, distributed and parallel, and hierarchical; as well as a model for scalability using MapReduce and its application to learn clusters from the real insurance Big Data in the form of a data stream. We firstly propose the G-Stream method. G-Stream, as a “sequential" clustering method, is a one-pass data stream clustering algorithm that allows us to discover clusters of arbitrary shapes without any assumptions on the number of clusters. G-Stream uses an exponential fading function to reduce the impact of old data whose relevance diminishes over time. The links between the nodes are also weighted. A reservoir is used to hold temporarily the distant observations in order to reduce the movements of the nearest nodes to the observations. The batchStream algorithm is a micro-batch based method for clustering data streams which defines a new cost function taking into account that subsets of observations arrive in discrete batches. The minimization of this function, which leads to a topological clustering, is carried out using dynamic clusters in two steps: an assignment step which assigns each observation to a cluster, followed by an optimization step which computes the prototype for each node. A scalable model using MapReduce is then proposed. It consists of decomposing the data stream clustering problem into the elementary functions, Map and Reduce. The observations received in each sub-dataset (within a time interval) are processed through deterministic parallel operations (Map and Reduce) to produce the intermediate states or the final clusters. The batchStream algorithm is validated on the insurance Big Data. A predictive and analysis system is proposed by combining the clustering results of batchStream with decision trees. The architecture and these different modules from the computational core of our Big Data project, called Square Predict. GH-Stream for both visualization and clustering tasks is our third extension. The presented approach uses a hierarchical and topological structure for both of these tasks

Styles APA, Harvard, Vancouver, ISO, etc.

40

Bodin, Bruno. « Analyse d'Applications Flot de Données pour la Compilation Multiprocesseur ». Phd thesis, Université Pierre et Marie Curie - Paris VI, 2013. http://tel.archives-ouvertes.fr/tel-00922578.

Texte intégral

Résumé :

Les systèmes embarqués sont des équipements électroniques et informatiques, soumis à de nombreuses contraintes et dont le fonctionnement doit être continu. Pour définir le comportement de ces systèmes, les modèles de programmation dataflows sont souvent utilisés. Ce choix de modèle est motivé d'une part, parce qu'ils permettent de décrire un comportement cyclique, nécessaire aux systèmes embarqués ; et d'autre part, parce que ces modèles s'apprêtent à des analyses qui peuvent fournir des garanties de fonctionnement et de performance essentielles. La société Kalray propose une architecture embarquée, le MPPA. Il est accompagné du langage de programmation ΣC. Ce langage permet alors de décrire des applications sous forme d'un modèle dataflow déjà très étudié, le modèle Cyclo-Static Dataflow Graph(CSDFG). Cependant, les CSDFG générés par ce langage sont souvent trop complexes pour permettre l'utilisation des techniques d'analyse existantes. L'objectif de cette thèse est de fournir des outils algorithmiques qui résolvent les différentes étapes d'analyse nécessaires à l'étude d'une application ΣC, mais dans un temps d'exécution raisonnable, et sur des instances de grande taille. Nous étudions trois problèmes d'analyse distincts : le test de vivacité, l'évaluation du débit maximal, et le dimensionnement mémoire. Pour chacun de ces problèmes, nous fournissons des méthodes algorithmiques rapides, et dont l'efficacité a été vérifiée expérimentalement. Les méthodes que nous proposons sont issues de résultats sur les ordonnancements périodiques ; elles fournissent des résultats approchés et sans aucune garantie de performance. Pour pallier cette faiblesse, nous proposons aussi de nouveaux outils d'analyse basés sur les ordonnancements K-périodiques. Ces ordonnancements généralisent nos travaux d'ordonnancement périodiques et nous permettrons dans un avenir proche de concevoir des méthodes d'analyse bien plus efficaces.

Styles APA, Harvard, Vancouver, ISO, etc.

41

Lefebvre, Sylvain. « Services de répartition de charge pour le Cloud : application au traitement de données multimédia ». Phd thesis, Conservatoire national des arts et metiers - CNAM, 2013. http://tel.archives-ouvertes.fr/tel-01062823.

Texte intégral

Résumé :

Le travail de recherche mené dans cette thèse consiste à développer de nouveaux algorithmes de répartition de charge pour les systèmes de traitement de données massives. Le premier algorithme mis au point, nommé "WACA" (Workload and Cache Aware Algorithm) améliore le temps d'exécution des traitements en se basant sur des résumés de contenus. Le second algorithme, appelé "CAWA" (Cost Aware Algorithm) tire partie de l'information de coût disponible dans les plateformes de type "Cloud Computing" en étudiant l'historique d'exécution des services.L'évaluation de ces algorithmes a nécessité le développement d'un simulateur d'infrastructures de "Cloud" nommé Simizer, afin de permettre leur test avant le déploiement en conditions réelles. Ce déploiement peut se faire de manière transparente grâce au système de distribution et de surveillance de service web nommé "Cloudizer", développé aussi dans le cadre de cette thèse. Ces travaux s'inscrivent dans le cadredu projet de plateforme de traitement de données Multimédia for Machine to Machine (MCUBE), dans le lequel le canevas Cloudizer est mis en oeuvre.

Styles APA, Harvard, Vancouver, ISO, etc.

42

Fize, Jacques. « Mise en correspondance de données textuelles hétérogènes fondée sur la dimension spatiale ». Thesis, Montpellier, 2019. http://www.theses.fr/2019MONTS099.

Texte intégral

Résumé :

Avec l’essor du Big Data, le traitement du Volume, de la Vélocité (croissance et évolution) et de la Variété de la donnée concentre les efforts des différentes communautés pour exploiter ces nouvelles ressources. Ces nouvelles ressources sont devenues si importantes, que celles-ci sont considérées comme le nouvel « or noir ». Au cours des dernières années, le volume et la vélocité sont des aspects de la donnée qui sont maitrisés contrairement à la variété qui elle reste un défi majeur. Cette thèse présente deux contributions dans le domaine de mise en correspondance de données hétérogènes, avec un focus sur la dimensions spatiale.La première contribution repose sur un processus de mise en correspondance de données textuelles hétérogènes divisé en deux étapes : la géoreprésentation et le géomatching. Dans la première phase, nous proposons de représenter la dimension spatiale de chaque document d'un corpus à travers une structure dédiée, la Spatial Textual Representation (STR). Cette représentation de type graphe est composée des entités spatiales identifiées dans le document, ainsi que les relations spatiales qu'elles entretiennent. Pour identifier les entités spatiales d'un document et leurs relations spatiales, nous proposons une ressource dédiée, nommée Geodict. La seconde phase, le géomatching, consiste à mesurer la similarité entre les représentations générées (STR). S'appuyant sur la nature de la structure de la STR (i.e. graphe), différents algorithmes de graph matching ont été étudiés. Pour évaluer la pertinence d'une correspondance, nous proposons un ensemble de 6 critères s'appuyant sur une définition de la similarité spatiale entre deux documents.La seconde contribution repose sur la dimension thématique des données textuelles et sa participation dans le processus de mise en correspondance spatiale. Nous proposons d'identifier les thèmes apparaissant dans la même fenêtre contextuelle que certaines entités spatiales. L'objectif est d'induire certaines des similarités spatiales implicites entre les documents. Pour cela, nous proposons d'étendre la structure de la STR à l'aide de deux concepts : l'entité thématique et de la relation thématique. L'entité thématique représente un concept propre à un domaine particulier (agronome, médical) et représenté selon différentes orthographes présentes dans une ressource terminologique, ici un vocabulaire. Une relation thématique lie une entité spatiale à une entité thématique si celles-ci apparaissent dans une même fenêtre contextuelle. Les vocabulaires choisis ainsi que la nouvelle forme de la STR intégrant la dimension thématique sont évalués selon leur couverture sur les corpus étudiés, ainsi que leurs contributions dans le processus de mise en correspondance spatiale
With the rise of Big Data, the processing of Volume, Velocity (growth and evolution) and data Variety concentrates the efforts of communities to exploit these new resources. These new resources have become so important that they are considered the new "black gold". In recent years, volume and velocity have been aspects of the data that are controlled, unlike variety, which remains a major challenge. This thesis presents two contributions in the field of heterogeneous data matching, with a focus on the spatial dimension.The first contribution is based on a two-step process for matching heterogeneous textual data: georepresentation and geomatching. In the first phase, we propose to represent the spatial dimension of each document in a corpus through a dedicated structure, the Spatial Textual Representation (STR). This graph representation is composed of the spatial entities identified in the document, as well as the spatial relationships they maintain. To identify the spatial entities of a document and their spatial relationships, we propose a dedicated resource, called Geodict. The second phase, geomatching, computes the similarity between the generated representations (STR). Based on the nature of the STR structure (i.e. graph), different algorithms of graph matching were studied. To assess the relevance of a match, we propose a set of 6 criteria based on a definition of the spatial similarity between two documents.The second contribution is based on the thematic dimension of textual data and its participation in the spatial matching process. We propose to identify the themes that appear in the same contextual window as certain spatial entities. The objective is to induce some of the implicit spatial similarities between the documents. To do this, we propose to extend the structure of STR using two concepts: the thematic entity and the thematic relationship. The thematic entity represents a concept specific to a particular field (agronomic, medical) and represented according to different spellings present in a terminology resource, in this case a vocabulary. A thematic relationship links a spatial entity to a thematic entity if they appear in the same window. The selected vocabularies and the new form of STR integrating the thematic dimension are evaluated according to their coverage on the studied corpora, as well as their contributions to the heterogeneous textual matching process on the spatial dimension

Styles APA, Harvard, Vancouver, ISO, etc.

43

Lefebvre, Sylvain. « Services de répartition de charge pour le Cloud : application au traitement de données multimédia ». Electronic Thesis or Diss., Paris, CNAM, 2013. http://www.theses.fr/2013CNAM0910.

Texte intégral

Résumé :

Le travail de recherche mené dans cette thèse consiste à développer de nouveaux algorithmes de répartition de charge pour les systèmes de traitement de données massives. Le premier algorithme mis au point, nommé "WACA" (Workload and Cache Aware Algorithm) améliore le temps d’exécution des traitements en se basant sur des résumés de contenus. Le second algorithme, appelé "CAWA" (Cost Aware Algorithm) tire partie de l’information de coût disponible dans les plateformes de type "Cloud Computing" en étudiant l’historique d’exécution des services.L’évaluation de ces algorithmes a nécessité le développement d’un simulateur d’infrastructures de "Cloud" nommé Simizer, afin de permettre leur test avant le déploiement en conditions réelles. Ce déploiement peut se faire de manière transparente grâce au système de distribution et de surveillance de service web nommé "Cloudizer", développé aussi dans le cadre de cette thèse. Ces travaux s’inscrivent dans le cadredu projet de plateforme de traitement de données Multimédia for Machine to Machine (MCUBE), dans le lequel le canevas Cloudizer est mis en oeuvre
The research work carried out in this thesis consists in the development of new load balancing algorithms aimed at big data computing. The first algorithm, called « WACA » (Workload and Cache Aware Algorithm), enhances response times by locating data efficiently through content summaries. The second algorithm, called CAWA (Cost AWare Algorithm) takes advantage of the cost information available on Cloud Computing platforms by studying the workload history.Evaluation of these algorithms required the development of a cloud infrastructure simulator named Simizer, to enable testing of these policies prior to their deployment. This deployment can be transparently done thanks to the Cloudizer web service distribution and monitoring system, also developed during this thesis. These works are included in the Multimedia for Machine to Machine (MCUBE) project, where the Cloudizer Framework is deployed

Styles APA, Harvard, Vancouver, ISO, etc.

44

Sibony, Eric. « Analyse mustirésolution de données de classements ». Thesis, Paris, ENST, 2016. http://www.theses.fr/2016ENST0036/document.

Texte intégral

Résumé :

Cette thèse introduit un cadre d’analyse multirésolution pour les données de classements. Initiée au 18e siècle dans le contexte d’élections, l’analyse des données de classements a attiré un intérêt majeur dans de nombreux domaines de la littérature scientifique : psychométrie, statistiques, économie, recherche opérationnelle, apprentissage automatique ou choix social computationel entre autres. Elle a de plus été revitalisée par des applications modernes comme les systèmes de recommandation, où le but est d’inférer les préférences des utilisateurs pour leur proposer les meilleures suggestions personnalisées. Dans ces contextes, les utilisateurs expriment leurs préférences seulement sur des petits sous-ensembles d’objets variant au sein d’un large catalogue. L’analyse de tels classements incomplets pose cependant un défi important, tant du point de vue statistique que computationnel, poussant les acteurs industriels à utiliser des méthodes qui n’exploitent qu’une partie de l’information disponible. Cette thèse introduit une nouvelle représentation pour les données, qui surmonte par construction ce double défi. Bien qu’elle repose sur des résultats de combinatoire et de topologie algébrique, ses nombreuses analogies avec l’analyse multirésolution en font un cadre naturel et efficace pour l’analyse des classements incomplets. Ne faisant aucune hypothèse sur les données, elle mène déjà à des estimateurs au-delà de l’état-de-l’art pour des petits catalogues d’objets et peut être combinée avec de nombreuses procédures de régularisation pour des larges catalogues. Pour toutes ces raisons, nous croyons que cette représentation multirésolution ouvre la voie à de nombreux développements et applications futurs
This thesis introduces a multiresolution analysis framework for ranking data. Initiated in the 18th century in the context of elections, the analysis of ranking data has attracted a major interest in many fields of the scientific literature : psychometry, statistics, economics, operations research, machine learning or computational social choice among others. It has been even more revitalized by modern applications such as recommender systems, where the goal is to infer users preferences in order to make them the best personalized suggestions. In these settings, users express their preferences only on small and varying subsets of a large catalog of items. The analysis of such incomplete rankings poses however both a great statistical and computational challenge, leading industrial actors to use methods that only exploit a fraction of available information. This thesis introduces a new representation for the data, which by construction overcomes the two aforementioned challenges. Though it relies on results from combinatorics and algebraic topology, it shares several analogies with multiresolution analysis, offering a natural and efficient framework for the analysis of incomplete rankings. As it does not involve any assumption on the data, it already leads to overperforming estimators in small-scale settings and can be combined with many regularization procedures for large-scale settings. For all those reasons, we believe that this multiresolution representation paves the way for a wide range of future developments and applications

Styles APA, Harvard, Vancouver, ISO, etc.

45

Ben, Hedia Belgacem. « Analyse temporelle des systèmes d'acquisition de données : une approche à base d'automates temporisés communicants et d'observateurs ». Lyon, INSA, 2008. http://theses.insa-lyon.fr/publication/2008ISAL0111/these.pdf.

Texte intégral

Résumé :

Dans le cadre des applications temps réel de contrôle de procédé, la thèse propose une théorie et de soutils formels pour caractériser temporellement le retard des données acquises sur l'état du procédé, acquisition réalisée via un logiciel dédié appelé pilote. Le contexte et le domaine d'étude de la thèse se base sur les éléments constituant une chaîne d'acquisition de données dans un contexte de contrôle de procédé, les différentes caractéristiques temporelles et les approches pour les évaluer vis-à-vis des flots de données acheminés dans la chaîne d'acquisition. Ce travail s'appuie sur un ensemble des bases théoriques requises pour cette caractérisation, particulièrement les automates temporisés communicants, les systèmes de transitions étiqutées et la vérification formelle de propriétés sur ces automates, et en particulier les observateurs. Nous proposons d'abord de formaliser les principes formels de l'évaluation des propriétés temporelles des flots de données. L'approche se concentre sur le comportement des occurences d'un flot de données dans une chaîne d'acquisition et sur la mise en place de l'observation pour l'évaluation de leurs caractéristiques temporelles et spécialement le retard. Ensuite, nous donnons les clefs techniques de la modélisation d enotre approche en IF et nous proposons des exemples de modélisation de quelques éléments de la chaîne d'acquisition, mais aussi la modélisation de l'observation pour l'évaluation des caractéristiques temporelles. Cette modélisation s'appuie sur deux approches différentes de modélisation de la chaîne d'acquisition, un premier à un niveau de spécification et un autre à un niveau d'implémentation. Enfin, nous donnons les résultats de l'approche proposée sur des exemples de chaînes d'acquisition, et nous présentons plusieurs utilisations possibles des résultats obtenus (paramétrage ou tuning d'un pilote d'équipement, détermination du langage de retard pour une chaîne d'acquisition). Au final, l'étude de l'évaluation du retard montre l'influence des paramètres de configuration du pilote sur les retards des données traitées par l'application.

Styles APA, Harvard, Vancouver, ISO, etc.

46

Bisgambiglia, Paul-Antoine. « Traitement numérique et informatique de la modélisation spectrale ». Corte, 1989. http://www.theses.fr/1989CORT3002.

Texte intégral

Résumé :

L'ensemble du travail présent dans ce mémoire se coordonne autour des deux points forts suivants: mise au point d'un logiciel informatique spécifique appliqué à la résolution de problèmes décrits par des formes variationnelles faisant intervenir des opérateurs linéaires du second ordre. Cet outil est un logiciel d'éléments finis original (permettant de résoudre des problèmes numériques ardus, sur des petits calculateurs de type pc, et malgré tout très souple d'utilisation) car reposant sur des théorèmes et résultats nouveaux concernant les formes variationnelles, les bases propres, associées aux différents opérateurs permettant de décrire une gamme très large de problèmes. Traitement complet de problèmes de modélisation complexes, par application de la théorie et des méthodes issus de l'analyse spectrale, depuis leurs fondements les plus théoriques, jusqu'à leur résolution.

Styles APA, Harvard, Vancouver, ISO, etc.

47

Auber, David. « Outils de visualisation de larges structures de données ». Bordeaux 1, 2002. http://www.theses.fr/2002BOR12607.

Texte intégral

Résumé :

Cette thèse présente un ensemble de résultats théoriques et pratiques, applicables dans le cadre de la visualisation d'informations. La première partie présente l'étude précise d'une structure de données performante. Dans la deuxième partie, nous présentons une amélioration de l'algorithme de Carriere et Kazman dédié au dessin d'arbres en 3D. Puis, nous présentons un algorithme, de complexité mémoire linéaire, permettant la représentation hiérarchique de grands graphes. Dans la troisième partie, nous donnons une méthode de simplification de graphes que npous utilisons pour respecter les contraintes temporelles imposées par le système de perception humain. Nous démontrons certaines propriétés combinatoires du paramètre Strahler et nous en proposons une extension aux cartes pointées. La quatrième partie se consacre à l'étude de deux algorithmes de fragmentation de graphes. Le premier est dédié aux arbres et améliore les résultats obtenus par Herman et al. Le deuxième est consacré aux graphes généraux. Il permet, par exemple, dans le cadre de l'analyse de programmes informatiques d'extraire automatiquement des composants logiciels. L'originalité des deux algorithmes proposés est qu'ils reposent sur des paramètres combinatoires et sont ainsi utilisables sur de grandes structures. Enfin, nous concluons par une brève description de la plate-forme logicielle que nous avons élaborée pour permettre l'expérimentation de nos résultats.

Styles APA, Harvard, Vancouver, ISO, etc.

48

Aubert, Pierre. « Calcul haute performance pour la détection de rayon Gamma ». Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLV058/document.

Texte intégral

Résumé :

La nouvelle génération d'expériences de physique produira une quantité de données sans précédent. Cette augmentation du flux de données cause des bouleversements techniques à tous les niveaux, comme le stockage des données, leur analyse, leur dissémination et leur préservation.Le projet CTA sera le plus grand observatoire d'astronomie gamma au sol à partir de 2021. Il produira plusieurs centaines de Péta-octets de données jusqu'en 2030 qui devront être analysées, stockée, compressées, et réanalysées tous les ans.Ce travail montre comment optimiser de telles analyses de physique avec les techniques de l'informatique hautes performances par le biais d'un générateur de format de données efficace, d'optimisation bas niveau de l'utilisation du pipeline CPU et de la vectorisation des algorithmes existants, un algorithme de compression rapide d'entiers et finalement une nouvelle analyse de données basée sur une méthode de comparaison d'image optimisée
The new generation research experiments will introduce huge data surge to a continuously increasing data production by current experiments. This increasing data rate causes upheavals at many levels, such as data storage, analysis, diffusion and conservation.The CTA project will become the utmost observatory of gamma astronomy on the ground from 2021. It will generate hundreds Peta-Bytes of data by 2030 and will have to be stored, compressed and analyzed each year.This work address the problems of data analysis optimization using high performance computing techniques via an efficient data format generator, very low level programming to optimize the CPU pipeline and vectorization of existing algorithms, introduces a fast compression algorithm for integers and finally exposes a new analysis algorithm based on efficient pictures comparison

Styles APA, Harvard, Vancouver, ISO, etc.

49

Marcel, Patrick. « Manipulations de données multidimensionnelles et langages de règles ». Lyon, INSA, 1998. http://www.theses.fr/1998ISAL0093.

Texte intégral

Résumé :

Ce travail est une contribution à 1' étude des manipulations dans les entrepôts de données. Dans la première partie, nous présentons un état de l'art concernant les langages de manipulations de données multidimensionnelles dans les systèmes d'analyse en ligne de données (systèmes OLAP). Nous mettons en évidence des possibilités de combinaisons intéressantes qui n'ont pas été étudiées. Ces pistes sont utilisées dans la deuxième partie pour proposer un langage de manipulation de données simple à base de règles, qui permet de spécifier les traitements typiques dans les systèmes OLAP. Dans une troisième partie, nous illustrons l'exploitation de ce langage pour décrire des traitements de type OLAP dans les tableurs, et automatiser en partie la génération des feuilles de calcul
This works is a contribution to the study of the manipulations in data warehouses. In the first part, we present a state of the art about multidimensional data manipulation languages in systems dedicated to On-Line analytical Processing (OLAP systems). We point out interesting combinations that haven't been studied. These conclusions are used in the second part to propose a simple rule-based language allowing specifying typical treatments arising in OLAP systems. In a third part, we illustrate the use of the language to describe OLAP treatments in spreadsheets, and to generate semi automatic spreadsheet programs

Styles APA, Harvard, Vancouver, ISO, etc.

50

Schaefer, Xavier. « Bases de données orientées objet, contraintes d'intégrité et analyse statique ». Paris 1, 1997. http://www.theses.fr/1997PA010098.

Texte intégral

Styles APA, Harvard, Vancouver, ISO, etc.

Nous offrons des réductions sur tous les plans premium pour les auteurs dont les œuvres sont incluses dans des sélections littéraires thématiques. Contactez-nous pour obtenir un code promo unique!