Dissertationen zum Thema „Données massives – Gestion“

Um die anderen Arten von Veröffentlichungen zu diesem Thema anzuzeigen, folgen Sie diesem Link: Données massives – Gestion.

Geben Sie eine Quelle nach APA, MLA, Chicago, Harvard und anderen Zitierweisen an

Wählen Sie eine Art der Quelle aus:

Machen Sie sich mit Top-39 Dissertationen für die Forschung zum Thema "Données massives – Gestion" bekannt.

Neben jedem Werk im Literaturverzeichnis ist die Option "Zur Bibliographie hinzufügen" verfügbar. Nutzen Sie sie, wird Ihre bibliographische Angabe des gewählten Werkes nach der nötigen Zitierweise (APA, MLA, Harvard, Chicago, Vancouver usw.) automatisch gestaltet.

Sie können auch den vollen Text der wissenschaftlichen Publikation im PDF-Format herunterladen und eine Online-Annotation der Arbeit lesen, wenn die relevanten Parameter in den Metadaten verfügbar sind.

Sehen Sie die Dissertationen für verschiedene Spezialgebieten durch und erstellen Sie Ihre Bibliographie auf korrekte Weise.

1

Dia, Amadou Fall. „Filtrage sémantique et gestion distribuée de flux de données massives“. Electronic Thesis or Diss., Sorbonne université, 2018. http://www.theses.fr/2018SORUS495.

Der volle Inhalt der Quelle
Annotation:
Notre utilisation quotidienne de l’Internet et des technologies connexes génère, de manière continue et à des vitesses rapides et variables, de grandes quantités de données hétérogènes issues des réseaux de capteurs, des logs de moteurs de recherches génériques ou spécialisés, des données de sites de contenu multimédia, des données de mesure de stations météorologiques, de la géolocalisation, des applications IoT (l’Internet des objets), etc. Traiter de telles données dans les bases de données conventionnelles (Systèmes de Gestion de Bases de Données Relationnelles) peut être très coûteux en ressources temporelles et mémoires. Pour répondre efficacement aux besoins et aider à la prise de décision, ces flots d’informations nécessitent des traitements en temps réel. Les Systèmes de Gestion de Flux de Données (SGFDs) posent et évaluent des requêtes sur les données récentes d’un flux dans des structures appelées fenêtre. Les données en entrée des SGFDs sont de différents formats bruts tels que CSV, XML, RSS, ou encore JSON. Ce verrou d’hétérogénéité émane de la nature des flux de données et doit être levé. Pour cela, plusieurs groupes de recherche ont bénéficié des avantages des technologies du web sémantique (RDF et SPARQL) en proposant des systèmes de traitement de flux de données RDF appelés RSPs. Cependant, la volumétrie des données, le débit d’entrée élevé, les requêtes concurrentes, le croisement des flux RDF à de larges volumes de données stockées et les calculs coûteux baissent considérablement les performances de ces systèmes. Il faut prévoir une nouvelle approche de réduction de la charge de traitement des flux de données RDF. Dans cette thèse, nous proposons plusieurs solutions pour réduire la charge de traitement de flux de données en mode centralisé. Une approche d’échantillonnage à la volée de flux de graphes RDF est proposée afin de réduire la charge de données et du traitement des flux tout en préservant les liens sémantiques. Cette approche est approfondie en adoptant une méthode de résumé orienté graphe pour extraire des graphes RDF les informations les plus pertinentes en utilisant des mesures de centralité issues de l’Analyse des Réseaux Sociaux. Nous adoptons également un format compressé des données RDF et proposons une approche d’interrogation de données RDF compressées sans phase de décompression. Pour assurer une gestion parallèle et distribuée des flux de données, le travail présenté propose deux solutions supplémentaires de réduction de la charge de traitement en mode distribué : un moteur de traitement parallèle et distribué de flux de graphes RDF et une approche de traitement optimisé des opérations de croisement entre données statiques et dynamiques sont présentés
Our daily use of the Internet and related technologies generates, at a rapid and variable speeds, large volumes of heterogeneous data issued from sensor networks, search engine logs, multimedia content sites, weather forecasting, geolocation, Internet of Things (IoT) applications, etc. Processing such data in conventional databases (Relational Database Management Systems) may be very expensive in terms of time and memory storage resources. To effectively respond to the needs of rapid decision-making, these streams require real-time processing. Data Stream Management Systems (SGFDs) evaluate queries on the recent data of a stream within structures called windows. The input data are different formats such as CSV, XML, RSS, or JSON. This heterogeneity lock comes from the nature of the data streams and must be resolved. For this, several research groups have benefited from the advantages of semantic web technologies (RDF and SPARQL) by proposing RDF data streams processing systems called RSPs. However, large volumes of RDF data, high input streams, concurrent queries, combination of RDF streams and large volumes of stored RDF data and expensive processing drastically reduce the performance of these systems. A new approach is required to considerably reduce the processing load of RDF data streams. In this thesis, we propose several complementary solutions to reduce the processing load in centralized environment. An on-the-fly RDF graphs streams sampling approach is proposed to reduce data and processing load while preserving semantic links. This approach is deepened by adopting a graph-oriented summary approach to extract the most relevant information from RDF graphs by using centrality measures issued from the Social Networks Analysis. We also adopt a compressed format of RDF data and propose an approach for querying compressed RDF data without decompression phase. To ensure parallel and distributed data streams management, the presented work also proposes two solutions for reducing the processing load in distributed environment. An engine and parallel processing approaches and distributed RDF graphs streams. Finally, an optimized processing approach for static and dynamic data combination operations is also integrated into a new distributed RDF graphs streams management system
APA, Harvard, Vancouver, ISO und andere Zitierweisen
2

Castanié, Laurent. „Visualisation de données volumiques massives : application aux données sismiques“. Thesis, Vandoeuvre-les-Nancy, INPL, 2006. http://www.theses.fr/2006INPL083N/document.

Der volle Inhalt der Quelle
Annotation:
Les données de sismique réflexion sont une source d'information essentielle pour la modélisation tridimensionnelle des structures du sous-sol dans l'exploration-production des hydrocarbures. Ce travail vise à fournir des outils de visualisation pour leur interprétation. Les défis à relever sont à la fois d'ordre qualitatif et quantitatif. Il s'agit en effet de considérer (1) la nature particulière des données et la démarche d'interprétation (2) la taille des données. Notre travail s'est donc axé sur ces deux aspects : 1) Du point de vue qualitatif, nous mettons tout d'abord en évidence les principales caractéristiques des données sismiques, ce qui nous permet d'implanter une technique de visualisation volumique adaptée. Nous abordons ensuite l'aspect multimodal de l'interprétation qui consiste à combiner plusieurs sources d'information (sismique et structurale). Selon la nature de ces sources (strictement volumique ou volumique et surfacique), nous proposons deux systèmes de visualisation différents. 2) Du point de vue quantitatif, nous définissons tout d'abord les principales contraintes matérielles intervenant dans l'interprétation, ce qui nous permet d'implanter un système générique de gestion de la mémoire. Initialement destiné au couplage de la visualisation et des calculs sur des données volumiques massives, il est ensuite amélioré et spécialisé pour aboutir à un système dynamique de gestion distribuée de la mémoire sur cluster de PCs. Cette dernière version, dédiée à la visualisation, permet de manipuler des données sismiques à échelle régionale (100-200 Go) en temps réel. Les problématiques sont abordées à la fois dans le contexte scientifique de la visualisation et dans le contexte d'application des géosciences et de l'interprétation sismique
Seismic reflection data are a valuable source of information for the three-dimensional modeling of subsurface structures in the exploration-production of hydrocarbons. This work focuses on the implementation of visualization techniques for their interpretation. We face both qualitative and quantitative challenges. It is indeed necessary to consider (1) the particular nature of seismic data and the interpretation process (2) the size of data. Our work focuses on these two distinct aspects : 1) From the qualitative point of view, we first highlight the main characteristics of seismic data. Based on this analysis, we implement a volume visualization technique adapted to the specificity of the data. We then focus on the multimodal aspect of interpretation which consists in combining several sources of information (seismic and structural). Depending on the nature of these sources (strictly volumes or both volumes and surfaces), we propose two different visualization systems. 2) From the quantitative point of view, we first define the main hardware constraints involved in seismic interpretation. Focused on these constraints, we implement a generic memory management system. Initially able to couple visualization and data processing on massive data volumes, it is then improved and specialised to build a dynamic system for distributed memory management on PC clusters. This later version, dedicated to visualization, allows to manipulate regional scale seismic data (100-200 GB) in real-time. The main aspects of this work are both studied in the scientific context of visualization and in the application context of geosciences and seismic interpretation
APA, Harvard, Vancouver, ISO und andere Zitierweisen
3

Castelltort, Arnaud. „Historisation de données dans les bases de données NoSQLorientées graphes“. Thesis, Montpellier 2, 2014. http://www.theses.fr/2014MON20076.

Der volle Inhalt der Quelle
Annotation:
Cette thèse porte sur l'historisation des données dans les bases de données graphes. La problématique des données en graphes existe depuis longtemps mais leur exploitation par des moteurs de système de gestion de bases de données, principalement dans les moteurs NoSQL, est récente. Cette apparition est notamment liée à l'émergence des thématiques Big Data dont les propriétés intrinsèques, souvent décrites à l'aide des propriétés 3V (variété, volume, vélocité), ont révélé les limites des bases de données relationnelles classiques. L'historisation quant à elle, est un enjeu majeur des SI qui a été longtemps abordé seulement pour des raisons techniques de sauvegarde, de maintenance ou plus récemment pour des raisons décisionnelles (suites applicatives de Business Intelligence). Cependant, cet aspect s'avère maintenant prendre une place prédominante dans les applications de gestion. Dans ce contexte, les bases de données graphes qui sont de plus en plus utilisées n'ont que très peu bénéficié des apports récents de l'historisation. La première contribution consiste à étudier le nouveau poids des données historisées dans les SI de gestion. Cette analyse repose sur l'hypothèse selon laquelle les applications de gestion intègrent de plus en plus en leur sein les enjeux d'historisation. Nous discutons ce positionnement au regard de l'analyse de l'évolution des SI par rapport à cette problématique. La deuxième contribution vise, au-delà de l'étude de l'évolution des sytèmes d'information, à proposer un modèle innovant de gestion de l'historisation dans les bases de données NoSQL en graphes. Cette proposition consiste d'une part en l'élaboration d'un système unique et générique de représentation de l'historique au sein des BD NoSQL en graphes et d'autre part à proposer des modes d'interrogation (requêtes). Nous montrons qu'il est possible d'utiliser ce système aussi bien pour des requêtes simples (c'est-à-dire correspondant à ce que l'on attend en première intention d'un système d'historisation~: récupérer les précédentes versions d'une donnée) mais aussi de requêtes plus complexes qui permettent de tirer parti aussi bien de la notion d'historisation que des possibilités offertes par les bases de données graphes (par exemple, la reconnaissance de motifs dans le temps)
This thesis deals with data historization in the context of graphs. Graph data have been dealt with for many years but their exploitation in information systems, especially in NoSQL engines, is recent. The emerging Big Data and 3V contexts (Variety, Volume, Velocity) have revealed the limits of classical relational databases. Historization, on its side, has been considered for a long time as only linked with technical and backups issues, and more recently with decisional reasons (Business Intelligence). However, historization is now taking more and more importance in management applications.In this framework, graph databases that are often used have received little attention regarding historization. Our first contribution consists in studying the impact of historized data in management information systems. This analysis relies on the hypothesis that historization is taking more and more importance. Our second contribution aims at proposing an original model for managing historization in NoSQL graph databases.This proposition consists on the one hand in elaborating a unique and generic system for representing the history and on the other hand in proposing query features.We show that the system can support both simple and complex queries.Our contributions have been implemented and tested over synthetic and real databases
APA, Harvard, Vancouver, ISO und andere Zitierweisen
4

Baron, Benjamin. „Transport intermodal de données massives pour le délestage des réseaux d'infrastructure“. Thesis, Paris 6, 2016. http://www.theses.fr/2016PA066454/document.

Der volle Inhalt der Quelle
Annotation:
Dans cette thèse, nous exploitons la mobilité des véhicules pour créer un médium de communication ad hoc utile pour déployer des services connectés. Notre objectif est de tirer partie des trajets quotidiens effectués en voiture ou en transport en commun pour surmonter les limitations des réseaux de données tels que l’Internet. Dans une première partie, nous profitons de la bande passante que génèrent les déplacements de véhicules équipés de capacités de stockage pour délester en masse l’Internet d’une partie de son trafic. Les données sont détournées vers des équipements de stockage appelés points de délestage installés aux abords de zones où les véhicules s’arrêtent habituellement, permettant ainsi de relayer les données entre véhicules jusqu'au point de délestage suivant où elles pourront éventuellement être déchargées. Nous proposons ensuite deux extensions étendant le concept de point de délestage selon deux directions dans le contexte de services reposant toujours la mobilité des véhicules. Dans la première extension, nous exploitons les capacités de stockage des points de délestage pour concevoir un service de stockage et partage de fichiers offert aux passagers de véhicules. Dans la seconde extension, nous dématérialisons les points de délestage en zones géographiques pré-définies où un grand nombre de véhicules se rencontrent suffisamment longtemps pour transférer de grandes quantités de données. L’évaluation des performances des différents travaux menés au cours de cette thèse montrent que la mobilité inhérente aux entités du quotidien permet la fourniture de services innovants avec une dépendance limitée vis-à-vis des réseaux de données traditionnels
In this thesis, we exploit the daily mobility of vehicles to create an alternative transmission medium. Our objective is to draw on the many vehicular trips taken by cars or public transports to overcome the limitations of conventional data networks such as the Internet. In the first part, we take advantage of the bandwidth resulting from the mobility of vehicles equipped with storage capabilities to offload large amounts of delay-tolerant traffic from the Internet. Data is transloaded to data storage devices we refer to as offloading spots, located where vehicles stop often and long enough to transfer large amounts of data. Those devices act as data relays, i.e., they store data it is until loaded on and carried by a vehicle to the next offloading spot where it can be dropped off for later pick-up and delivery by another vehicle. We further extend the concept of offloading spots according to two directions in the context of vehicular cloud services. In the first extension, we exploit the storage capabilities of the offloading spots to design a cloud-like storage and sharing system for vehicle passengers. In the second extension, we dematerialize the offloading spots into pre-defined areas with high densities of vehicles that meet long enough to transfer large amounts of data. The performance evaluation of the various works conducted in this thesis shows that everyday mobility of entities surrounding us enables innovative services with limited reliance on conventional data networks
APA, Harvard, Vancouver, ISO und andere Zitierweisen
5

Baron, Benjamin. „Transport intermodal de données massives pour le délestage des réseaux d'infrastructure“. Electronic Thesis or Diss., Paris 6, 2016. http://www.theses.fr/2016PA066454.

Der volle Inhalt der Quelle
Annotation:
Dans cette thèse, nous exploitons la mobilité des véhicules pour créer un médium de communication ad hoc utile pour déployer des services connectés. Notre objectif est de tirer partie des trajets quotidiens effectués en voiture ou en transport en commun pour surmonter les limitations des réseaux de données tels que l’Internet. Dans une première partie, nous profitons de la bande passante que génèrent les déplacements de véhicules équipés de capacités de stockage pour délester en masse l’Internet d’une partie de son trafic. Les données sont détournées vers des équipements de stockage appelés points de délestage installés aux abords de zones où les véhicules s’arrêtent habituellement, permettant ainsi de relayer les données entre véhicules jusqu'au point de délestage suivant où elles pourront éventuellement être déchargées. Nous proposons ensuite deux extensions étendant le concept de point de délestage selon deux directions dans le contexte de services reposant toujours la mobilité des véhicules. Dans la première extension, nous exploitons les capacités de stockage des points de délestage pour concevoir un service de stockage et partage de fichiers offert aux passagers de véhicules. Dans la seconde extension, nous dématérialisons les points de délestage en zones géographiques pré-définies où un grand nombre de véhicules se rencontrent suffisamment longtemps pour transférer de grandes quantités de données. L’évaluation des performances des différents travaux menés au cours de cette thèse montrent que la mobilité inhérente aux entités du quotidien permet la fourniture de services innovants avec une dépendance limitée vis-à-vis des réseaux de données traditionnels
In this thesis, we exploit the daily mobility of vehicles to create an alternative transmission medium. Our objective is to draw on the many vehicular trips taken by cars or public transports to overcome the limitations of conventional data networks such as the Internet. In the first part, we take advantage of the bandwidth resulting from the mobility of vehicles equipped with storage capabilities to offload large amounts of delay-tolerant traffic from the Internet. Data is transloaded to data storage devices we refer to as offloading spots, located where vehicles stop often and long enough to transfer large amounts of data. Those devices act as data relays, i.e., they store data it is until loaded on and carried by a vehicle to the next offloading spot where it can be dropped off for later pick-up and delivery by another vehicle. We further extend the concept of offloading spots according to two directions in the context of vehicular cloud services. In the first extension, we exploit the storage capabilities of the offloading spots to design a cloud-like storage and sharing system for vehicle passengers. In the second extension, we dematerialize the offloading spots into pre-defined areas with high densities of vehicles that meet long enough to transfer large amounts of data. The performance evaluation of the various works conducted in this thesis shows that everyday mobility of entities surrounding us enables innovative services with limited reliance on conventional data networks
APA, Harvard, Vancouver, ISO und andere Zitierweisen
6

Gueye, Ndeye. „Une démarche de gestion stratégique et opérationnelle du changement dans le contexte de l'exploitation avancée de données massives internes aux organisations“. Master's thesis, Université Laval, 2017. http://hdl.handle.net/20.500.11794/30367.

Der volle Inhalt der Quelle
Annotation:
L’objectif de ce mémoire est d’élaborer une démarche de gestion du changement destinée aux organisations qui souhaitent mettre en place les transformations nécessaires pour tirer parti des techniques d’exploitation avancée de données massives. Le domaine de transformation choisi dans le cadre de ce mémoire est l’exploitation des données internes à une organisation pour développer une maturité technologique et organisationnelle, notamment en ce qui concerne l’orientation-client de son modèle d’affaires. Cette évolution de maturité a pour but de suivre la transformation de la société actuelle, fortement influencée par le mouvement Big Data. La démarche proposée s’adresse à des organisations dont la maturité technologique et organisationnelle est éloignée de celle des compagnies leaders de cette transformation « digitale ». Nous proposons un cadre méthodologique stratégique et opérationnel permettant aux organisations d'effectuer les transformations de culture, d'organisation, de gestion et d'adoption de techniques pour se lancer dans l'exploitation avancée de leurs données internes qui sont en forts volumes et mal structurées. L'application pratique de notre cadre méthodologique est illustrée dans le cas d'une grande compagnie d'assurance canadienne sur une période de deux ans. Nous avons également réalisé un projet pilote de 9 mois visant à tester la phase de mise en oeuvre de la gestion stratégique du changement en exploitant les données-clients internes à cette compagnie d’assurance. Nous avons élaboré, raffiné et testé ces démarches en plusieurs itérations afin de proposer des méthodes détaillées, illustrées par des actions qui conduisent à des résultats concrets et qui mettent en évidence certains enjeux ou difficultés liés à l’adoption de ce type d’approches. À l’issu de notre projet, la démarche proposée a été adoptée par la compagnie à des fins d’opérationnalisation.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
7

Garmaki, Mahda. „La capacité des "Big Data Analytics" et la création de valeur : l’effet médiateur de l’apprentissage organisationnel sur la performance des entreprises“. Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLE018.

Der volle Inhalt der Quelle
Annotation:
Le but de cette recherche qui est fondée sur la théorie enracinée (Grounded theory) est de savoir comment grâce à l'utilisation de Big Data Analytics (BDA) le monde de l'entreprise acquiert sur la longue durée plus de valeur, de compétitivité et de performance. L'analyse de Big Data a dramatiquement influencé le monde de l'entreprise, sa performance et sa compétitivité. Dans cette optique, BDA est devenue une pratique commune qui génère en utilisant certaines approches adaptées des solutions très innovantes. Malgré les grandes discutions autour de BDA, il reste très vague de savoir, dans quelles conditions l'investissement dans BDA crée des valeurs durables pour améliorer la performance de l'entreprise. En utilisant la théorie enracinée classique, cette thèse a conduit plusieurs entretiens avec 22 cadres d'entreprise supérieurs des différentes entreprises. En utilisant une théorie enracinée, la capacité de BDA a été conceptualisée comme l’argument central, qui permet aux entreprises de tirer bénéfices de BDA, de transformer les affaires dans une approche d'accès aux données et par conséquence d'améliorer la performance avec le temps. L'élément clé des résultats de la théorie enracinée met l'accent sur la capacité à utiliser BDA afin de créer des valeurs concrètes. Cette recherche par la théorie enracinée va contribuer à la création de valeurs et la numérisation à travers plusieurs approches :1) Alors que l'approche commune de BDA se concentre sur la collecte de données ou l'investissement dans les technologies, les résultats indiquent que diverses dimensions (ressources et capacités internes et externes) doivent contribuer conjointement à construire la capacité globale de BDA. 2) En outre, ces dimensions et leurs propriétés créent le réseau entrelacé et la capacité de BDA est incomplète en l'absence de dimension individuelle ou de leurs propriétés. 3) étant donné que l’objectif principal de cette recherche est de souligner le mécanisme de création de valeur par BDA, l'amélioration de l'apprentissage organisationnel a été présentée comme la "valeur cachée" de la capacité de BDA, ce qui est la compétitivité dynamique. Elle développe par conséquence des avantages compétitifs durables, 4) Dans l'ère du numérique, BDA est le principal atout numérique et levier numérique, dans cette lumière, la capacité BDA développe la transformation numérique en fournissant les capacités requises. En utilisant l'approche fondée sur les ressources (resource based-view), ressource basée sur la connaissance (knowledge-based view) et la capacité dynamique (dynamic capability), le modèle conceptuel a été proposé comme la combinaison de différentes ressources et l'aptitude de créer la capacité de BDA à améliore la performance de l'entreprise directement, ainsi que, indirectement par l'impact intermédiaire de l'apprentissage organisationnel
The purpose of this grounded theory research is to explore ‘to which extent firms can achieve value from big data analytics (BDA), in order to improve firm performance’. BDA is dramatically influencing the way firms perform and compete within the digital era. In this light, BDA has become the trending issue that generates innovative solutions and valuable insights through predictive approach. Despite the hype surrounding BDA value creation, it has not fully understood the features drive value and sustain competitive advantage from BDA. Using the classic grounded theory, this thesis conducted interviews with twenty-two executives from different firms. Through substantive theory, BDA capability is conceptualized as the core competency, which enables firms to accomplish value from BDA, transform the business into the data-driven approach, and subsequently enhance firm performance over-time. The core contribution of this grounded theory research focuses on capability building to implement and manipulate BDA. The findings of this study contribute to the knowledge of BDA value creation and digitalization through the following discussions: 1) while the conventional approach about BDA focuses data collection or investment on technologies, the findings indicate the various dimensions (internal and external resources and capabilities) should jointly contribute to building the overall BDA,2) furthermore, these dimensions and their properties create the integrative network, which is incomplete in the absence of individual dimension or their properties, 3) To identify the variables that are influenced by BDA capability, enhancing organizational learning is introduced as the “hidden value” of BDA capability, which is the dynamic process, and consequently develops sustained competitive advantage, 4) Within the digital era, BDA is the primary digital asset, as well as, digital lever. In this light, BDA capability fosters digital transformation through providing prerequisite capabilities, 5) Drawing resource-based view, knowledge-based view, and dynamic capability the conceptual model of this research is addressed through the combination of different resources (tangible intangible and personnel-based resources) and capabilities.The conceptual model demonstrates the direct effect of BDA capability on firm performance, as well as, the indirect effect that is mediated by organizational learning
APA, Harvard, Vancouver, ISO und andere Zitierweisen
8

Barry, Mariam. „Adaptive Scalable Online Learning for Handling Heterogeneous Streaming Data in Large-Scale Banking Infrastructure“. Electronic Thesis or Diss., Institut polytechnique de Paris, 2024. http://www.theses.fr/2024IPPAT006.

Der volle Inhalt der Quelle
Annotation:
L'intelligence artificielle (IA) est une technique puissante pour créer de la valeur et améliorer la prise de décisions. Les volumes de données générés devraient connaître une croissance exponentielle, avec des projections dépassant les 2 000 zettaoctets d'ici 2035, soulignant l'importance de l'apprentissage incrémental et des modèles scalables pour le ”Big ` Data”. L'apprentissage et l'entraînement continus des modèles d'IA, connus sous le nom de Streaming ` Machine Learning (SML), sont des approches efficaces permettant de construire et de mettre à jour des modèles d'intelligence artificielle au fur et à mesure de l'arrivée de nouvelles données, sans avoir besoin de remplacer périodiquement le modèle complet. La détection des changements de comportement en temps réel est une solution pertinente pour détecter des évènements critiques et à diverses applications telles que la détection de fraudes, de cyberattaques ou de déviations dans les systèmes d'information. Les travaux de cette recherche visent donc à résoudre les défis algorithmiques et d'infrastructure liés aux modèles d'IA à apprentissage continu et à l'industrialisation des modèles dynamiques sur des flux de données issus de sources diverses. Les contributions de cette thèse incluent StreamFlow pour résumer des flux de données massives, Stream2Graph pour construire et mettre à jour dynamiquement des graphes de connaissances, et StreamChange pour détecter et expliquer des déviations ou changements de comportement en temps réel. Les expériences sur des données réelles démontrent que notre modèle StreamChange détecte mieux les changements graduels et brusques que les modèles de l'état de l'art. Enfin, la thèse introduit une architecture, StreamM- ` LOps, pour l'apprentissage en ligne et l'industrialisation des modèles, évaluée sur des données dynamiques contenant des millions de variables pour la détection en ligne d'évènements malveillants. Nous concluons par un retour d'expérience sur la mise en production et la maintenance des modèles évolutifs (SML) pour des applications de temps réel en banque
Artificial Intelligence (AI) is a powerful tool to extract valuable insights for decision-making. However, learning from heterogeneous and unstructured streaming data presents a multitude of challenges that this research aims to tackle. The creation of big data is projected to experience exponential growth, with expectations to surpass 2,000 zettabytes by the year 2035. Such Big Data highlights the importance of efficient, incremental, and adaptive models. Online Learning, known as Streaming Machine Learning (SML), is a dynamic technique for building and updating learning models as new data arrive, without the need for periodic complete model replacement. It is the most efficient technique for big data stream learning. The change detection task is a proactive way to detect and prevent critical events such as cyber-attacks, fraud detection, or IT incidents in an online fashion. The research conducted during this thesis aims to develop adaptive and scalable online machine-learning solutions to learn from heterogeneous streaming data that can be operationalized with large-scale infrastructures, particularly in the banking sector. This Ph.D. thesis delves into algorithmic and infrastructure challenges related to continuous training and serving online machine learning over high-velocity streaming data from diverse sources, specifically focusing on large-scale IT infrastructures (AIOps). Thesis contributions include techniques like StreamFlow for summarizing information from big data streams, Stream2Graph for dynamically building and updating knowledge graphs for batch and online learning tasks, and StreamChange, an efficient and explainable online change detection model. Evaluation results on real-world open data and industrial data demonstrate performance improvements in learned models. StreamChange surpasses state-ofthe-art techniques in detecting gradual and abrupt changes. Additionally, the thesis introduces a conceptual framework, StreamMLOps, for scaling and serving online machine learning in real-time without pausing the inference pipeline. This framework showcases the effectiveness of the proposed MLOps pipeline on a feature-evolving dataset with millions of dimensions for malicious event detection tasks. Finally, we share lessons learned regarding Streaming Machine Learning systems, AI at scale, and online model management in large-scale banking, with a focus on streaming data and real-time applications
APA, Harvard, Vancouver, ISO und andere Zitierweisen
9

Brahem, Mariem. „Optimisation de requêtes spatiales et serveur de données distribué - Application à la gestion de masses de données en astronomie“. Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLV009/document.

Der volle Inhalt der Quelle
Annotation:
Les masses de données scientifiques générées par les moyens d'observation modernes, dont l’observation spatiale, soulèvent des problèmes de performances récurrents, et ce malgré les avancées des systèmes distribués de gestion de données. Ceci est souvent lié à la complexité des systèmes et des paramètres qui impactent les performances et la difficulté d’adapter les méthodes d’accès au flot de données et de traitement.Cette thèse propose de nouvelles techniques d'optimisations logiques et physiques pour optimiser les plans d'exécution des requêtes astronomiques en utilisant des règles d'optimisation. Ces méthodes sont intégrées dans ASTROIDE, un système distribué pour le traitement de données astronomiques à grande échelle.ASTROIDE allie la scalabilité et l’efficacité en combinant les avantages du traitement distribué en utilisant Spark avec la pertinence d’un optimiseur de requêtes astronomiques.Il permet l'accès aux données à l'aide du langage de requêtes ADQL, couramment utilisé.Il implémente des algorithmes de requêtes astronomiques (cone search, kNN search, cross-match, et kNN join) en exploitant l'organisation physique des données proposée.En effet, ASTROIDE propose une méthode de partitionnement des données permettant un traitement efficace de ces requêtes grâce à l'équilibrage de la répartition des données et à l'élimination des partitions non pertinentes. Ce partitionnement utilise une technique d’indexation adaptée aux données astronomiques, afin de réduire le temps de traitement des requêtes
The big scientific data generated by modern observation telescopes, raises recurring problems of performances, in spite of the advances in distributed data management systems. The main reasons are the complexity of the systems and the difficulty to adapt the access methods to the data. This thesis proposes new physical and logical optimizations to optimize execution plans of astronomical queries using transformation rules. These methods are integrated in ASTROIDE, a distributed system for large-scale astronomical data processing.ASTROIDE achieves scalability and efficiency by combining the benefits of distributed processing using Spark with the relevance of an astronomical query optimizer.It supports the data access using the query language ADQL that is commonly used.It implements astronomical query algorithms (cone search, kNN search, cross-match, and kNN join) tailored to the proposed physical data organization.Indeed, ASTROIDE offers a data partitioning technique that allows efficient processing of these queries by ensuring load balancing and eliminating irrelevant partitions. This partitioning uses an indexing technique adapted to astronomical data, in order to reduce query processing time
APA, Harvard, Vancouver, ISO und andere Zitierweisen
10

Hatia, Saalik. „Leveraging formal specification to implement a database backend“. Electronic Thesis or Diss., Sorbonne université, 2023. http://www.theses.fr/2023SORUS137.

Der volle Inhalt der Quelle
Annotation:
Conceptuellement, un système de stockage de base de données n'est qu'une correspondance entre des clés et des valeurs. Cependant, pour offrir des performances élevées et une fiabilité, une base de donnée moderne est un système complexe et concurrent, rendant le système prône aux erreurs. Cette thèse relate notre parcours, allant de la spécification formelle d'une base de données à son implémentation. La spécification est courte et non ambigüe, et aide à raisonner sur la justesse. La lecture du pseudocode de la spécification fournit une base rigoureuse pour une implémentation. La spécification décrit la couche de stockage comme une mémoire partagée transactionnelle simple, avec deux variantes (au comportement équivalent), basées sur une map et un journal. Nous implémentons ces deux variantes en restant fidèles à notre spécification. Nous spécifions les fonctionnalités d'une base de données moderne, ayant un système de journalisation avec des snapshots et de la troncature, comme une composition des deux variants. La spécification de cette dernière est particulièrement simple. Finalement, nous présentons une évaluation expérimentale avec des performances qui sont acceptables pour une implémentation qui est correcte
Conceptually, a database storage backend is just a map of keys to values. However, to provide performance and reliability, a modern store is a complex, concurrent software system, opening many opportunities for bugs. This thesis reports on our journey from formal specification of a store to its implementation. The specification is terse and unambiguous, and helps reason about correctness. Read as pseudocode, the specification provides a rigorous grounding for implementation. The specification describes a store as a simple transactional shared memory, with two (behaviourally equivalent) variants, map- and journal-based. We implement these two basic variants verbatim in Java. We specify the features of a modern store, such as a write-ahead log with checkpointing and truncation, as a dynamic composition of instances of the two basic variants. The specification of correct composition is particularly simple. Our experimental evaluation of an implementation has acceptable performance, while our rigorous methodology increases confidence in its correctness
APA, Harvard, Vancouver, ISO und andere Zitierweisen
11

Jain, Sheenam. „Big data management using artificial intelligence in the apparel supply chain : opportunities and challenges“. Thesis, Lille 1, 2020. http://www.theses.fr/2020LIL1I051.

Der volle Inhalt der Quelle
Annotation:
L’industrie de l'habillement a bénéficié, au cours de la dernière décennie, de l'application de big data et de l'intelligence artificielle pour résoudre divers problèmes commerciaux. Face à la concurrence accrue sur le marché et aux attentes des clients en matière de personnalisation, ces industriels sont en permanence à la recherche des moyens d'améliorer leurs stratégies commerciales afin d'accroître leur rapidité et leur rentabilité. A cet égard, les solutions de gestion de big data offrent aux enseignes de la distribution textile la possibilité d'explorer leur chaîne d'approvisionnement et d'identifier les ressources de données importantes. Ces ressources précieuses, rares et inimitables permettent de créer des stratégies axées sur les données (data-driven) et d'établir des capacités dynamiques à maintenir dans un environnement commercial incertain. Grâce à ces stratégies data-driven, les enseignes de prêt-à-porter sont en mesure de confectionner des vêtements de façon intelligente afin de fournir à leurs clients un article adapté à leurs besoins et, par conséquent, d'adopter des pratiques de consommation et de production durables.Dans ce contexte, la thèse étudie les avantages de l'utilisation de big data et de l'intelligence artificielle (IA) dans les entreprises de l'habillement, afin d'améliorer leurs opérations commerciales tout en recherchant des opportunités de gestion de big data à l'aide de solutions d'IA. Dans un premier temps, cette thèse identifie et classifie les techniques d'IA qui peuvent être utilisées à différents stades de la chaîne d'approvisionnement pour améliorer les opérations commerciales existantes. Dans un deuxième temps, des données relatives aux produits sont présentées afin de créer un modèle de classification et des règles de conception susceptibles de fournir des recommandations personnalisées ou une personnalisation permettant une meilleure expérience d'achat pour le client. Dans un troisième et dernier temps, la thèse s'appuie sur les évidences de l'industrie de l'habillement et la littérature existante pour suggérer des propositions qui peuvent guider les responsables dans le développement de stratégies data-driven pour améliorer la satisfaction du client par des services personnalisés. Enfin, cette thèse montre l'efficacité des solutions analytiques basées sur les données pour maintenir un avantage concurrentiel grâce aux données et aux connaissances déjà présentes dans une chaîne d'approvisionnement de l'habillement. Plus précisément, cette thèse contribue au domaine textile en identifiant des opportunités spécifiques de gestion de big data à l'aide de solutions d'intelligence artificielle. Ces opportunités peuvent être une source de référence pour d'autres travaux de recherche dans le domaine de la technologie et de la gestion
Over the past decade, the apparel industry has seen several applications of big data and artificial intelligence (AI) in dealing with various business problems. With the increase in competition and customer demands for the personalization of products and services which can enhance their brand experience and satisfaction, supply-chain managers in apparel firms are constantly looking for ways to improve their business strategies so as to bring speed and cost efficiency to their organizations. The big data management solutions presented in this thesis highlight opportunities for apparel firms to look into their supply chains and identify big data resources that may be valuable, rare, and inimitable, and to use them to create data-driven strategies and establish dynamic capabilities to sustain their businesses in an uncertain business environment. With the help of these data-driven strategies, apparel firms can produce garments smartly to provide customers with a product that closer meets their needs, and as such drive sustainable consumption and production practices.In this context, this thesis aims to investigate whether apparel firms can improve their business operations by employing big data and AI, and in so doing, seek big data management opportunities using AI solutions. Firstly, the thesis identifies and classifies AI techniques that can be used at various stages of the supply chain to improve existing business operations. Secondly, the thesis presents product-related data to create a classification model and design rules that can create opportunities for providing personalized recommendations or customization, enabling better shopping experiences for customers. Thirdly, this thesis draws from the evidence in the industry and existing literature to make suggestions that may guide managers in developing data-driven strategies for improving customer satisfaction through personalized services. Finally, this thesis shows the effectiveness of data-driven analytical solutions in sustaining competitive advantage via the data and knowledge already present within the apparel supply chain. More importantly, this thesis also contributes to the field by identifying specific opportunities with big data management using AI solutions. These opportunities can be a starting point for other research in the field of technology and management
APA, Harvard, Vancouver, ISO und andere Zitierweisen
12

Liu, Rutian. „Semantic services for assisting users to augment data in the context of analytic data sources“. Electronic Thesis or Diss., Sorbonne université, 2020. http://www.theses.fr/2020SORUS208.

Der volle Inhalt der Quelle
Annotation:
La production de collections de données analytiques est une tendance importante et a dépassé le cadre des technologies traditionnelles de production d'information et de données. Les collections de données analytiques sont maintenant directement créées par les utilisateurs (experts, data scientists). Malgré l'apparition des nouvelles technologies "big data" et d'outils de préparation de données agiles, l'intégration et l'enrichissement de schémas analytiques avec des attributs provenant d'autres sources de données reste une tâche difficile qui nécessite une bonne connaissance des schémas de données manipulées. Cette thèse présente une nouvelle solution pour compléter des schémas de données analytiques avec des attributs provenant d'autres sources de données sémantiquement liées : -Nous introduisons les graphes d'attributs comme une nouvelle façon concise et naturelle pour représenter les dépendances fonctionnelles littérales sur des attributs de dimensions hiérarchiques et pour déduire des identificateurs uniques de dimensions et de tables de faits. -Nous donnons des définitions formelles d'augmentation de schémas, de complément de schémas et de requête de fusion dans le contexte des données analytiques. Nous introduisons ensuite plusieurs opérations de réduction pour éviter la multiplication de lignes dans la table de données augmentée. -Nous définissons des critères formels de qualité et des algorithmes pour contrôler l'exactitude, la non-ambiguïté et l'exhaustivité des augmentations et des compléments de schéma générés. -Nous décrivons l'implémentation de notre solution au sein de la plate-forme SAP HANA et fournissons une description détaillée de nos algorithmes. -Nous évaluons la performance de nos algorithmes et analysons l'efficacité de notre approche avec deux scénarios d'application
The production of analytic datasets is a significant big data trend and has gone well beyond the scope of traditional IT-governed dataset development. Analytic datasets are now created by data scientists and data analysts using bigdata frameworks and agile data preparation tools. However, it still remains difficult for a data analyst to start from a dataset at hand and customize it with additional attributes coming from other existing datasets. This thesis presents a new solution for business users and data scientists who want to augment the schema of analytic datasets with attributes coming from other semantically related datasets : We introduce attribute graphs as a novel concise and natural way to represent literal functional dependencies over hierarchical dimension level types to infer unique dimension and fact table identifiers We give formal definitions for schema augmentation, schema complement, and merge query in the context of analytic tables. We then introduce several reduction operations to enforce schema complements when schema augmentation yields a row multiplication in the augmented dataset. We define formal quality criteria and algorithms to control the correctness, non-ambiguity, and completeness of generated schema augmentations and schema complements. We describe the implementation of our solution as a REST service within the SAP HANA platform and provide a detailed description of our algorithms. We evaluate the performance of our algorithms to compute unique identifiers in dimension and fact tables and analyze the effectiveness of our REST service using two application scenarios
APA, Harvard, Vancouver, ISO und andere Zitierweisen
13

De, Oliveira Joffrey. „Gestion de graphes de connaissances dans l'informatique en périphérie : gestion de flux, autonomie et adaptabilité“. Electronic Thesis or Diss., Université Gustave Eiffel, 2023. http://www.theses.fr/2023UEFL2069.

Der volle Inhalt der Quelle
Annotation:
Les travaux de recherche menés dans le cadre de cette thèse de doctorat se situent à l'interface du Web sémantique, des bases de données et de l'informatique en périphérie (généralement dénotée Edge computing). En effet, notre objectif est de concevoir, développer et évaluer un système de gestion de bases de données (SGBD) basé sur le modèle de données Resource Description Framework (RDF) du W3C, qui doit être adapté aux terminaux que l'on trouve dans l'informatique périphérique. Les applications possibles d'un tel système sont nombreuses et couvrent un large éventail de secteurs tels que l'industrie, la finance et la médecine, pour n'en citer que quelques-uns. Pour preuve, le sujet de cette thèse a été défini avec l'équipe du laboratoire d'informatique et d'intelligence artificielle (CSAI) du ENGIE Lab CRIGEN. Ce dernier est le centre de recherche et de développement d'ENGIE dédié aux gaz verts (hydrogène, biogaz et gaz liquéfiés), aux nouveaux usages de l'énergie dans les villes et les bâtiments, à l'industrie et aux technologies émergentes (numérique et intelligence artificielle, drones et robots, nanotechnologies et capteurs). Le CSAI a financé cette thèse dans le cadre d'une collaboration de type CIFRE. Les fonctionnalités d'un système satisfaisant ces caractéristiques doivent permettre de détecter de manière pertinente et efficace des anomalies et des situations exceptionnelles depuis des mesures provenant de capteurs et/ou actuateurs. Dans un contexte industriel, cela peut correspondre à la détection de mesures, par exemple de pression ou de débit sur un réseau de distribution de gaz, trop élevées qui pourraient potentiellement compromettre des infrastructures ou même la sécurité des individus. Le mode opératoire de cette détection doit se faire au travers d'une approche conviviale pour permettre au plus grand nombre d'utilisateurs, y compris les non-programmeurs, de décrire les situations à risque. L'approche doit donc être déclarative, et non procédurale, et doit donc s'appuyer sur un langage de requêtes, par exemple SPARQL. Nous estimons que l'apport des technologies du Web sémantique peut être prépondérant dans un tel contexte. En effet, la capacité à inférer des conséquences implicites depuis des données et connaissances explicites constitue un moyen de créer de nouveaux services qui se distinguent par leur aptitude à s'ajuster aux circonstances rencontrées et à prendre des décisions de manière autonome. Cela peut se traduire par la génération de nouvelles requêtes dans certaines situations alarmantes ou bien en définissant un sous-graphe minimal de connaissances dont une instance de notre SGBD a besoin pour répondre à l'ensemble de ses requêtes. La conception d'un tel SGBD doit également prendre en compte les contraintes inhérentes de l'informatique en périphérie, c'est-à-dire les limites en terme de capacité de calcul, de stockage, de bande passante et parfois énergétique (lorsque le terminal est alimenté par un panneau solaire ou bien une batterie). Il convient donc de faire des choix architecturaux et technologiques satisfaisant ces limitations. Concernant la représentation des données et connaissances, notre choix de conception s'est porté sur les structures de données succinctes (SDS) qui offrent, entre autres, les avantages d'être très compactes et ne nécessitant pas de décompression lors du requêtage. De même, il a été nécessaire d'intégrer la gestion de flux de données au sein de notre SGBD, par exemple avec le support du fenêtrage dans des requêtes SPARQL continues, et des différents services supportés par notre système. Enfin, la détection d'anomalies étant un domaine où les connaissances peuvent évoluer, nous avons intégré le support des modifications au niveau des graphes de connaissances stockés sur les instances des clients de notre SGBD. Ce support se traduit par une extension de certaines structures SDS utilisées dans notre prototype
The research work carried out as part of this PhD thesis lies at the interface between the Semantic Web, databases and edge computing. Indeed, our objective is to design, develop and evaluate a database management system (DBMS) based on the W3C Resource Description Framework (RDF) data model, which must be adapted to the terminals found in Edge computing.The possible applications of such a system are numerous and cover a wide range of sectors such as industry, finance and medicine, to name but a few. As proof of this, the subject of this thesis was defined with the team from the Computer Science and Artificial Intelligence Laboratory (CSAI) at ENGIE Lab CRIGEN. The latter is ENGIE's research and development centre dedicated to green gases (hydrogen, biogas and liquefied gases), new uses of energy in cities and buildings, industry and emerging technologies (digital and artificial intelligence, drones and robots, nanotechnologies and sensors). CSAI financed this thesis as part of a CIFRE-type collaboration.The functionalities of a system satisfying these characteristics must enable anomalies and exceptional situations to be detected in a relevant and effective way from measurements taken by sensors and/or actuators. In an industrial context, this could mean detecting excessively high measurements, for example of pressure or flow rate in a gas distribution network, which could potentially compromise infrastructure or even the safety of individuals. This detection must be carried out using a user-friendly approach to enable as many users as possible, including non-programmers, to describe risk situations. The approach must therefore be declarative, not procedural, and must be based on a query language, such as SPARQL.We believe that Semantic Web technologies can make a major contribution in this context. Indeed, the ability to infer implicit consequences from explicit data and knowledge is a means of creating new services that are distinguished by their ability to adjust to the circumstances encountered and to make autonomous decisions. This can be achieved by generating new queries in certain alarming situations, or by defining a minimal sub-graph of knowledge that an instance of our DBMS needs in order to respond to all of its queries.The design of such a DBMS must also take into account the inherent constraints of Edge computing, i.e. the limits in terms of computing capacity, storage, bandwidth and sometimes energy (when the terminal is powered by a solar panel or a battery). Architectural and technological choices must therefore be made to meet these limitations. With regard to the representation of data and knowledge, our design choice fell on succinct data structures (SDS), which offer, among other advantages, the fact that they are very compact and do not require decompression during querying. Similarly, it was necessary to integrate data flow management within our DBMS, for example with support for windowing in continuous SPARQL queries, and for the various services supported by our system. Finally, as anomaly detection is an area where knowledge can evolve, we have integrated support for modifications to the knowledge graphs stored on the client instances of our DBMS. This support translates into an extension of certain SDS structures used in our prototype
APA, Harvard, Vancouver, ISO und andere Zitierweisen
14

Khelil, Abdallah. „Gestion et optimisation des données massives issues du Web Combining graph exploration and fragmentation for scalable rdf query processing Should We Be Afraid of Querying Billions of Triples in a Graph-Based Centralized System? EXGRAF : Exploration et Fragmentation de Graphes au Service du Traitement Scalable de Requˆetes RDF“. Thesis, Chasseneuil-du-Poitou, Ecole nationale supérieure de mécanique et d'aérotechnique, 2020. http://www.theses.fr/2020ESMA0009.

Der volle Inhalt der Quelle
Annotation:
Le Big Data représente un défi non seulement pour le monde socio-économique mais aussi pour la recherchescientifique. En effet, comme il a été souligné dans plusieurs articles scientifiques et rapports stratégiques, lesapplications informatiques modernes sont confrontées à de nouveaux problèmes qui sont liés essentiellement austockage et à l’exploitation de données générées par les instruments d’observation et de simulation. La gestion de tellesdonnées représente un véritable goulot d’étranglement qui a pour effet de ralentir la valorisation des différentesdonnées collectées non seulement dans le cadre de programmes scientifiques internationaux mais aussi par desentreprises, ces dernières s'appuyant de plus en plus sur l’analyse de données massives. Une bonne partie de cesdonnées sont publié aujourd’hui sur le WEB. Nous assistons en effet à une évolution du Web classique permettant degérer les documents vers un Web de données qui permet d’offrir des mécanismes d’interrogation des informationssémantiques. Plusieurs modèles de données ont été proposés pour représenter ces informations sur le Web. Le plusimportant est le Resource Description Framework (RDF) qui fournit une représentation des connaissances simple etabstraite pour les ressources sur le Web. Chaque fait du Web sémantique peut être codé avec un triplet RDF. Afin depouvoir explorer et interroger les informations structurées exprimées en RDF, plusieurs langages de requête ont étéproposés au fil des années. En 2008, SPARQL est devenu le langage de recommandation officiel du W3C pourl'interrogation des données RDF. La nécessité de gérer et interroger efficacement les données RDF a conduit audéveloppement de nouveaux systèmes conçus spécialement pour traiter ce format de données. Ces approches peuventêtre catégorisées en étant centralisées qui s’appuient sur une seule machine pour gérer les données RDF et distribuéesqui peuvent combiner plusieurs machines connectées avec un réseau informatique. Certaines de ces approchess’appuient sur un système de gestion de données existant tels que Virtuoso et Jena, d’autres approches sont basées surune approche spécialement conçue pour la gestion des triplets RDF comme GRIN, RDF3X et gStore. Avec l’évolutiondes jeux de données RDF (e.g. DBPedia) et du langage Sparql, la plupart des systèmes sont devenus obsolètes et/ouinefficaces. A titre d’exemple, aucun système centralisé existant n’est en mesure de gérer 1 Milliard de triplets fourniesdans le cadre du benchmark WatDiv. Les systèmes distribués permettraient sous certaines conditions d’améliorer cepoint mais une perte de performances conséquente est induite.Dans cette thèse, nous proposons le système centralisé "RDF_QDAG" qui permet de trouver un bon compromisentre passage à l’échelle et performances. Nous proposons de combiner la fragmentation physique de données etl’exploration du graphe de données. "RDF_QDAG" permet de support plusieurs types de requêtes basées nonseulement sur les motifs basiques de graphes mais aussi qui intègrent des filtres à base d’expressions régulières et aussides fonctions d’agrégation et de tri. "RDF_QDAG" se base sur le modèle d’exécution Volcano, ce qui permet decontrôler la mémoire principale, en évitant tout débordement pour garantir les performances même si la configurationmatérielle est limitée. A notre connaissance, "RDF_QDAG" est le seul système centralisé capable de gérer plusieursmilliards de triplets tout en garantissant de bonnes performances. Nous avons comparé ce système avec d’autressystèmes qui représentent l’état de l’art en matière de gestion de données RDF : une approche relationnelle (Virtuoso),une approche à base de graphes (g-Store), une approche d'indexation intensive (RDF-3X) et une approche MPP(CliqueSquare). "RDF_QDAG" surpasse les systèmes existants lorsqu’il s’agit de garantir à la fois le passage à l’échelleet les performances
Big Data represents a challenge not only for the socio-economic world but also for scientific research. Indeed, as has been pointed out in several scientific articles and strategic reports, modern computer applications are facing new problems and issues that are mainly related to the storage and the exploitation of data generated by modern observation and simulation instruments. The management of such data represents a real bottleneck which has the effect of slowing down the exploitation of the various data collected not only in the framework of international scientific programs but also by companies, the latter relying increasingly on the analysis of large-scale data. Much of this data is published today on the WEB. Indeed, we are witnessing an evolution of the traditional web, designed basically to manage documents, to a web of data that allows to offer mechanisms for querying semantic information. Several data models have been proposed to represent this information on the Web. The most important is the Resource Description Framework (RDF) which provides a simple and abstract representation of knowledge for resources on the Web. Each semantic Web fact can be encoded with an RDF triple. In order to explore and query structured information expressed in RDF, several query languages have been proposed over the years. In 2008,SPARQL became the official W3C Recommendation language for querying RDF data.The need to efficiently manage and query RDF data has led to the development of new systems specifically designed to process this data format. These approaches can be categorized as centralized that rely on a single machine to manage RDF data and distributed that can combine multiple machines connected with a computer network. Some of these approaches are based on an existing data management system such as Virtuoso and Jena, others relies on an approach specifically designed for the management of RDF triples such as GRIN, RDF3X and gStore. With the evolution ofRDF datasets (e.g. DBPedia) and Sparql, most systems have become obsolete and/or inefficient. For example, no one of existing centralized system is able to manage 1 billion triples provided under the WatDiv benchmark. Distributed systems would allow under certain conditions to improve this point but consequently leads a performance degradation. In this Phd thesis, we propose the centralized system "RDF_QDAG" that allows to find a good compromise between scalability and performance. We propose to combine physical data fragmentation and data graph exploration."RDF_QDAG" supports multiple types of queries based not only on basic graph patterns but also that incorporate filters based on regular expressions and aggregation and sorting functions. "RDF_QDAG" relies on the Volcano execution model, which allows controlling the main memory, avoiding any overflow even if the hardware configuration is limited. To the best of our knowledge, "RDF_QDAG" is the only centralized system that good performance when manage several billion triples. We compared this system with other systems that represent the state of the art in RDF data management: a relational approach (Virtuoso), a graph-based approach (g-Store), an intensive indexing approach (RDF-3X) and two parallel approaches (CliqueSquare and g-Store-D). "RDF_QDAG" surpasses existing systems when it comes to ensuring both scalability and performance
APA, Harvard, Vancouver, ISO und andere Zitierweisen
15

Honore, Valentin. „Convergence HPC - Big Data : Gestion de différentes catégories d'applications sur des infrastructures HPC“. Thesis, Bordeaux, 2020. http://www.theses.fr/2020BORD0145.

Der volle Inhalt der Quelle
Annotation:
Le calcul haute performance est un domaine scientifique dans lequel de très complexes et intensifs calculs sont réalisés sur des infrastructures de calcul à très large échelle appelées supercalculateurs. Leur puissance calculatoire phénoménale permet aux supercalculateurs de générer un flot de données gigantesque qu'il est aujourd'hui difficile d'appréhender, que ce soit d'un point de vue du stockage en mémoire que de l'extraction des résultats les plus importants pour les applications.Nous assistons depuis quelques années à une convergence entre le calcul haute performance et des domaines tels que le BigData ou l'intelligence artificielle qui voient leurs besoins en terme de capacité de calcul exploser. Dans le cadre de cette convergence, une grande diversité d'applications doit être traitée par les ordonnanceurs des supercalculateurs, provenant d'utilisateurs de différents horizons pour qui il n'est pas toujours aisé de comprendre le fonctionnement de ces infrastructures pour le calcul distribué.Dans cette thèse, nous exposons des solutions d'ordonnancement et de partitionnement de ressources pour résoudre ces problématiques. Pour ce faire, nous proposons une approche basée sur des modèles mathématiques qui permet d'obtenir des solutions avec de fortes garanties théoriques de leu performance. Dans ce manuscrit, nous nous focalisons sur deux catégories d'applications qui s'inscrivent en droite ligne avec la convergence entre le calcul haute performance et le BigData:les applications intensives en données et les applications à temps d'exécution stochastique.Les applications intensives en données représentent les applications typiques du domaine du calcul haute performance. Dans cette thèse, nous proposons d'optimiser cette catégorie d'applications exécutées sur des supercalculateurs en exposant des méthodes automatiques de partitionnement de ressources ainsi que des algorithmes d'ordonnancement pour les différentes phases de ces applications. Pour ce faire, nous utilisons le paradigme in situ, devenu à ce jour une référence pour ces applications. De nombreux travaux se sont attachés à proposer des solutions logicielles pour mettre en pratique ce paradigme pour les applications. Néanmoins, peu de travaux ont étudié comment efficacement partager les ressources de calcul les différentes phases des applications afin d'optimiser leur temps d'exécution.Les applications stochastiques constituent la deuxième catégorie d'applications que nous étudions dans cette thèse. Ces applications ont un profil différent de celles de la première partie de ce manuscrit. En effet, contrairement aux applications de simulation numérique, ces applications présentent de fortes variations de leur temps d'exécution en fonction des caractéristiques du jeu de données fourni en entrée. Cela est dû à leur structure interne composée d'une succession de fonctions, qui diffère des blocs de code massifs composant les applications intensive en données.L'incertitude autour de leur temps d'exécution est une contrainte très forte pour lancer ces applications sur les supercalculateurs. En effet, l'utilisateur doit réserver des ressources de calcul pour une durée qu'il ne connait pas. Dans cette thèse, nous proposons une approche novatrice pour aider les utilisateurs à déterminer une séquence de réservations optimale qui minimise l'espérance du coût total de toutes les réservations. Ces solutions sont par la suite étendues à un modèle d'applications avec points de sauvegarde à la fin de (certaines) réservations afin d'éviter de perdre le travail réalisé lors des réservations trop courtes. Enfin, nous proposons un profiling d'une application stochastique issue du domaine des neurosciences afin de mieux comprendre les propriétés de sa stochasticité. A travers cette étude, nous montrons qu'il est fondamental de bien connaître les caractéristiques des applications pour qui souhaite élaborer des stratégies efficaces du point de vue de l'utilisateur
Numerical simulations are complex programs that allow scientists to solve, simulate and model complex phenomena. High Performance Computing (HPC) is the domain in which these complex and heavy computations are performed on large-scale computers, also called supercomputers.Nowadays, most scientific fields need supercomputers to undertake their research. It is the case of cosmology, physics, biology or chemistry. Recently, we observe a convergence between Big Data/Machine Learning and HPC. Applications coming from these emerging fields (for example, using Deep Learning framework) are becoming highly compute-intensive. Hence, HPC facilities have emerged as an appropriate solution to run such applications. From the large variety of existing applications has risen a necessity for all supercomputers: they mustbe generic and compatible with all kinds of applications. Actually, computing nodes also have a wide range of variety, going from CPU to GPU with specific nodes designed to perform dedicated computations. Each category of node is designed to perform very fast operations of a given type (for example vector or matrix computation).Supercomputers are used in a competitive environment. Indeed, multiple users simultaneously connect and request a set of computing resources to run their applications. This competition for resources is managed by the machine itself via a specific program called scheduler. This program reviews, assigns andmaps the different user requests. Each user asks for (that is, pay for the use of) access to the resources ofthe supercomputer in order to run his application. The user is granted access to some resources for a limited amount of time. This means that the users need to estimate how many compute nodes they want to request and for how long, which is often difficult to decide.In this thesis, we provide solutions and strategies to tackle these issues. We propose mathematical models, scheduling algorithms, and resource partitioning strategies in order to optimize high-throughput applications running on supercomputers. In this work, we focus on two types of applications in the context of the convergence HPC/Big Data: data-intensive and irregular (orstochastic) applications.Data-intensive applications represent typical HPC frameworks. These applications are made up oftwo main components. The first one is called simulation, a very compute-intensive code that generates a tremendous amount of data by simulating a physical or biological phenomenon. The second component is called analytics, during which sub-routines post-process the simulation output to extract,generate and save the final result of the application. We propose to optimize these applications by designing automatic resource partitioning and scheduling strategies for both of its components.To do so, we use the well-known in situ paradigm that consists in scheduling both components together in order to reduce the huge cost of saving all simulation data on disks. We propose automatic resource partitioning models and scheduling heuristics to improve overall performance of in situ applications.Stochastic applications are applications for which the execution time depends on its input, while inusual data-intensive applications the makespan of simulation and analytics are not affected by such parameters. Stochastic jobs originate from Big Data or Machine Learning workloads, whose performanceis highly dependent on the characteristics of input data. These applications have recently appeared onHPC platforms. However, the uncertainty of their execution time remains a strong limitation when using supercomputers. Indeed, the user needs to estimate how long his job will have to be executed by the machine, and enters this estimation as his first reservation value. But if the job does not complete successfully within this first reservation, the user will have to resubmit the job, this time requiring a longer reservation
APA, Harvard, Vancouver, ISO und andere Zitierweisen
16

Cappuzzo, Riccardo. „Deep learning models for tabular data curation“. Electronic Thesis or Diss., Sorbonne université, 2022. http://www.theses.fr/2022SORUS047.

Der volle Inhalt der Quelle
Annotation:
La conservation des données est un sujet omniprésent et de grande envergure, qui touche tous les domaines, du monde universitaire à l'industrie. Les solutions actuelles reposent sur le travail manuel des utilisateurs du domaine, mais elles ne sont pas adaptées. Nous étudions comment appliquer l'apprentissage profond à la conservation des données tabulaires. Nous concentrons notre travail sur le développement de systèmes de curation de données non supervisés et sur la conception de systèmes de curation qui modélisent intrinsèquement les valeurs catégorielles dans leur forme brute. Nous implémentons d'abord EmbDI pour générer des embeddings pour les données tabulaires, et nous traitons les tâches de résolution d'entités et de correspondance de schémas. Nous passons ensuite au problème de l'imputation des données en utilisant des réseaux neuronaux graphiques dans un cadre d'apprentissage multi-tâches appelé GRIMP
Data retention is a pervasive and far-reaching topic, affecting everything from academia to industry. Current solutions rely on manual work by domain users, but they are not adequate. We are investigating how to apply deep learning to tabular data curation. We focus our work on developing unsupervised data curation systems and designing curation systems that intrinsically model categorical values in their raw form. We first implement EmbDI to generate embeddings for tabular data, and address the tasks of entity resolution and schema matching. We then turn to the data imputation problem using graphical neural networks in a multi-task learning framework called GRIMP
APA, Harvard, Vancouver, ISO und andere Zitierweisen
17

Ali, Shayar. „Smart City : Implementation and development of platforms for the management of SunRise Smart Campus“. Thesis, Lille 1, 2018. http://www.theses.fr/2018LIL1I027/document.

Der volle Inhalt der Quelle
Annotation:
Ce travail concerne la mise en place de plateformes professionnelles informatiques et le développement de la plate-forme SunRise pour la gestion d'une Smart City. Il s’inscrit dans le cadre du projet SunRise qui vise à transformer le campus Cité Scientifique de l'Université de Lille en une «ville intelligente et durable». Le campus est représentatif d'une petite ville de 25 000 habitants et de 100 km de réseaux urbains.Cette thèse comprend cinq parties.La première partie comprend un état de l’art concernant les Smart Cities avec ses définitions et ses composantes.La deuxième partie présente le rôle des données dans les villes intelligentes, ainsi que les dernières technologies utilisées pour la gestion des villes intelligentes. Il présente également les différentes architectures et plateformes existantes pour la gestion d'une Smart City.La troisième partie présente le démonstrateur SunRise Smart City, sur lequel s’appuie cette thèse. La partie détaille l'instrumentation du site de démonstration ainsi que le modèle SIG du démonstrateur.La quatrième partie concerne l'architecture des deux plateformes professionnelles PI System et OpenDataSoft ainsi que leur mise en place et leur utilisation pour l'analyse de la consommation d'eau.La dernière partie décrit l'architecture de la plateforme SunRise et détaille ses couches. Il présente également les étapes du développement et de l’implémentation de la plateforme
This work concerns the implementation of professional platforms and the development of SunRise platform for managing a Smart City. It is a part of SunRise project, which aims at turning the Scientific Campus of the University of Lille into a large-scale demonstrator site of the "Smart and Sustainable City". The campus is representative to a small town of 25000 inhabitants and 100 km of urban infrastructure.This thesis includes five parts. The first part includes a literature review concerning the Smart Cities with its definitions and components. The second part presents the role of data in Smart Cities, as well as the latest technologies that are used for Smart City management. It presents also the different existing architectures and platforms for management a Smart City.The Third part presents the SunRise Smart City demonstrator, which is used as a basis for this thesis. The part details the instrumentation installed in the demo site as well as the GIS model of the demonstrator. The fourth part concerns the architecture of the two professional platforms PI System and OpenDataSoft as well as their implementation and use for the analysis of water consumption.The last part describes the architecture of the platform SunRise and details its layers. It presents also the stages of the platform development and implementation
APA, Harvard, Vancouver, ISO und andere Zitierweisen
18

Fertier, Audrey. „Interprétation automatique de données hétérogènes pour la modélisation de situations collaboratives : application à la gestion de crise“. Thesis, Ecole nationale des Mines d'Albi-Carmaux, 2018. http://www.theses.fr/2018EMAC0009/document.

Der volle Inhalt der Quelle
Annotation:
Les travaux présentés dans ce manuscrit s’appliquent au domaine de la gestion de crise française, et notamment à la phase de réponse qui suit un évènement majeur, comme une crue ou un accident industriel. Suite à l’évènement, des cellules de crise sont activées pour prévenir et traiter les conséquences de la crise. Elles font face, dans l’urgence, à de nombreuses difficultés. Les parties-prenantes sont nombreuses, autonomes et hétérogènes, la coexistence de plans d’urgence engendre des contradictions et des effets en cascade se nourrissent des interconnexions entre réseaux. Ces constats arrivent alors que les données disponibles sur les réseaux informatiques ne cessent de se multiplier. Elles sont, par exemple, émises par des capteurs de mesures, sur des réseaux sociaux, ou par des bénévoles. Ces données sont l’occasion de concevoir un système d’information capable de les collecter pour les interpréter en un ensemble d’information formalisé, utilisable en cellule de crise. Pour réussir, les défis liés aux 4Vs du Big data doivent être relevés en limitant le Volume, unifiant (la Variété) et améliorant la Véracité des données et des informations manipulées, tout en suivant la dynamique (Vélocité) de la crise en cours. Nos états de l’art sur les différentes parties de l’architecture recherchée nous ont permis de définir un tel système d’information. Ce dernier est aujourd’hui capable de (i) recevoir plusieurs types d’évènements émis de sources de données connues ou inconnues, (ii) d’utiliser des règles d’interprétations directement déduites de règles métiers réelles et (iii) de formaliser l’ensemble des informations utiles aux parties-prenantes. Son architecture fait partie des architectures orientées évènements, et coexiste avec l’architecture orientée services du logiciel développé par le laboratoire Centre de Génie Industriel (CGI). Le système d’information ainsi implémenté a pu être éprouvé sur un scénario de crue majeure en Loire Moyenne, élaboré par deux Services de Prévision des Crues (SPC) français. Le modèle décrivant la situation de crise courante, obtenu par le système d’information proposé, peut être utilisé pour (i) déduire un processus de réponse à la crise, (ii) détecter des imprévus ou (iii) mettre à jour une représentation de la situation en cellule de crise
The present work is applied to the field of French crisis management, and specifically to the crisis response phase which follows a major event, like a flood or an industrial accident. In the aftermath of the event, crisis cells are activated to prevent and deal with the consequences of the crisis. They face, in a hurry, many difficulties. The stakeholders are numerous, autonomous and heterogeneous, the coexistence of contingency plans favours contradictions and the interconnections of networks promotes cascading effects. These observations arise as the volume of data available continues to grow. They come, for example, from sensors, social media or volunteers on the crisis theatre. It is an occasion to design an information system able to collect the available data to interpret them and obtain information suited to the crisis cells. To succeed, it will have to manage the 4Vs of Big Data: the Volume, the Variety and Veracity of data and information, while following the dynamic (velocity) of the current crisis. Our literature review on the different parts of this architecture enables us to define such an information system able to (i) receive different types of events emitted from data sources both known and unknown, (ii) to use interpretation rules directly deduced from official business rules and (iii) to structure the information that will be used by the stake-holders. Its architecture is event-driven and coexists with the service oriented architecture of the software developed by the CGI laboratory. The implemented system has been tested on the scenario of a 1/100 per year flood elaborated by two French forecasting centres. The model describing the current crisis situation, deduced by the proposed information system, can be used to (i) deduce a crisis response process, (ii) to detect unexpected situations, and (iii) to update a COP suited to the decision-makers
APA, Harvard, Vancouver, ISO und andere Zitierweisen
19

Zarebski, David. „Ontologie naturalisée et ingénierie des connaissances“. Thesis, Paris 1, 2018. http://www.theses.fr/2018PA01H232/document.

Der volle Inhalt der Quelle
Annotation:
«Qu’ai-je besoin de connaître minimalement d’une chose pour la connaître ?» Le fait que cette question aux allures de devinette s’avère cognitivement difficile à appréhender de par son degré de généralité explique sans peine la raison pour laquelle son élucidation demeura plusieurs millénaires durant l’apanage d’une discipline unique : la Philosophie. Dans ce contexte, énoncer des critères à même de distinguer les composants primitifs de la réalité – ou le "mobilier du monde" – ainsi que leurs relations revient à produire une Ontologie. Cet ouvrage s’attelle à la tâche d’élucider le tournant historique curieux, en apparence anodin, que constitue l’émergence de ce type de questionnement dans le champ de deux disciplines connexes que constituent l’Intelligence Artificielle et l’Ingénierie des Connaissances. Nous montrons plus particulièrement ici que leur import d’une forme de méthodologie ontologique appliquée à la cognition ou à la représentation des connaissances ne relève pas de la simple analogie mais soulève un ensemble de questions et d’enjeux pertinents tant sur un plan appliqué que spéculatif. Plus spécifiquement, nous montrons ici que certaines des solutions techniques au problème de la data-masse (Big Data) – i.e. la multiplication et la diversification des données en ligne – constitue un point d’entrée aussi nouveau qu’inattendu dans de nombreuses problématiques traditionnellement philosophiques relatives à la place du langage et des raisonnements de sens commun dans la pensée ou encore l’existence d’une structuration de la réalité indépendante de l’esprit humain
«What do I need to know about something to know it ?». It is no wonder that such a general, hard to grasp and riddle-like question remained the exclusive domain of a single discipline for centuries : Philosophy. In this context, the distinction of the primitive components of reality – the so called "world’s furniture" – and their relations is called an Ontology. This book investigates the emergence of similar questions in two different though related fields, namely : Artificial Intelligence and Knowledge Engineering. We show here that the way these disciplines apply an ontological methodology to either cognition or knowledge representation is not a mere analogy but raises a bunch of relevant questions and challenges from both an applied and a speculative point of view. More specifically, we suggest that some of the technical answers to the issues addressed by Big Data invite us to revisit many traditional philosophical positions concerning the role of language or common sense reasoning in the thought or the existence of mind-independent structure in reality
APA, Harvard, Vancouver, ISO und andere Zitierweisen
20

Boukorca, Ahcène. „Hypergraphs in the Service of Very Large Scale Query Optimization. Application : Data Warehousing“. Thesis, Chasseneuil-du-Poitou, Ecole nationale supérieure de mécanique et d'aérotechnique, 2016. http://www.theses.fr/2016ESMA0026/document.

Der volle Inhalt der Quelle
Annotation:
L'apparition du phénomène Big-Data, a conduit à l'arrivée de nouvelles besoins croissants et urgents de partage de données qui a engendré un grand nombre de requêtes que les SGBD doivent gérer. Ce problème a été aggravé par d 'autres besoins de recommandation et d 'exploration des requêtes. Vu que le traitement de données est toujours possible grâce aux solutions liées à l'optimisation de requêtes, la conception physique et l'architecture de déploiement, où ces solutions sont des résultats de problèmes combinatoires basés sur les requêtes, il est indispensable de revoir les méthodes traditionnelles pour répondre aux nouvelles besoins de passage à l'échelle. Cette thèse s'intéresse à ce problème de nombreuses requêtes et propose une approche, implémentée par un Framework appelé Big-Quereis, qui passe à l'échelle et basée sur le hypergraph, une structure de données flexible qui a une grande puissance de modélisation et permet des formulations précises de nombreux problèmes d•combinatoire informatique. Cette approche est. le fruit. de collaboration avec l'entreprise Mentor Graphies. Elle vise à capturer l'interaction de requêtes dans un plan unifié de requêtes et utiliser des algorithmes de partitionnement pour assurer le passage à l'échelle et avoir des structures d'optimisation optimales (vues matérialisées et partitionnement de données). Ce plan unifié est. utilisé dans la phase de déploiement des entrepôts de données parallèles, par le partitionnement de données en fragments et l'allocation de ces fragments dans les noeuds de calcule correspondants. Une étude expérimentale intensive a montré l'intérêt de notre approche en termes de passage à l'échelle des algorithmes et de réduction de temps de réponse de requêtes
The emergence of the phenomenon Big-Data conducts to the introduction of new increased and urgent needs to share data between users and communities, which has engender a large number of queries that DBMS must handle. This problem has been compounded by other needs of recommendation and exploration of queries. Since data processing is still possible through solutions of query optimization, physical design and deployment architectures, in which these solutions are the results of combinatorial problems based on queries, it is essential to review traditional methods to respond to new needs of scalability. This thesis focuses on the problem of numerous queries and proposes a scalable approach implemented on framework called Big-queries and based on the hypergraph, a flexible data structure, which bas a larger modeling power and may allow accurate formulation of many problems of combinatorial scientific computing. This approach is the result of collaboration with the company Mentor Graphies. It aims to capture the queries interaction in an unified query plan and to use partitioning algorithms to ensure scalability and to optimal optimization structures (materialized views and data partitioning). Also, the unified plan is used in the deploymemt phase of parallel data warehouses, by allowing data partitioning in fragments and allocating these fragments in the correspond processing nodes. Intensive experimental study sbowed the interest of our approach in terms of scaling algorithms and minimization of query response time
APA, Harvard, Vancouver, ISO und andere Zitierweisen
21

Tran, Viet-Trung. „Scalable data-management systems for Big Data“. Phd thesis, École normale supérieure de Cachan - ENS Cachan, 2013. http://tel.archives-ouvertes.fr/tel-00920432.

Der volle Inhalt der Quelle
Annotation:
Big Data can be characterized by 3 V's. * Big Volume refers to the unprecedented growth in the amount of data. * Big Velocity refers to the growth in the speed of moving data in and out management systems. * Big Variety refers to the growth in the number of different data formats. Managing Big Data requires fundamental changes in the architecture of data management systems. Data storage should continue being innovated in order to adapt to the growth of data. They need to be scalable while maintaining high performance regarding data accesses. This thesis focuses on building scalable data management systems for Big Data. Our first and second contributions address the challenge of providing efficient support for Big Volume of data in data-intensive high performance computing (HPC) environments. Particularly, we address the shortcoming of existing approaches to handle atomic, non-contiguous I/O operations in a scalable fashion. We propose and implement a versioning-based mechanism that can be leveraged to offer isolation for non-contiguous I/O without the need to perform expensive synchronizations. In the context of parallel array processing in HPC, we introduce Pyramid, a large-scale, array-oriented storage system. It revisits the physical organization of data in distributed storage systems for scalable performance. Pyramid favors multidimensional-aware data chunking, that closely matches the access patterns generated by applications. Pyramid also favors a distributed metadata management and a versioning concurrency control to eliminate synchronizations in concurrency. Our third contribution addresses Big Volume at the scale of the geographically distributed environments. We consider BlobSeer, a distributed versioning-oriented data management service, and we propose BlobSeer-WAN, an extension of BlobSeer optimized for such geographically distributed environments. BlobSeer-WAN takes into account the latency hierarchy by favoring locally metadata accesses. BlobSeer-WAN features asynchronous metadata replication and a vector-clock implementation for collision resolution. To cope with the Big Velocity characteristic of Big Data, our last contribution feautures DStore, an in-memory document-oriented store that scale vertically by leveraging large memory capability in multicore machines. DStore demonstrates fast and atomic complex transaction processing in data writing, while maintaining high throughput read access. DStore follows a single-threaded execution model to execute update transactions sequentially, while relying on a versioning concurrency control to enable a large number of simultaneous readers.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
22

Debaere, Steven. „Proactive inferior member participation management in innovation communities“. Thesis, Lille, 2018. http://www.theses.fr/2018LIL1A012.

Der volle Inhalt der Quelle
Annotation:
Aujourd’hui, des entreprises reconnaissent de plus en plus les avantages des communautés d'innovation en ligne (IC) pour injecter des connaissances externes dans des procédures d'innovation. Malgré les avantages des ICs, garantir la viabilité pose deux défis importants. Premièrement, les ICs sont des environnements de données volumineux qui peuvent rapidement submerger les gestionnaires de communauté lorsque les membres communiquent par messages, créant ainsi des données substantielles (volumiques), rapidement extensibles (vélocité) et non structurées pouvant contenir des combinaisons linguistiques, vidéo, image et audio (variété). Deuxièmement, la plupart des communautés en ligne ne parviennent pas à générer de bons résultats car elles sont souvent incapables de tirer de la valeur des membres individuels de l'IC en raison de la participation inférieure des membres. Cette thèse doctorale s'appuie sur des stratégies de gestion de la relation client pour relever ces défis et ajoute de la valeur en introduisant un cadre proactif de gestion de la participation inférieure des membres pour réduire de manière proactive la participation inférieure des membres tout en gérant efficacement l'environnement IC. Cela prouve que la participation inférieure des membres peut être identifiée de manière proactive en analysant le style d'écriture des acteurs de la communauté. Il montre que les dépendances entre les comportements de participation des membres peuvent être exploitées pour améliorer les performances de prédiction. À l'aide d'une expérience sur le terrain, il démontre qu'une campagne d'email ciblée proactive permet de réduire efficacement la participation inférieure des membres
Nowadays, companies increasingly recognize the benefits of innovation communities (ICs) to inject external consumer knowledge into innovation processes. Despite the advantages of ICs, guaranteeing the viability poses two important challenges. First, ICs are big data environments that can quickly overwhelm community managers as members communicate through posts, thereby creating substantial (volume), rapidly expanding (velocity), and unstructured data that might encompass combinations of linguistic, video, image, and audio cues (variety). Second, most online communities fail to generate successful outcomes as they are often unable to derive value from individual IC members owing to members’ inferior participation. This doctoral dissertation leverages customer relationship management strategies to tackle these challenges and adds value by introducing a proactive inferior member participation management framework for community managers to proactively reduce inferior member participation, while effectively dealing with the data-rich IC environment. It proves that inferior member participation can be identified proactively by analyzing community actors’ writing style. It shows that dependencies between members’ participation behaviour can be exploited to improve prediction performance. Using a field experiment, it demonstrates that a proactive targeted email campaign allows to effectively reduce inferior member participation
APA, Harvard, Vancouver, ISO und andere Zitierweisen
23

Saif, Abdulqawi. „Experimental Methods for the Evaluation of Big Data Systems“. Electronic Thesis or Diss., Université de Lorraine, 2020. http://www.theses.fr/2020LORR0001.

Der volle Inhalt der Quelle
Annotation:
À l’ère du big data, de nombreux systèmes et applications sont créés pour collecter, stocker et analyser des données volumineuses dans des domaines divers. Bien que les systèmes big data fassent l’objet de multiples évaluations au cours de leur cycle de développement, les secteurs de recherches public et privé encouragent les chercheurs à faire des expérimentations supplémentaires afin d’assurer la qualité de leurs services et comprendre leur performance dans des contextes et des configurations variées. Cependant, les défis expérimentaux des systèmes big data ne sont pas triviaux. Alors que de nombreux travaux de recherche utilisent encore de vieilles méthodes expérimentales pour faire face à de tels défis, nous pensons que l’activité d’expérimentation peut être améliorée en proposant des méthodes expérimentales flexibles et à jour. Dans cette thèse, nous abordons des défis particuliers pour améliorer le contexte expérimental et l’observabilité des expériences big data. Premièrement, nous permettons la personnalisation de la performance de ressources environnementales où les expériences s’exécutent, en encourageant les chercheurs à effectuer des expériences à l’échelle sur des configurations hétérogènes. Nous contribuons ensuite aux outils expérimentaux IOscope et MonEx pour améliorer l’observabilité. IOscope permet d’effectuer des observations de bas niveau sur la pile d’entrée/sortie afin de détecter d’éventuels problèmes de performance sur l’environnement d’exécution. IOscope est développé pour convaincre que les techniques d’évaluation de haut niveau doivent être accompagnées par ces outils complémentaires afin de comprendre la performance. En revanche, le framework MonEx fonctionne aux niveaux supérieurs pour faciliter la collecte de données expérimentales. MonEx est le premier outil qui fait du monitoring autour des expériences indépendamment des environnements expérimentaux sous-jacents. Nous appliquons enfin des statistiques pour améliorer les conceptions expérimentales, en réduisant le nombre de scénarios expérimentaux et en obtenant un ensemble raffiné de facteurs expérimentaux aussi rapidement que possible. Enfin, toutes les contributions se complètent pour faciliter l’activité d’expérimentation en travaillant sur presque toutes les phases du cycle de vie des expériences big data
In the era of big data, many systems and applications are created to collect, to store, and to analyze massive data in multiple domains. Although those – big data systems – are subjected to multiple evaluations during their development life-cycle, academia and industry encourage further experimentation to ensure their quality of service and to understand their performance under various contexts and configurations. However, the experimental challenges of big data systems are not trivial. While many pieces of research still employ legacy experimental methods to face such challenges, we argue that experimentation activity can be improved by proposing flexible experimental methods. In this thesis, we address particular challenges to improve experimental context and observability for big data experiments. We firstly enable experiments to customize the performance of their environmental resources, encouraging researchers to perform scalable experiments over heterogeneous configurations. We then introduce two experimental tools: IOscope and MonEx to improve observability. IOscope allows performing low-level observations on the I/O stack to detect potential performance issues in target systems, convincing that the high-level evaluation techniques should be accompanied by such complementary tools to understand systems’ performance. In contrast, MonEx framework works on higher levels to facilitate experimental data collection. MonEx opens directions to practice experiment-based monitoring independently from the underlying experimental environments. We finally apply statistics to improve experimental designs, reducing the number of experimental scenarios and obtaining a refined set of experimental factors as fast as possible. At last, all contributions complement each other to facilitate the experimentation activity by working almost on all phases of big data experiments’ life-cycle
APA, Harvard, Vancouver, ISO und andere Zitierweisen
24

Ramdane, Yassine. „Big Data Warehouse : model de distribution des cubes de données à la volée“. Thesis, Lyon, 2019. http://www.theses.fr/2019LYSE2099.

Der volle Inhalt der Quelle
Annotation:
Le partitionnement et la distribution des données ont été largement utilisés dans les systèmes "shared nothing systems", plus particulièrement dans les systèmes distribués qui utilisent le paradigme MapReduce, tels que Hadoop et Spark. Ils ont été utilisés pour l’équilibrage des charges de données, pour éviter le chargement des partitions inutiles et pour guider laconception physique des bases de données et des entrepôts de données distribuées. Pour effectuer des analyses sur les données entreposées, nous utilisons généralement des requêtes OLAP. Une requête OLAP est une requête complexe contenant plusieurs opérations coûteuses, telles que la jointure en étoile, la projection, le filtrage et les opérations d’agrégats. Dans cette thèse, nous proposons différentes approches statiques et dynamiques de partitionnement et d’équilibrage des charges des données sur un cluster Hadoop, afin d’améliorer les performances des entrepôts de données distribuées.Nous avons proposé différents schémas statiques et dynamiques d’un entrepôt de données volumineux distribué sur un cluster de noeuds homogènes ; ce qui peut aider le système distribué à améliorer le temps d’exécution des opérations d’une requête OLAP. Nous avons proposé quatre approches : la première est une nouvelle stratégie de placement de données, pour permettre à un système de traitement des requêtes d’exécuter la jointure en étoile en un seul cycle MapReduce, sans la phase de shuffle. Dans la deuxième contribution, nous proposons différentes techniques de partitionnement et de bucketing pour éviter le chargement inutile de certains blocs de données HDFS et pour améliorer le traitement parallèle, en utilisant un modèle piloté par une charge de requêtes. Dans la troisième approche, nous proposons une nouvelle conception physique d’un entrepôt de données volumineux distribué sur un cluster Hadoop, en combinant la première approche basée sur les données et la seconde solution qui repose sur une charge de requêtes. La quatrième contribution a été développée pour améliorer les fonctions de groupement (Group-By) et d’agrégation en utilisant une approche dynamique capable de définir à la volée le meilleur schéma de partitionnement des reducers. Pour évaluer nos approches, nous avons fait des expérimentations avec différentes tailles de clusters, en utilisant différents volumes d’entrepôts de données, et où la table des faits contient plus de 28 milliards d’enregistrements. Nous avons utilisé le benchmark TPCDS, la plate-forme Hadoop-YARN, le moteur d’exécution Spark, le système Ray et Hive. Les résultats expérimentaux obtenus montrent que nos méthodes sont plus performantes que les approches existantes sur plusieurs aspects, notamment en terme du temps d’exécution des requêtes OLAP
Partitioning and distributing of the data have been widely used in sharing nothing systems, more particularly in the distributed systems that used the MapReduce paradigm, such as Hadoop ecosystem and Spark. They have been used for many purposes, such as load balancing, skipping to load unnecessary data partitions and for guiding the physical design ofdistributed databases or data warehouses. To do analysis with data warehouses, usually, we used OLAP queries. An OLAP query is a complex query that contains several cost operations, such as the star join, the projection, filtering, and aggregate functions. In this thesis, we propose different static and dynamic approaches of partitioning and load balancing of the data, to improve the performances of distributed big data warehouses over Hadoop cluster. We have proposed different static and dynamic schemes of a big data warehouse over a cluster of homogeneous nodes, which can help the distributed system to enhance the executing time of OLAP query operations, such as star join operation, scanning tables, and Group-By operation.We have proposed four approaches: The first approach, is a new data placement strategy which able to help a query processing system to perform a star join operation in only one MapReduce cycle, without a shuffle phase; In the second contribution, we propose different partitioning and bucketing techniques to skip loading some HDFS blocks and to enhance the parallel treatment of the distributed system, based on a workload-driven model; In the third approach, we propose a novel physical design of distributed big data warehouse over Hadoop cluster, such as we combine between our first data-driven approach and the second workloaddriven solution; The fourth contribution has been developed to improve Group-by and aggregate functions, by using a dynamic method, which able to define on the fly the best partitioning scheme of the reducer inputs. To evaluate our approaches, we have conducted some experiments on different cluster sizes, using different data warehouses volumes where the fact table has more than 28 billions of records. We have used the TPC-DS benchmark, a Hadoop-YARN platform, a Spark engine, and Ray and Hive system. Our experiments show that our methods outperform the state-of-the-art approaches in many aspects, especially on the OLAP query execution time
APA, Harvard, Vancouver, ISO und andere Zitierweisen
25

Mercier, Michael. „Contribution to High Performance Computing and Big Data Infrastructure Convergence“. Thesis, Université Grenoble Alpes (ComUE), 2019. http://www.theses.fr/2019GREAM031/document.

Der volle Inhalt der Quelle
Annotation:
La quantité de données produites dans le monde scientifique comme dans le monde commercial, est en constante augmentation. Le domaine du traitement de donnée à large échelle, appelé “Big Data”, a été inventé pour traiter des données sur de larges infrastructures informatiques distribuées. Mais l’intégration de système Big Data sur des machines de calcul intensif pose de nombreux problèmes. En effet, les gestionnaires de ressources ainsi que les systèmes de fichier de super calculateurs ne sont pas penser pour ce type de travail. Le sujet de cette thèse est de trouver la meilleure approche pour faire interagir ces deux gestionnaires de ressources et de traiter les différents problèmes soulevés par les mouvements de données et leur ordonnancement
The amount of data produced, either in the scientific community and the commercial world, is constantly growing. The field of Big Data has emerged to handle a large amount of data on distributed computing infrastructures. High-Performance Computer (HPC) infrastructures are made for intensive parallel computations. The HPC community is also facing more and more data because of new high definition sensors and large physics apparatus. The convergence of the two fields is currently happening. In fact, the HPC community is already using Big Data tools, but they are not integrated correctly, especially at the level of the file system and the Resources and Job Management System (RJMS).In order to understand how we can leverage HPC clusters for Big Data usage, and what are the challenges for the HPC infrastructures, we have studied multiple aspects of the convergence: we have made a survey on the software provisioning methods, with a focus on data-intensive applications. We also propose a new RJMS collaboration technique called BeBiDa which is based on 50 lines of code whereas similar solutions use at least 1000x more. We evaluate this mechanismon real conditions and in a simulation with our simulator Batsim
APA, Harvard, Vancouver, ISO und andere Zitierweisen
26

Liu, Jixiong. „Semantic Annotations for Tabular Data Using Embeddings : Application to Datasets Indexing and Table Augmentation“. Electronic Thesis or Diss., Sorbonne université, 2023. http://www.theses.fr/2023SORUS529.

Der volle Inhalt der Quelle
Annotation:
Avec le développement de l'Open Data, un grand nombre de sources de données sont mises à disposition des communautés (notamment les data scientists et les data analysts). Ces données constituent des sources importantes pour les services numériques sous réserve que les données soient nettoyées, non biaisées, et combinées à une sémantique explicite et compréhensible par les algorithmes afin de favoriser leur exploitation. En particulier, les sources de données structurées (CSV, JSON, XML, etc.) constituent la matière première de nombreux processus de science des données. Cependant, ces données proviennent de différents domaines pour lesquels l'expertise des consommateurs des données peut être limitée (knowledge gap). Ainsi, l'appropriation des données, étape critique pour la création de modèles d'apprentissage automatique de qualité, peut être complexe.Les modèles sémantiques (en particulier, les ontologies) permettent de représenter explicitement le sens des données en spécifiant les concepts et les relations présents dans les données. L'association d'étiquettes sémantiques aux ensembles de données facilite la compréhension et la réutilisation des données en fournissant une documentation sur les données qui peut être facilement utilisée par un non-expert. De plus, l'annotation sémantique ouvre la voie à des modes de recherche qui vont au-delà de simples mots-clés et permettent l'expression de requêtes d'un haut niveau conceptuel sur le contenu des jeux de données mais aussi leur structure tout en surmontant les problèmes d'hétérogénéité syntaxique rencontrés dans les données tabulaires. Cette thèse introduit un pipeline complet pour l'extraction, l'interprétation et les applications de tableaux de données à l'aide de graphes de connaissances. Nous rappelons tout d'abord la définition des tableaux du point de vue de leur interprétation et nous développons des systèmes de collecte et d'extraction de tableaux sur le Web et dans des fichiers locaux. Nous proposons ensuite trois systèmes d'interprétation de tableaux basés sur des règles heuristiques ou sur des modèles de représentation de graphes, afin de relever les défis observés dans la littérature. Enfin, nous présentons et évaluons deux applications d'augmentation des tables tirant parti des annotations sémantiques produites: l'imputation des données et l'augmentation des schémas
With the development of Open Data, a large number of data sources are made available to communities (including data scientists and data analysts). This data is the treasure of digital services as long as data is cleaned, unbiased, as well as combined with explicit and machine-processable semantics in order to foster exploitation. In particular, structured data sources (CSV, JSON, XML, etc.) are the raw material for many data science processes. However, this data derives from different domains for which consumers are not always familiar with (knowledge gap), which complicates their appropriation, while this is a critical step in creating machine learning models. Semantic models (in particular, ontologies) make it possible to explicitly represent the implicit meaning of data by specifying the concepts and relationships present in the data. The provision of semantic labels on datasets facilitates the understanding and reuse of data by providing documentation on the data that can be easily used by a non-expert. Moreover, semantic annotation opens the way to search modes that go beyond simple keywords and allow the use of queries of a high conceptual level on the content of the datasets but also their structure while overcoming the problems of syntactic heterogeneity encountered in tabular data. This thesis introduces a complete pipeline for the extraction, interpretation, and applications of tables in the wild with the help of knowledge graphs. We first refresh the exiting definition of tables from the perspective of table interpretation and develop systems for collecting and extracting tables on the Web and local files. Three table interpretation systems are further proposed based on either heuristic rules or graph representation models facing the challenges observed from the literature. Finally, we introduce and evaluate two table augmentation applications based on semantic annotations, namely data imputation and schema augmentation
APA, Harvard, Vancouver, ISO und andere Zitierweisen
27

Alexandre-Barff, Welcome. „Architecture out-of-core basée GPU pour de la visualisation interactive de séries temporelles de données AMR“. Electronic Thesis or Diss., Reims, 2024. http://www.theses.fr/2024REIMS005.

Der volle Inhalt der Quelle
Annotation:
Ce manuscrit présente une approche de scalabilité pour de la visualisation in-téractive de série temporelle de Maillages à Raffinement Adaptatif (AMR) massives. Nouspouvons définir une donnée AMR comme un format de quadrillage dynamique de cellulesraffinées hiérarchiquement à partir d’un domaine de calcul décrit dans cette étude commeune grille cartésienne régulière. Cette caractéristique adaptative est essentielle pour suivredes phénomènes évolutifs dépendant du temps et fait du format AMR une représentationessentielle pour la simulation numérique 3D. Cependant, la visualisation des données desimulation numérique met en évidence un problème critique : l’augmentation significa-tive de l’empreinte mémoire des données générées, qui atteint des pétaoctets, dépassantainsi largement les capacités mémoire des cartes graphiques les plus récentes. La questionest donc de savoir comment accèder à ces données massives - les séries temporelles AMRen particulier - pour de la visualisation intéractive sur un simple poste de travail. Afinde répondre à cette problématique majeure, nous présentons une architecture out-of-corebasée GPU. Notre proposition est un système de cache basé sur un bricking ad-hoc identifiépar une indexation Space-Filling Curve (SFC) et gérée par une table de pagination baséeGPU qui charge les données AMR requises à la volée depuis le disque vers la mémoire duGPU
This manuscript presents a scalable approach for large-scale Adaptive Mesh Refinement (AMR) time series interactive visualization.We can define AMR data as a dynamic gridding format of cells hierarchically refined from a computational domain described in this study as a regular Cartesian grid.This adaptive feature is essential for tracking time-dependent evolutionary phenomena and makes the AMR format an essential representation for 3D numerical simulations.However, the visualization of numerical simulation data highlights one critical issue: the significant increases in generated data memory footprint reaching petabytes, thus greatly exceeding the memory capabilities of the most recent graphics hardware.Therefore, the question is how to access this massive data - AMR time series in particular - for interactive visualization on a simple workstation. To overcome this main problem, we present an out-of-core GPU-based architecture.Our proposal is a cache system based on an ad-hoc bricking identified by a Space-Filling Curve (SFC) indexing and managed by a GPU-based page table that loads required AMR data on-the-fly from disk to GPU memory
APA, Harvard, Vancouver, ISO und andere Zitierweisen
28

Da, Silva Carvalho Paulo. „Plateforme visuelle pour l'intégration de données faiblement structurées et incertaines“. Thesis, Tours, 2017. http://www.theses.fr/2017TOUR4020/document.

Der volle Inhalt der Quelle
Annotation:
Nous entendons beaucoup parler de Big Data, Open Data, Social Data, Scientific Data, etc. L’importance qui est apportée aux données en général est très élevée. L’analyse de ces données est importante si l’objectif est de réussir à en extraire de la valeur pour pouvoir les utiliser. Les travaux présentés dans cette thèse concernent la compréhension, l’évaluation, la correction/modification, la gestion et finalement l’intégration de données, pour permettre leur exploitation. Notre recherche étudie exclusivement les données ouvertes (DOs - Open Data) et plus précisément celles structurées sous format tabulaire (CSV). Le terme Open Data est apparu pour la première fois en 1995. Il a été utilisé par le groupe GCDIS (Global Change Data and Information System) (États-Unis) pour encourager les entités, possédant les mêmes intérêts et préoccupations, à partager leurs données [Data et System, 1995]. Le mouvement des données ouvertes étant récent, il s’agit d’un champ qui est actuellement en grande croissance. Son importance est actuellement très forte. L’encouragement donné par les gouvernements et institutions publiques à ce que leurs données soient publiées a sans doute un rôle important à ce niveau
We hear a lot about Big Data, Open Data, Social Data, Scientific Data, etc. The importance currently given to data is, in general, very high. We are living in the era of massive data. The analysis of these data is important if the objective is to successfully extract value from it so that they can be used. The work presented in this thesis project is related with the understanding, assessment, correction/modification, management and finally the integration of the data, in order to allow their respective exploitation and reuse. Our research is exclusively focused on Open Data and, more precisely, Open Data organized in tabular form (CSV - being one of the most widely used formats in the Open Data domain). The first time that the term Open Data appeared was in 1995 when the group GCDIS (Global Change Data and Information System) (from United States) used this expression to encourage entities, having the same interests and concerns, to share their data [Data et System, 1995]. However, the Open Data movement has only recently undergone a sharp increase. It has become a popular phenomenon all over the world. Being the Open Data movement recent, it is a field that is currently growing and its importance is very strong. The encouragement given by governments and public institutions to have their data published openly has an important role at this level
APA, Harvard, Vancouver, ISO und andere Zitierweisen
29

Chihoub, Houssem Eddine. „Managing consistency for big data applications : tradeoffs and self-adaptiveness“. Thesis, Cachan, Ecole normale supérieure, 2013. http://www.theses.fr/2013DENS0059/document.

Der volle Inhalt der Quelle
Annotation:
Dans l’ère de Big Data, les applications intensives en données gèrent des volumes de données extrêmement grand. De plus, ils ont besoin de temps de traitement rapide. Une grande partie de ces applications sont déployées sur des infrastructures cloud. Ceci est afin de bénéficier de l’élasticité des clouds, les déploiements sur demande et les coûts réduits strictement relatifs à l’usage. Dans ce contexte, la réplication est un moyen essentiel dans le cloud afin de surmonter les défis de Big Data. En effet, la réplication fournit les moyens pour assurer la disponibilité des données à travers de nombreuses copies de données, des accès plus rapide aux copies locales, la tolérance aux fautes. Cependant, la réplication introduit le problème majeur de la cohérence de données. La gestion de la cohérence est primordiale pour les systèmes de Big Data. Les modèles à cohérence forte présentent de grandes limitations aux aspects liées aux performances et au passage à l’échelle à cause des besoins de synchronisation. En revanche, les modèles à cohérence faible et éventuelle promettent de meilleures performances ainsi qu’une meilleure disponibilité de données. Toutefois, ces derniers modèles peuvent tolérer, sous certaines conditions, trop d’incohérence temporelle. Dans le cadre du travail de cette thèse, on s'adresse particulièrement aux problèmes liés aux compromis de cohérence dans les systèmes à large échelle de Big Data. Premièrement, on étudie la gestion de cohérence au niveau du système de stockage. On introduit un modèle de cohérence auto-adaptative (nommé Harmony). Ce modèle augmente et diminue de manière automatique le niveau de cohérence et le nombre de copies impliquées dans les opérations. Ceci permet de fournir de meilleures performances toute en satisfaisant les besoins de cohérence de l’application. De plus, on introduit une étude détaillée sur l'impact de la gestion de la cohérence sur le coût financier dans le cloud. On emploi cette étude afin de proposer une gestion de cohérence efficace qui réduit les coûts. Dans une troisième direction, on étudie les effets de gestion de cohérence sur la consommation en énergie des systèmes de stockage distribués. Cette étude nous mène à analyser les gains potentiels des reconfigurations adaptatives des systèmes de stockage en matière de réduction de la consommation. Afin de compléter notre travail au niveau système de stockage, on s'adresse à la gestion de cohérence au niveau de l’application. Les applications de Big Data sont de nature différente et ont des besoins de cohérence différents. Par conséquent, on introduit une approche de modélisation du comportement de l’application lors de ses accès aux données. Le modèle résultant facilite la compréhension des besoins en cohérence. De plus, ce modèle est utilisé afin de délivrer une cohérence customisée spécifique à l’application
In the era of Big Data, data-intensive applications handle extremely large volumes of data while requiring fast processing times. A large number of such applications run in the cloud in order to benefit from cloud elasticity, easy on-demand deployments, and cost-efficient Pays-As-You-Go usage. In this context, replication is an essential feature in the cloud in order to deal with Big Data challenges. Therefore, replication therefore, enables high availability through multiple replicas, fast data access to local replicas, fault tolerance, and disaster recovery. However, replication introduces the major issue of data consistency across different copies. Consistency management is a critical for Big Data systems. Strong consistency models introduce serious limitations to systems scalability and performance due to the required synchronization efforts. In contrast, weak and eventual consistency models reduce the performance overhead and enable high levels of availability. However, these models may tolerate, under certain scenarios, too much temporal inconsistency. In this Ph.D thesis, we address this issue of consistency tradeoffs in large-scale Big Data systems and applications. We first, focus on consistency management at the storage system level. Accordingly, we propose an automated self-adaptive model (named Harmony) that scale up/down the consistency level at runtime when needed in order to provide as high performance as possible while preserving the application consistency requirements. In addition, we present a thorough study of consistency management impact on the monetary cost of running in the cloud. Hereafter, we leverage this study in order to propose a cost efficient consistency tuning (named Bismar) in the cloud. In a third direction, we study the consistency management impact on energy consumption within the data center. According to our findings, we investigate adaptive configurations of the storage system cluster that target energy saving. In order to complete our system-side study, we focus on the application level. Applications are different and so are their consistency requirements. Understanding such requirements at the storage system level is not possible. Therefore, we propose an application behavior modeling that apprehend the consistency requirements of an application. Based on the model, we propose an online prediction approach- named Chameleon that adapts to the application specific needs and provides customized consistency
APA, Harvard, Vancouver, ISO und andere Zitierweisen
30

Caigny, Arno de. „Innovation in customer scoring for the financial services industry“. Thesis, Lille, 2019. http://www.theses.fr/2019LIL1A011.

Der volle Inhalt der Quelle
Annotation:
Cette thèse améliore la notation des clients. L’évaluation des clients est importante pour les entreprises dans leurs processus de prise de décision parce qu'elle aide à résoudre des problèmes de gestion clés tels que le choix des clients à cibler pour une campagne de marketing ou l'analyse des clients qui sont susceptibles de quitter l'entreprise. La recherche effectuée dans le cadre de cette thèse apporte plusieurs contributions dans trois domaines de la littérature sur la notation des clients. Premièrement, de nouvelles sources de données sont utilisées pour évaluer les clients. Deuxièmement, la méthodologie pour passer des données aux décisions est améliorée. Troisièmement, la prédiction des événements courants du client est proposée comme une nouvelle application de la notation des clients. Tous les résultats présentés dans cette thèse sont issus de données réelles et sont non seulement d'une grande valeur académique, mais aussi d'une grande pertinence commerciale
This dissertation improves customer scoring. Customer scoring is important for companies in their decision making processes because it helps to solve key managerial issues such as the decision of which customers to target for a marketing campaign or the assessment of customer that are likely to leave the company. The research in this dissertation makes several contributions in three areas of the customer scoring literature. First, new sources of data are used to score customers. Second, methodology to go from data to decisions is improved. Third, customer life event prediction is proposed as a new application of customer scoring
APA, Harvard, Vancouver, ISO und andere Zitierweisen
31

El, Garrab Hamza. „Amélioration de la chaine logistique de pièces de rechange en boucle fermée : application des modèles d’apprentissage“. Thesis, Angers, 2020. http://www.theses.fr/2020ANGE0019.

Der volle Inhalt der Quelle
Annotation:
Dans le domaine de service après-vente et particulièrement dans la maintenance, l’intervention rapide et la réparation du bien du client est un élément clé pour sa satisfaction et pour la création de l’image de marque dans le marché. Le travail présenté dans cette thèse propose une approche Big Data et Machine Learning pour l’amélioration du flux informationnel de la chaine logistique de pièces de rechange. Notre contribution se focalise sur la prévision de la charge dans les centres de réparation des pièces de rechange, qui sont les fournisseurs principaux des pièces utilisés pour réparer les systèmes des clients. La grandeur de la chaine logistique et sa complexité, le grand nombre des références de pièces ainsi que la multitude des cas spéciaux (pays avec de lois spécifiques, pièces particulières…) fait que les approches classiques n’offrent pas des prévisions fiables pour les services de réparation. Dans ce projet, nous proposons des algorithmes d’apprentissage permettant la construction de la connaissance à partir de grands volumes de données, au lieu de l’implémentation manuelle. Nous allons voir les modèles dans la littérature, présenter notre méthodologie, et ensuite implémenter les modèles et évaluer leur performance en comparaison avec les algorithmes existants
In the field of after-sales service and particularly in maintenance, the quick intervention and repair of the customer's property is a key element for his satisfaction and for the creation of the brand image in the market. The work presented in this thesis proposes a Big Data and Machine Learning approach for the improvement of the information flow in the spare parts supply chain. Our contribution focuses on load forecasting in spare parts repair centers, which are the main suppliers of parts used to repair customers' systems. The size of the supply chain and its complexity, the large number of part numbers as well as the multitude of special cases (countries with specific laws, special parts...) makes that classical approaches do not offer reliable forecasts for repair services. In this project, we propose learning algorithms allowing the construction of knowledge from large volumes of data, instead of manual implementation. We will see the models in the literature, present our methodology, and then implement the models and evaluate their performance in comparison with existing algorithms
APA, Harvard, Vancouver, ISO und andere Zitierweisen
32

Yildiz, Orcun. „Efficient Big Data Processing on Large-Scale Shared Platforms ˸ managing I/Os and Failure“. Thesis, Rennes, École normale supérieure, 2017. http://www.theses.fr/2017ENSR0009/document.

Der volle Inhalt der Quelle
Annotation:
En 2017 nous vivons dans un monde régi par les données. Les applications d’analyse de données apportent des améliorations fondamentales dans de nombreux domaines tels que les sciences, la santé et la sécurité. Cela a stimulé la croissance des volumes de données (le déluge du Big Data). Pour extraire des informations utiles à partir de cette quantité énorme d’informations, différents modèles de traitement des données ont émergé tels que MapReduce, Hadoop, et Spark. Les traitements Big Data sont traditionnellement exécutés à grande échelle (les systèmes HPC et les Clouds) pour tirer parti de leur puissance de calcul et de stockage. Habituellement, ces plateformes à grande échelle sont utilisées simultanément par plusieurs utilisateurs et de multiples applications afin d’optimiser l’utilisation des ressources. Bien qu’il y ait beaucoup d’avantages à partager de ces plateformes, plusieurs problèmes sont soulevés dès lors qu’un nombre important d’utilisateurs et d’applications les utilisent en même temps, parmi lesquels la gestion des E / S et des défaillances sont les principales qui peuvent avoir un impact sur le traitement efficace des données.Nous nous concentrons tout d’abord sur les goulots d’étranglement liés aux performances des E/S pour les applications Big Data sur les systèmes HPC. Nous commençons par caractériser les performances des applications Big Data sur ces systèmes. Nous identifions les interférences et la latence des E/S comme les principaux facteurs limitant les performances. Ensuite, nous nous intéressons de manière plus détaillée aux interférences des E/S afin de mieux comprendre les causes principales de ce phénomène. De plus, nous proposons un système de gestion des E/S pour réduire les dégradations de performance que les applications Big Data peuvent subir sur les systèmes HPC. Par ailleurs, nous introduisons des modèles d’interférence pour les applications Big Data et HPC en fonction des résultats que nous obtenons dans notre étude expérimentale concernant les causes des interférences d’E/S. Enfin, nous exploitons ces modèles afin de minimiser l’impact des interférences sur les performances des applications Big Data et HPC. Deuxièmement, nous nous concentrons sur l’impact des défaillances sur la performance des applications Big Data en étudiant la gestion des pannes dans les clusters MapReduce partagés. Nous présentons un ordonnanceur qui permet un recouvrement rapide des pannes, améliorant ainsi les performances des applications Big Data
As of 2017, we live in a data-driven world where data-intensive applications are bringing fundamental improvements to our lives in many different areas such as business, science, health care and security. This has boosted the growth of the data volumes (i.e., deluge of Big Data). To extract useful information from this huge amount of data, different data processing frameworks have been emerging such as MapReduce, Hadoop, and Spark. Traditionally, these frameworks run on largescale platforms (i.e., HPC systems and clouds) to leverage their computation and storage power. Usually, these largescale platforms are used concurrently by multiple users and multiple applications with the goal of better utilization of resources. Though benefits of sharing these platforms exist, several challenges are raised when sharing these large-scale platforms, among which I/O and failure management are the major ones that can impact efficient data processing.To this end, we first focus on I/O related performance bottlenecks for Big Data applications on HPC systems. We start by characterizing the performance of Big Data applications on these systems. We identify I/O interference and latency as the major performance bottlenecks. Next, we zoom in on I/O interference problem to further understand the root causes of this phenomenon. Then, we propose an I/O management scheme to mitigate the high latencies that Big Data applications may encounter on HPC systems. Moreover, we introduce interference models for Big Data and HPC applications based on the findings we obtain in our experimental study regarding the root causes of I/O interference. Finally, we leverage these models to minimize the impact of interference on the performance of Big Data and HPC applications. Second, we focus on the impact of failures on the performance of Big Data applications by studying failure handling in shared MapReduce clusters. We introduce a failure-aware scheduler which enables fast failure recovery while optimizing data locality thus improving the application performance
APA, Harvard, Vancouver, ISO und andere Zitierweisen
33

Jlassi, Aymen. „Optimisation de la gestion des ressources sur une plate-forme informatique du type Big Data basée sur le logiciel Hadoop“. Thesis, Tours, 2017. http://www.theses.fr/2017TOUR4042.

Der volle Inhalt der Quelle
Annotation:
L'entreprise "Cyres-group" cherche à améliorer le temps de réponse de ses grappes Hadoop et la manière dont les ressources sont exploitées dans son centre de données. Les idées sous-jacentes à la réduction du temps de réponse sont de faire en sorte que (i) les travaux soumis se terminent au plus tôt et que (ii) le temps d'attente de chaque utilisateur du système soit réduit. Nous identifions deux axes d'amélioration : 1. nous décidons d'intervenir pour optimiser l'ordonnancement des travaux sur une plateforme Hadoop. Nous considérons le problème d'ordonnancement d'un ensemble de travaux du type MapReduce sur une plateforme homogène. 2. Nous décidons d'évaluer et proposer des outils capables (i) de fournir plus de flexibilité lors de la gestion des ressources dans le centre de données et (ii) d'assurer l'intégration d'Hadoop dans des infrastructures Cloud avec le minimum de perte de performance. Dans une première étude, nous effectuons une revue de la littérature. À la fin de cette étape, nous remarquons que les modèles mathématiques proposés dans la littérature pour le problème d'ordonnancement ne modélisent pas toutes les caractéristiques d'une plateforme Hadoop. Nous proposons à ce niveau un modèle plus réaliste qui prend en compte les aspects les plus importants tels que la gestion des ressources, la précédence entre les travaux, la gestion du transfert des données et la gestion du réseau. Nous considérons une première modélisation simpliste et nous considérons la minimisation de la date de fin du dernier travail (Cmax) comme critère à optimiser. Nous calculons une borne inférieure à l'aide de la résolution du modèle mathématique avec le solveur CPLEX. Nous proposons une heuristique (LocFirst) et nous l'évaluons. Ensuite, nous faisons évoluer notre modèle et nous considérons, comme fonction objective, la somme des deux critères identifiés depuis la première étape : la minimisation de la somme pondérée des dates de fin des travaux ( ∑ wjCj) et la minimisation du (Cmax). Nous cherchons à minimiser la moyenne pondérée des deux critères, nous calculons une borne inférieure et nous proposons deux heuristiques de résolution
"Cyres-Group" is working to improve the response time of his clusters Hadoop and optimize how the resources are exploited in its data center. That is, the goals are to finish work as soon as possible and reduce the latency of each user of the system. Firstly, we decide to work on the scheduling problem in the Hadoop system. We consider the problem as the problem of scheduling a set of jobs on a homogeneous platform. Secondly, we decide to propose tools, which are able to provide more flexibility during the resources management in the data center and ensure the integration of Hadoop in Cloud infrastructures without unacceptable loss of performance. Next, the second level focuses on the review of literature. We conclude that, existing works use simple mathematical models that do not reflect the real problem. They ignore the main characteristics of Hadoop software. Hence, we propose a new model ; we take into account the most important aspects like resources management and the relations of precedence among tasks and the data management and transfer. Thus, we model the problem. We begin with a simplistic model and we consider the minimisation of the Cmax as the objective function. We solve the model with mathematical solver CPLEX and we compute a lower bound. We propose the heuristic "LocFirst" that aims to minimize the Cmax. In the third level, we consider a more realistic modelling of the scheduling problem. We aim to minimize the weighted sum of the following objectives : the weighted flow time ( ∑ wjCj) and the makespan (Cmax). We compute a lower bound and we propose two heuristics to resolve the problem
APA, Harvard, Vancouver, ISO und andere Zitierweisen
34

Darrous, Jad. „Scalable and Efficient Data Management in Distributed Clouds : Service Provisioning and Data Processing“. Thesis, Lyon, 2019. http://www.theses.fr/2019LYSEN077.

Der volle Inhalt der Quelle
Annotation:
Cette thèse porte sur des solutions pour la gestion de données afin d'accélérer l'exécution efficace d'applications de type « Big Data » (très consommatrices en données) dans des centres de calculs distribués à grande échelle. Les applications de type « Big Data » sont de plus en plus souvent exécutées sur plusieurs sites. Les deux principales raisons de cette tendance sont 1) le déplacement des calculs vers les sources de données pour éliminer la latence due à leur transmission et 2) le stockage de données sur un site peut ne pas être réalisable à cause de leurs tailles de plus en plus importantes.La plupart des applications s'exécutent sur des clusters virtuels et nécessitent donc des images de machines virtuelles (VMI) ou des conteneurs d’application. Par conséquent, il est important de permettre l’approvisionnement rapide de ces services afin de réduire le temps d'attente avant l’exécution de nouveaux services ou applications. Dans la première partie de cette thèse, nous avons travaillé sur la récupération et le placement des données, en tenant compte de problèmes difficiles, notamment l'hétérogénéité des connexions au réseau étendu (WAN) et les besoins croissants en stockage pour les VMIs et les conteneurs d’application.Par ailleurs, les applications de type « Big Data » reposent sur la réplication pour fournir des services fiables et rapides, mais le surcoût devient de plus en plus grand. La seconde partie de cette thèse constitue l'une des premières études sur la compréhension et l'amélioration des performances des applications utilisant la technique, moins coûteuse en stockage, des codes d'effacement (erasure coding), en remplacement de la réplication
This thesis focuses on scalable data management solutions to accelerate service provisioning and enable efficient execution of data-intensive applications in large-scale distributed clouds. Data-intensive applications are increasingly running on distributed infrastructures (multiple clusters). The main two reasons for such a trend are 1) moving computation to data sources can eliminate the latency of data transmission, and 2) storing data on one site may not be feasible given the continuous increase of data size.On the one hand, most applications run on virtual clusters to provide isolated services, and require virtual machine images (VMIs) or container images to provision such services. Hence, it is important to enable fast provisioning of virtualization services to reduce the waiting time of new running services or applications. Different from previous work, during the first part of this thesis, we worked on optimizing data retrieval and placement considering challenging issues including the continuous increase of the number and size of VMIs and container images, and the limited bandwidth and heterogeneity of the wide area network (WAN) connections.On the other hand, data-intensive applications rely on replication to provide dependable and fast services, but it became expensive and even infeasible with the unprecedented growth of data size. The second part of this thesis provides one of the first studies on understanding and improving the performance of data-intensive applications when replacing replication with the storage-efficient erasure coding (EC) technique
APA, Harvard, Vancouver, ISO und andere Zitierweisen
35

Nesvijevskaia, Anna. „Phénomène Big Data en entreprise : processus projet, génération de valeur et Médiation Homme-Données“. Thesis, Paris, CNAM, 2019. http://www.theses.fr/2019CNAM1247.

Der volle Inhalt der Quelle
Annotation:
Le Big Data, phénomène sociotechnique porteur de mythes, se traduit dans les entreprises par la mise en place de premiers projets, plus particulièrement des projets de Data Science. Cependant, ils ne semblent pas générer la valeur espérée. La recherche-action menée au cours de 3 ans sur le terrain, à travers une étude qualitative approfondie de cas multiples, pointe des facteurs clés qui limitent cette génération de valeur, et notamment des modèles de processus projet trop autocentrés. Le résultat est (1) un modèle ajusté de dispositif projet data (Brizo_DS), ouvert et orienté sur les usages, dont la capitalisation de connaissances, destiné à réduire les incertitudes propres à ces projets exploratoires, et transposable à l’échelle d’une gestion de portefeuille de projets data en entreprise. Il est complété par (2) un outil de documentation de la qualité des données traitées, le Databook, et par (3) un dispositif de Médiation Homme-Données, qui garantissent l’alignement des acteurs vers un résultat optimal
Big Data, a sociotechnical phenomenon carrying myths, is reflected in companies by the implementation of first projects, especially Data Science projects. However, they do not seem to generate the expected value. The action-research carried out over the course of 3 years in the field, through an in-depth qualitative study of multiple cases, points to key factors that limit this generation of value, including overly self-contained project process models. The result is (1) an open data project model (Brizo_DS), orientated on the usage, including knowledge capitalization, intended to reduce the uncertainties inherent in these exploratory projects, and transferable to the scale of portfolio management of corporate data projects. It is completed with (2) a tool for documenting the quality of the processed data, the Databook, and (3) a Human-Data Mediation device, which guarantee the alignment of the actors towards an optimal result
APA, Harvard, Vancouver, ISO und andere Zitierweisen
36

Méral, Hélène. „De la relance multicanal du client fidèle à la performance commerciale des enseignes de ditribution spécialisées“. Thesis, Bordeaux, 2018. http://www.theses.fr/2018BORD0385/document.

Der volle Inhalt der Quelle
Annotation:
Dans un contexte de développement des stratégies marketing multi-canal lié principalement à l’évolution constante de l’outil Internet et des nouvelles technologies de diffusion (Dupuis, Prunet, 2001 ; Dabholkar, 1996), il convient de mieux comprendre les effets de ces stratégies sur la performance commerciale de l’entreprise via le processus de fidélisation client. Ainsi, ce projet de recherche propose d’investiguer, à travers diverses études quantitatives l’effet les relances multi-canal sur la fidélité envers les enseignes à travers une opération "chèque fidélité". l'étude permettra de construire un modèle de référence dont la duplicité sera vérifiée afin d'être exploité sur plusieurs secteurs d'activité commerciale
In a context of development of the multi-channel marketing strategies bound mainly to the constant evolution of the Internet tools and the new technologies of distribution (Dupuis, Prunet, on 2001; Dabholkar, on 1996), it is advisable to understand the effects of these strategies on the companies' commercial performance through the process of customer loyalty development. So, this research project suggests investigating, through diverse quantitative studies, the effect the multi-channel relaunchings on loyalty programs to signs through an operation "check". The study will allow to build a benchmark model which the duplicity will be verified to be exploited on several business sectors
APA, Harvard, Vancouver, ISO und andere Zitierweisen
37

Soleman, Ramzi. „La théorie des ressources et l'évaluation du système d'information : le cas des outils de surveillance des médias sociaux (Social Media Monitoring)“. Thesis, Paris 10, 2018. http://www.theses.fr/2018PA100018.

Der volle Inhalt der Quelle
Annotation:
Récemment les données issues de médias sociaux, dites les Big Social Data (BSD) retiennent de plus en plus l’attention des chercheurs et des professionnels, notamment après l’apparition des outils de surveillance des médias sociaux (Social Media Monitoring – SMM), permettant de traiter ces BSD. Les promesses associées au SMM concernent l’amélioration des processus de prise de décision, voire la transformation de processus métiers des entreprises. Malgré des investissements de plus en plus importants, l’usage efficace de ces outils dans les entreprises est très variable. Dans cette recherche, nous souhaiterions comprendre comment et pour quelles finalités le outils SMM sont utilisés ?. Pour l’évaluation de ces outils, nous nous appuyons sur la théorie des ressources. Afin de mettre œuvre de cette recherche, nous avons eu recours à une approche par méthodes mixtes. Cette approche consiste en étude qualitative qui a servi au développement et à l’enrichissement d’une seconde étude quantitative. Les résultats obtenus montrent que la combinaison de ressources SMM (qualité d’outil, ressources humaines…) et de ressources complémentaires permet de constituer des capacités SMM (mesure, interactive, utilisation processus) conduisant à la performance du SMM. Le soutien de l’organisation et, plus spécifiquement le rôle des managers, dans l’activation des ressources et des capacités SMM est conforme au récent approfondissement du management des ressources. En revanche, nous avons détecté que des ambiguïtés demeurent concernant le RBT. Pour cela, nous proposerons de lever ces ambigüités en ayant recours à la théorie étendue des ressources. Finalement, nous présentons les apports, les limites et les perspectives de notre recherche
Recently, social media data, called Big Social Data (BSD), attract more and more attention from researchers and professionals, particularly after the emergence of Social Media Monitoring (SMM) tools, used to process BSD. The promises associated with the SMM concern the improvement of decision-making processes, or even the transformation of business processes. Despite increasing investments, the effective use of these tools in companies is very variable. In this research, we would like to understand how and for what purposes the SMM tools are used?. For the evaluation of these tools, we build upon the Resource-Based Theory (RBT). In order to implement this research, we used a mixed method approach. This approach consists of a qualitative study that was used to develop and enrich a second quantitative study. The obtained results show that the combination of SMM resources (quality of SMM tool, human resources…) and complementary resources makes it possible to build SMM capabilities (measurement, process, interaction…) leading to performance. Moreover, the support of the organization, and more specifically the role of managers, in the activation of SMM resources and capabilities is consistent with the recent advancements of resource management. However, we detected some ambiguities concerning the RBT. To deal with these ambiguities, we propose to resort to the extended theory of resource. Finally, we present the contributions, the limits and the perspectives of our research
APA, Harvard, Vancouver, ISO und andere Zitierweisen
38

Renault, Thomas. „Three essays on the informational efficiency of financial markets through the use of Big Data Analytics“. Thesis, Paris 1, 2017. http://www.theses.fr/2017PA01E009/document.

Der volle Inhalt der Quelle
Annotation:
L’augmentation massive du volume de données générées chaque jour par les individus sur Internet offre aux chercheurs la possibilité d’aborder la question de la prédictibilité des marchés financiers sous un nouvel angle. Sans prétendre apporter une réponse définitive au débat entre les partisans de l’efficience des marchés et les chercheurs en finance comportementale, cette thèse vise à améliorer notre compréhension du processus de formation des prix sur les marchés financiers grâce à une approche Big Data. Plus précisément, cette thèse porte sur (1) la mesure du sentiment des investisseurs à fréquence intra-journalière, et le lien entre le sentiment des investisseurs et les rendements agrégés du marché,(2) la mesure de l’attention des investisseurs aux informations économiques et financières en temps réel, et la relation entre l’attention des investisseurs et la dynamique des prix des actions des sociétés à forte capitalisation, et enfin, (3) la détection des comportements suspicieux pouvant amoindrir le rôle informationnel des marchés financiers, et le lien entre le volume d’activité sur les réseaux sociaux et le prix des actions des entreprises de petite capitalisation. Le premier essai propose une méthodologie permettant de construire un nouvel indicateur du sentiment des investisseurs en analysant le contenu des messages publiés sur le réseau social Stock-Twits. En examinant les caractéristiques propres à chaque utilisateur (niveau d’expérience, approche d’investissement, période de détention), cet essai fournit des preuves empiriques montrant que le comportement des investisseurs naïfs, sujets à des périodes d’excès d’optimisme ou de pessimisme, a un impact sur la valorisation du marché action, et ce en accord avec les théories de la finance comportementale. Le deuxième essai propose une méthodologie permettant de mesurer l’attention des investisseurs aux informations en temps réel, en combinant les données des médias traditionnels avec le contenu des messages envoyés par une liste d’experts sur la plateforme Twitter. Cet essai démontre que lorsqu’une information attire l’attention des investisseurs, les mouvements de marchés sont caractérisés par une forte hausse des volumes échangés, une hausse de la volatilité et des sauts de prix. Cet essai démontre également qu’il n’y a pas de fuite d’information significative lorsque les sources d’informations sont combinées pour corriger un potentiel problème d’horodatage. Le troisième essai étudie le risque de manipulation informationnelle en examinant un nouveau jeu de données de messages publiés sur Twitter à propos des entreprises de petite capitalisation. Cet essai propose une nouvelle méthodologie permettant d’identifier les comportements anormaux de manière automatisée en analysant les interactions entre les utilisateurs. Étant donné le grand nombre de recommandations suspicieuses d’achat envoyées par certains groupes d’utilisateurs, l’analyse empirique et les conclusions de cet essai soulignent la nécessité d’un plus grand contrôle par les régulateurs de l’information publiée sur les réseaux sociaux ainsi que l’utilité d’une meilleure éducation des investisseurs individuels
The massive increase in the availability of data generated everyday by individuals on the Internet has made it possible to address the predictability of financial markets from a different perspective. Without making the claim of offering a definitive answer to a debate that has persisted for forty years between partisans of the efficient market hypothesis and behavioral finance academics, this dissertation aims to improve our understanding of the price formation process in financial markets through the use of Big Data analytics. More precisely, it analyzes: (1) how to measure intraday investor sentiment and determine the relation between investor sentiment and aggregate market returns, (2) how to measure investor attention to news in real time, and identify the relation between investor attention and the price dynamics of large capitalization stocks, and (3) how to detect suspicious behaviors that could undermine the in-formational role of financial markets, and determine the relation between the level of posting activity on social media and small-capitalization stock returns. The first essay proposes a methodology to construct a novel indicator of investor sentiment by analyzing an extensive dataset of user-generated content published on the social media platform Stock-Twits. Examining users’ self-reported trading characteristics, the essay provides empirical evidence of sentiment-driven noise trading at the intraday level, consistent with behavioral finance theories. The second essay proposes a methodology to measure investor attention to news in real-time by combining data from traditional newswires with the content published by experts on the social media platform Twitter. The essay demonstrates that news that garners high attention leads to large and persistent change in trading activity, volatility, and price jumps. It also demonstrates that the pre-announcement effect is reduced when corrected newswire timestamps are considered. The third essay provides new insights into the empirical literature on small capitalization stocks market manipulation by examining a novel dataset of messages published on the social media plat-form Twitter. The essay proposes a novel methodology to identify suspicious behaviors by analyzing interactions between users and provide empirical evidence of suspicious stock recommendations on social media that could be related to market manipulation. The conclusion of the essay should rein-force regulators’ efforts to better control social media and highlights the need for a better education of individual investors
APA, Harvard, Vancouver, ISO und andere Zitierweisen
39

Lombardo-Fiault, Bernard. „Collaboration numérique et nouvelles formes de visibilité professionnelle : proposition d’une méthodologie et d’un dispositif réflexif d’adoption des pratiques collaboratives“. Thesis, Paris 8, 2017. http://www.theses.fr/2017PA080097/document.

Der volle Inhalt der Quelle
Annotation:
10 ans après l’émergence des plates formes socio-collaboratives numériques, leur usage peine à se déployer dans les environnements professionnels, malgré les gains d’efficacité qu’elles permettent, malgré la proximité des outils avec les applications locales traditionnelles, malgré les efforts d’investissement, notamment dans des prestations qui ne parviennent pas à pérenniser les usages. Ce travail démontre qu'une nouvelle forme de visibilité induite par le partage, qui fonde la collaboration numérique, peut être un frein ou un levier à l'adoption, et qu’il convient de l’objectiver dans la démarche ; il approfondit la connaissance du paradigme collaboratif, en propose une typologie des usages fondée sur leur valeur intrinsèque et sociale, une méthodologie d'adoption orientée vers la transformation locale des pratiques professionnelles quotidiennes (Get Collaboration Done!™), ainsi qu'un indicateur de la « valeur » du comportement collaboratif, qui prend la forme d'un indice déterminé selon des modalités algorithmiques (Collaboration-Index™)
10 years after digital socio-collaborative platforms have released, it appears their use is still not generalized, not taken for granted ; the integration in professional environments seems difficult, despite the promise of efficiencies, despite the proximity of tools with traditional local office applications, despite the efforts particularly in consulting services which fail to perpetuate uses. This work demonstrates that a new form of visibility induced by sharing, which is the foundation of digital collaboration, can be a brake or a leverage for adoption, and that it should be taken into account in the change process; It also contributes to the knowledge of the collaborative paradigm by proposing a typology of uses based on their intrinsic and social value, an adoption methodology geared towards the local transformation of daily work practices (Get Collaboration Done!™), And an indicator of the “Value” of the collaborative behavior, which is figurated (and calculated) by an index determined according to algorithmic modalities (Collaboration-Index™)
APA, Harvard, Vancouver, ISO und andere Zitierweisen
Wir bieten Rabatte auf alle Premium-Pläne für Autoren, deren Werke in thematische Literatursammlungen aufgenommen wurden. Kontaktieren Sie uns, um einen einzigartigen Promo-Code zu erhalten!

Zur Bibliographie