Rozprawy doktorskie: „Big Data et algorithmes”

1

Ho, Zhen Wai Olivier. "Contributions aux algorithmes stochastiques pour le Big Data et à la théorie des valeurs extrèmes multivariés". Thesis, Bourgogne Franche-Comté, 2018. http://www.theses.fr/2018UBFCD025/document.

Pełny tekst źródła

Streszczenie:

La thèse comporte deux parties distinctes. La première partie concerne des modèles pour les extrêmes multivariés.On donne une construction de vecteurs aléatoires multivariés à variations régulières. La construction se base sur une extension multivariée d'un lemme de Breiman établissant la propriété de variation régulière d'un produit $RZ$ de variable aléatoire avec $R$ positive à variation régulière et $Z$ positive suffisamment intégrable. En prenant $mathbf{Z}$ multivarié et suffisamment intégrable, on montre que $Rmathbf{Z}$ est un vecteur aléatoire à variations régulières et on caractérise sa mesure limite. On montre ensuite que pour $mathbf{Z}$ de loi bien choisie, on retrouve des modèles stables classiques comme le modèle t-extremal, Hüsler-Reiss, etc. Puis, on étend notre construction pour considérer la notion de variation régulière multivariée non standard. On montre ensuite que le modèle de Pareto (qu'on appelle Hüsler-Reiss Pareto) associé au modèle max-stable Hüsler-Reiss forme une famille exponentielle complète. On donne quelques propriétés du modèle Hüsler-Reiss Pareto puis on propose un algorithme de simulation exacte. On étudie l'inférence par le maximum de vraisemblance. Finalement, on considère une extension du modèle Hüsler-Reiss Pareto utilisant la notion de variation régulière non standard. On étudie l'inférence par le maximum de vraisemblance du modèle généralisé et on propose une méthode d'estimation des paramètres. On donne une étude numérique sur l'estimateur du maximum de vraisemblance pour le modèle Hüsler-Reiss Pareto. Dans la second partie qui concerne l'apprentissage statistique, on commence par donner une borne sur la valeur singulière minimale d'une matrice perturbée par l'ajout d'une colonne. On propose alors un algorithme de sélection de colonne afin d'extraire les caractéristiques de la matrice. On illustre notre algorithme sur des données réelles de séries temporelles où chaque série est pris comme étant une colonne de la matrice. Deuxièmement, on montre que si une matrice $X$ à une propriété d'incohérence alors $X$ possède aussi une version affaiblie de la propriété NSP (null space property). Puis, on s'intéresse au problème de sélection de matrice incohérente. A partir d'une matrice $Xin mathbb{R}^{n imes p}$ et $mu>0$, on cherche la plus grande sous-matrice de $X$ avec une cohérence inférieure à $mu$. Ce problème est formulé comme un programme linéaire avec contrainte quadratique sur ${0,1}^p$. Comme ce problème est NP-dur, on considère une relaxation sur la sphère et on obtient une borne sur l'erreur lorsqu'on considère le problème relaxé. Enfin, on analyse l'algorithme de gradient stochastique projeté pour l'analyse en composante principale online. On montre qu'en espérance, l'algorithme converge vers un vecteur propre maximum et on propose un algorithme pour sélectionner le pas de l'algorithme. On illustre ensuite cet algorithme par une expérience de simulation
This thesis in divided in two parts. The first part studies models for multivariate extremes. We give a method to construct multivariate regularly varying random vectors. The method is based on a multivariate extension of a Breiman Lemma that states that a product $RZ$ of a random non negative regularly varying variable $R$ and a non negative $Z$ sufficiently integrable is also regularly varying. Replacing $Z$ with a random vector $mathbf{Z}$, we show that the product $Rmathbf{Z}$ is regularly varying and we give a characterisation of its limit measure. Then, we show that taking specific distributions for $mathbf{Z}$, we obtain classical max-stable models. We extend our result to non-standard regular variations. Next, we show that the Pareto model associated with the Hüsler-Reiss max-stable model forms a full exponential family. We show some properties of this model and we give an algorithm for exact simulation. We study the properties of the maximum likelihood estimator. Then, we extend our model to non-standard regular variations. To finish the first part, we propose a numerical study of the Hüsler-Reiss Pareto model.In the second part, we start by giving a lower bound of the smallest singular value of a matrix perturbed by appending a column. Then, we give a greedy algorithm for feature selection and we illustrate this algorithm on a time series dataset. Secondly, we show that an incoherent matrix satisfies a weakened version of the NSP property. Thirdly, we study the problem of column selection of $Xinmathbb{R}^{n imes p}$ given a coherence threshold $mu$. This means we want the largest submatrix satisfying some coherence property. We formulate the problem as a linear program with quadratic constraint on ${0,1}^p$. Then, we consider a relaxation on the sphere and we bound the relaxation error. Finally, we study the projected stochastic gradient descent for online PCA. We show that in expectation, the algorithm converges to a leading eigenvector and we suggest an algorithm for step-size selection. We illustrate this algorithm with a numerical experiment

Style APA, Harvard, Vancouver, ISO itp.

2

Bach, Tran. "Algorithmes avancés de DCA pour certaines classes de problèmes en apprentissage automatique du Big Data". Electronic Thesis or Diss., Université de Lorraine, 2019. http://www.theses.fr/2019LORR0255.

Pełny tekst źródła

Streszczenie:

De nos jours, le Big Data est devenu essentiel et omniprésent dans tous les domaines. Par conséquence, il est nécessaire de développer des techniques innovantes et efficaces pour traiter la croissance rapide du volume des masses de données. Nous considérons les problèmes suivants dans le contexte de Big Data : la sélection de groupes de variables pour la régression logistique multi-classes, la réduction de dimension par t-SNE (« t-distributed Stochastic Neighbor Embedding « en anglais) et l'apprentissage en profondeur pour la classification non-supervisée (« Deep Clustering « en anglais). Nous développons des algorithmes DC (Difference of Convex functions) avancés pour ces problèmes, qui sont basés sur la programmation DC et DCA (DC Algorithm) -- des outils puissants pour les problèmes d'optimisation non-convexes non-différentiables. Dans la première partie, nous étudions le problème de la sélection de groupes de variables pour la régression logistique multi-classes. Nous résolvons ce problème en utilisant des DCAs avancés – Stochastic DCA et DCA-Like. Plus précisément, Stochastic DCA se spécialise dans le problème de la minimisation de la grande somme des fonctions DC, et ne nécessite qu'un sous-ensemble de fonctions DC à chaque itération. DCA-Like relaxe la condition de convexité de la deuxième composante DC en assurant la convergence. Accelerated DCA-Like intègre la technique d'accélération de Nesterov dans DCA-Like pour améliorer sa performance. Les expériences numériques sur plusieurs jeux de données benchmark de grande taille montrent l'efficacité de tous les algorithmes proposés en termes de temps d'exécution et de qualité de la solution. La deuxième partie concerne t-SNE, une technique efficace de réduction de dimension non linéaire. t-SNE est modélisé sous forme d'un problème d'optimisation non-convexe. Motivés par le caractère novateur de DCA-Like et Accelerated DCA-Like, nous développons ces deux algorithmes pour résoudre le problème t-SNE. La supériorité de nos algorithmes, appliqués à la visualisation de données, par rapport aux méthodes existantes est illustrée via des expériences numériques réalisées sur les jeux de données de très grande taille. La troisième partie est consacrée à la classification non-supervisée par l'apprentissage en profondeur. Dans la première application, nous proposons deux algorithmes basés sur DCA pour combiner t-SNE avec MSSC (Minimum Sum-of-Squares Clustering) par ces deux approches : « tandem analysis » et joint-clustering. La deuxième application considère le clustering en utilisant l'auto-encodeur. Nous avons proposé une extension d'une classe d'algorithmes de joint-clustering pour résoudre le problème de mise à l'échelle de données (« scaling problem » en anglais), et appliqué pour un cas spécifique de joint-clustering avec MSSC. Les résultats numériques sur plusieurs jeux de données benchmark montre l'efficacité de notre algorithme comparé aux méthodes existantes
Big Data has become gradually essential and ubiquitous in all aspects nowadays. Therefore, there is an urge to develop innovative and efficient techniques to deal with the rapid growth in the volume of data. This dissertation considers the following problems in Big Data: group variable selection in multi-class logistic regression, dimension reduction by t-SNE (t-distributed Stochastic Neighbor Embedding), and deep clustering. We develop advanced DCAs (Difference of Convex functions Algorithms) for these problems, which are based on DC Programming and DCA – the powerful tools for non-smooth non-convex optimization problems. Firstly, we consider the problem of group variable selection in multi-class logistic regression. We tackle this problem by using recently advanced DCAs -- Stochastic DCA and DCA-Like. Specifically, Stochastic DCA specializes in the large sum of DC functions minimization problem, which only requires a subset of DC functions at each iteration. DCA-Like relaxes the convexity condition of the second DC component while guaranteeing the convergence. Accelerated DCA-Like incorporates the Nesterov's acceleration technique into DCA-Like to improve its performance. The numerical experiments in benchmark high-dimensional datasets show the effectiveness of proposed algorithms in terms of running time and solution quality. The second part studies the t-SNE problem, an effective non-linear dimensional reduction technique. Motivated by the novelty of DCA-Like and Accelerated DCA-Like, we develop two algorithms for the t-SNE problem. The superiority of proposed algorithms in comparison with existing methods is illustrated through numerical experiments for visualization application. Finally, the third part considers the problem of deep clustering. In the first application, we propose two algorithms based on DCA to combine t-SNE with MSSC (Minimum Sum-of-Squares Clustering) by following two approaches: “tandem analysis” and joint-clustering. The second application considers clustering with auto-encoder (a well-known type of neural network). We propose an extension to a class of joint-clustering algorithms to overcome the scaling problem and applied for a specific case of joint-clustering with MSSC. Numerical experiments on several real-world datasets show the effectiveness of our methods in rapidity and clustering quality, compared to the state-of-the-art methods

Style APA, Harvard, Vancouver, ISO itp.

3

Chuchuk, Olga. "Optimisation de l'accès aux données au CERN et dans la Grille de calcul mondiale pour le LHC (WLCG)". Electronic Thesis or Diss., Université Côte d'Azur, 2024. http://www.theses.fr/2024COAZ4005.

Pełny tekst źródła

Streszczenie:

La Grille de calcul mondiale pour le LHC (WLCG) offre une infrastructure informatique distribuée considérable dédiée à la communauté scientifique impliquée dans le Grand Collisionneur de Hadrons (LHC) du CERN. Avec un stockage total d'environ un exaoctet, le WLCG répond aux besoins de traitement et de stockage des données de milliers de scientifiques internationaux. À mesure que la phase du High-Luminosity LHC (HL-LHC) approche, le volume de données à analyser augmentera considérablement, dépassant les gains attendus grâce à l'avancement de la technologie de stockage. Par conséquent, de nouvelles approches pour un accès et une gestion efficaces des données, telles que les caches, deviennent essentielles. Cette thèse se plonge dans une exploration exhaustive de l'accès au stockage au sein du WLCG, dans le but d'améliorer le débit scientifique global tout en limitant les coûts. Au cœur de cette recherche se trouve l'analyse des journaux d'accès aux fichiers réels provenant du système de surveillance du WLCG, mettant en évidence les véritables schémas d'utilisation.Dans un contexte scientifique, la mise en cache a des implications profondes. Contrairement à des applications plus commerciales telles que la diffusion de vidéos, les caches de données scientifiques traitent des tailles de fichiers variables, allant de quelques octets à plusieurs téraoctets. De plus, les associations logiques inhérentes entre les fichiers influencent considérablement les schémas d'accès des utilisateurs. La recherche traditionnelle sur la mise en cache s'est principalement concentrée sur des tailles de fichiers uniformes et des modèles de référence indépendants. Au contraire, les charges de travail scientifiques rencontrent des variations de taille de fichier, et les interconnexions logiques entre les fichiers influencent de manière significative les schémas d'accès des utilisateurs.Mes investigations montrent comment l'organisation hiérarchique des données du LHC, en particulier leur compartimentation en "datasets", influence les schémas de demande. Reconnaissant cette opportunité, j'introduis des algorithmes de mise en cache innovants qui mettent l'accent sur la connaissance spécifique des datasets et je compare leur efficacité avec les stratégies traditionnelles axées sur les fichiers. De plus, mes découvertes mettent en évidence le phénomène des "hits retardés" déclenché par une connectivité limitée entre les sites de calcul et de stockage, mettant en lumière ses répercussions potentielles sur l'efficacité de la mise en cache.Reconnaissant le défi de longue date que représente la prédiction de la Popularité des Données dans la communauté de la Physique des Hautes Énergies (PHE), en particulier avec les énigmes de stockage à l'approche de l'ère du HL-LHC, ma recherche intègre des outils de Machine Learning (ML). Plus précisément, j'utilise l'algorithme Random Forest, connu pour sa pertinence dans le traitement des Big Data. En utilisant le ML pour prédire les futurs schémas de réutilisation des fichiers, je présente une méthode en deux étapes pour informer les politiques d'éviction de cache. Cette stratégie combine la puissance de l'analyse prédictive et des algorithmes établis d'éviction de cache, créant ainsi un système de mise en cache plus résilient pour le WLCG.En conclusion, cette recherche souligne l'importance de services de stockage robustes, suggérant une orientation vers des caches sans état pour les petits sites afin d'alléger les exigences complexes de gestion de stockage et d'ouvrir la voie à un niveau supplémentaire dans la hiérarchie de stockage. À travers cette thèse, je vise à naviguer à travers les défis et les complexités du stockage et de la récupération de données, élaborant des méthodes plus efficaces qui résonnent avec les besoins évolutifs du WLCG et de sa communauté mondiale
The Worldwide LHC Computing Grid (WLCG) offers an extensive distributed computing infrastructure dedicated to the scientific community involved with CERN's Large Hadron Collider (LHC). With storage that totals roughly an exabyte, the WLCG addresses the data processing and storage requirements of thousands of international scientists. As the High-Luminosity LHC phase approaches, the volume of data to be analysed will increase steeply, outpacing the expected gain through the advancement of storage technology. Therefore, new approaches to effective data access and management, such as caches, become essential. This thesis delves into a comprehensive exploration of storage access within the WLCG, aiming to enhance the aggregate science throughput while limiting the cost. Central to this research is the analysis of real file access logs sourced from the WLCG monitoring system, highlighting genuine usage patterns.In a scientific setting, caching has profound implications. Unlike more commercial applications such as video streaming, scientific data caches deal with varying file sizes—from a mere few bytes to multiple terabytes. Moreover, the inherent logical associations between files considerably influence user access patterns. Traditional caching research has predominantly revolved around uniform file sizes and independent reference models. Contrarily, scientific workloads encounter variances in file sizes, and logical file interconnections significantly influence user access patterns.My investigations show how LHC's hierarchical data organization, particularly its compartmentalization into datasets, impacts request patterns. Recognizing the opportunity, I introduce innovative caching policies that emphasize dataset-specific knowledge, and compare their effectiveness with traditional file-centric strategies. Furthermore, my findings underscore the "delayed hits" phenomenon triggered by limited connectivity between computing and storage locales, shedding light on its potential repercussions for caching efficiency.Acknowledging the long-standing challenge of predicting Data Popularity in the High Energy Physics (HEP) community, especially with the upcoming HL-LHC era's storage conundrums, my research integrates Machine Learning (ML) tools. Specifically, I employ the Random Forest algorithm, known for its suitability with Big Data. By harnessing ML to predict future file reuse patterns, I present a dual-stage method to inform cache eviction policies. This strategy combines the power of predictive analytics and established cache eviction algorithms, thereby devising a more resilient caching system for the WLCG. In conclusion, this research underscores the significance of robust storage services, suggesting a direction towards stateless caches for smaller sites to alleviate complex storage management requirements and open the path to an additional level in the storage hierarchy. Through this thesis, I aim to navigate the challenges and complexities of data storage and retrieval, crafting more efficient methods that resonate with the evolving needs of the WLCG and its global community

Style APA, Harvard, Vancouver, ISO itp.

4

Défossez, Gautier. "Le système d'information multi-sources du Registre général des cancers de Poitou-Charentes. Conception, développement et applications à l'ère des données massives en santé". Thesis, Poitiers, 2021. http://theses.univ-poitiers.fr/64594/2021-Defossez-Gautier-These.

Pełny tekst źródła

Streszczenie:

Les registres du cancer sont au plan international l’outil de référence pour produire une vision exhaustive (non biaisée) du poids, de la dynamique et de la gravité du cancer dans la population générale. Leur travail de classification et de codage des diagnostics selon des normes internationales confère aux données finales une qualité spécifique et une comparabilité dans le temps et dans l’espace qui les rendent incontournables pour décrire l’évolution et la prise en charge du cancer dans un environnement non contrôlé. Leur travail repose sur un processus d’enquête rigoureux dont la complexité est largement dépendante des capacités à accéder et à rassembler efficacement toutes les données utiles concernant un même individu. Créé en 2007, le Registre Général des Cancers de Poitou-Charentes (RGCPC) est un registre de génération récente, débuté à une période propice à la mise en œuvre d’une réflexion sur l’optimisation du processus d’enregistrement. Porté par l’informatisation des données médicales et l’interopérabilité croissante des systèmes d’information, le RGCPC a développé et expérimenté sur 10 ans un système d’information multi-sources associant des méthodes innovantes de traitement et de représentation de l’information fondées sur la réutilisation de données standardisées produites pour d’autres finalités.Dans une première partie, ce travail présente les principes fondateurs et l’implémentation d’un système capable de rassembler des volumes élevés de données, hautement qualifiantes et structurées, et rendues interopérables sur le plan sémantique pour faire l’objet d’approches algorithmiques. Les données sont collectées pluri annuellement auprès de 110 partenaires représentant sept sources de données (cliniques, biologiques et médico-administratives). Deux algorithmes assistent l’opérateur du registre en dématérialisant une grande partie des tâches préalables à l’enregistrement des tumeurs. Un premier algorithme crée les tumeurs et leurs caractéristiques (publication), puis un 2ème algorithme modélise le parcours de soin de chaque individu selon une séquence ordonnée d’évènements horodatés consultable au sein d’une interface sécurisée (publication). Des approches de machine learning sont testées pour contourner l’éventuelle absence de codification des prélèvements anatomopathologiques (publication).La deuxième partie s’intéresse au large champ de recherche et d’évaluation rendu possible par la disponibilité de ce système d’information intégré. Des appariements avec d’autres données de santé ont été testés, dans le cadre d’autorisations réglementaires, pour enrichir la contextualisation et la connaissance des parcours de soins, et reconnaître le rôle stratégique des registres du cancer pour l’évaluation en « vie réelle » des pratiques de soins et des services de santé (preuve de concept) : dépistage, diagnostic moléculaire, traitement du cancer, pharmaco épidémiologie (quatre publications principales). L’appariement des données du RGCPC à celles du registre REIN (insuffisance rénale chronique terminale) a constitué un cas d’usage veillant à expérimenter un prototype de plateforme dédiée au partage collaboratif des données massives en santé (publication).La dernière partie de ce travail propose une discussion ouverte sur la pertinence des solutions proposées face aux exigences de qualité, de coût et de transférabilité, puis dresse les perspectives et retombées attendues pour la surveillance, l’évaluation et la recherche à l’ère des données massives en santé
Population-based cancer registries (PBCRs) are the best international option tool to provide a comprehensive (unbiased) picture of the weight, incidence and severity of cancer in the general population. Their work in classifying and coding diagnoses according to international rules gives to the final data a specific quality and comparability in time and space, thus building a decisive knowledge database for describing the evolution of cancers and their management in an uncontrolled environment. Cancer registration is based on a thorough investigative process, for which the complexity is largely related to the ability to access all the relevant data concerning the same individual and to gather them efficiently. Created in 2007, the General Cancer Registry of Poitou-Charentes (RGCPC) is a recent generation of cancer registry, started at a conducive time to devote a reflection about how to optimize the registration process. Driven by the computerization of medical data and the increasing interoperability of information systems, the RGCPC has experimented over 10 years a multi-source information system combining innovative methods of information processing and representation, based on the reuse of standardized data usually produced for other purposes.In a first section, this work presents the founding principles and the implementation of a system capable of gathering large amounts of data, highly qualified and structured, with semantic alignment to subscribe to algorithmic approaches. Data are collected on multiannual basis from 110 partners representing seven data sources (clinical, biological and medical administrative data). Two algorithms assist the cancer registrar by dematerializing the manual tasks usually carried out prior to tumor registration. A first algorithm generate automatically the tumors and its various components (publication), and a second algorithm represent the care pathway of each individual as an ordered sequence of time-stamped events that can be access within a secure interface (publication). Supervised machine learning techniques are experimented to get around the possible lack of codification of pathology reports (publication).The second section focuses on the wide field of research and evaluation achieved through the availability of this integrated information system. Data linkage with other datasets were tested, within the framework of regulatory authorizations, to enhance the contextualization and knowledge of care pathways, and thus to support the strategic role of PBCRs for real-life evaluation of care practices and health services research (proof of concept): screening, molecular diagnosis, cancer treatment, pharmacoepidemiology (four main publications). Data from the RGCPC were linked with those from the REIN registry (chronic end-stage renal failure) as a use case for experimenting a prototype platform dedicated to the collaborative sharing of massive health data (publication).The last section of this work proposes an open discussion on the relevance of the proposed solutions to the requirements of quality, cost and transferability, and then sets out the prospects and expected benefits in the field of surveillance, evaluation and research in the era of big data

Style APA, Harvard, Vancouver, ISO itp.

5

Brahem, Mariem. "Optimisation de requêtes spatiales et serveur de données distribué - Application à la gestion de masses de données en astronomie". Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLV009/document.

Pełny tekst źródła

Streszczenie:

Les masses de données scientifiques générées par les moyens d'observation modernes, dont l’observation spatiale, soulèvent des problèmes de performances récurrents, et ce malgré les avancées des systèmes distribués de gestion de données. Ceci est souvent lié à la complexité des systèmes et des paramètres qui impactent les performances et la difficulté d’adapter les méthodes d’accès au flot de données et de traitement.Cette thèse propose de nouvelles techniques d'optimisations logiques et physiques pour optimiser les plans d'exécution des requêtes astronomiques en utilisant des règles d'optimisation. Ces méthodes sont intégrées dans ASTROIDE, un système distribué pour le traitement de données astronomiques à grande échelle.ASTROIDE allie la scalabilité et l’efficacité en combinant les avantages du traitement distribué en utilisant Spark avec la pertinence d’un optimiseur de requêtes astronomiques.Il permet l'accès aux données à l'aide du langage de requêtes ADQL, couramment utilisé.Il implémente des algorithmes de requêtes astronomiques (cone search, kNN search, cross-match, et kNN join) en exploitant l'organisation physique des données proposée.En effet, ASTROIDE propose une méthode de partitionnement des données permettant un traitement efficace de ces requêtes grâce à l'équilibrage de la répartition des données et à l'élimination des partitions non pertinentes. Ce partitionnement utilise une technique d’indexation adaptée aux données astronomiques, afin de réduire le temps de traitement des requêtes
The big scientific data generated by modern observation telescopes, raises recurring problems of performances, in spite of the advances in distributed data management systems. The main reasons are the complexity of the systems and the difficulty to adapt the access methods to the data. This thesis proposes new physical and logical optimizations to optimize execution plans of astronomical queries using transformation rules. These methods are integrated in ASTROIDE, a distributed system for large-scale astronomical data processing.ASTROIDE achieves scalability and efficiency by combining the benefits of distributed processing using Spark with the relevance of an astronomical query optimizer.It supports the data access using the query language ADQL that is commonly used.It implements astronomical query algorithms (cone search, kNN search, cross-match, and kNN join) tailored to the proposed physical data organization.Indeed, ASTROIDE offers a data partitioning technique that allows efficient processing of these queries by ensuring load balancing and eliminating irrelevant partitions. This partitioning uses an indexing technique adapted to astronomical data, in order to reduce query processing time

Style APA, Harvard, Vancouver, ISO itp.

6

Jlassi, Aymen. "Optimisation de la gestion des ressources sur une plate-forme informatique du type Big Data basée sur le logiciel Hadoop". Thesis, Tours, 2017. http://www.theses.fr/2017TOUR4042.

Pełny tekst źródła

Streszczenie:

L'entreprise "Cyres-group" cherche à améliorer le temps de réponse de ses grappes Hadoop et la manière dont les ressources sont exploitées dans son centre de données. Les idées sous-jacentes à la réduction du temps de réponse sont de faire en sorte que (i) les travaux soumis se terminent au plus tôt et que (ii) le temps d'attente de chaque utilisateur du système soit réduit. Nous identifions deux axes d'amélioration : 1. nous décidons d'intervenir pour optimiser l'ordonnancement des travaux sur une plateforme Hadoop. Nous considérons le problème d'ordonnancement d'un ensemble de travaux du type MapReduce sur une plateforme homogène. 2. Nous décidons d'évaluer et proposer des outils capables (i) de fournir plus de flexibilité lors de la gestion des ressources dans le centre de données et (ii) d'assurer l'intégration d'Hadoop dans des infrastructures Cloud avec le minimum de perte de performance. Dans une première étude, nous effectuons une revue de la littérature. À la fin de cette étape, nous remarquons que les modèles mathématiques proposés dans la littérature pour le problème d'ordonnancement ne modélisent pas toutes les caractéristiques d'une plateforme Hadoop. Nous proposons à ce niveau un modèle plus réaliste qui prend en compte les aspects les plus importants tels que la gestion des ressources, la précédence entre les travaux, la gestion du transfert des données et la gestion du réseau. Nous considérons une première modélisation simpliste et nous considérons la minimisation de la date de fin du dernier travail (Cmax) comme critère à optimiser. Nous calculons une borne inférieure à l'aide de la résolution du modèle mathématique avec le solveur CPLEX. Nous proposons une heuristique (LocFirst) et nous l'évaluons. Ensuite, nous faisons évoluer notre modèle et nous considérons, comme fonction objective, la somme des deux critères identifiés depuis la première étape : la minimisation de la somme pondérée des dates de fin des travaux ( ∑ wjCj) et la minimisation du (Cmax). Nous cherchons à minimiser la moyenne pondérée des deux critères, nous calculons une borne inférieure et nous proposons deux heuristiques de résolution
"Cyres-Group" is working to improve the response time of his clusters Hadoop and optimize how the resources are exploited in its data center. That is, the goals are to finish work as soon as possible and reduce the latency of each user of the system. Firstly, we decide to work on the scheduling problem in the Hadoop system. We consider the problem as the problem of scheduling a set of jobs on a homogeneous platform. Secondly, we decide to propose tools, which are able to provide more flexibility during the resources management in the data center and ensure the integration of Hadoop in Cloud infrastructures without unacceptable loss of performance. Next, the second level focuses on the review of literature. We conclude that, existing works use simple mathematical models that do not reflect the real problem. They ignore the main characteristics of Hadoop software. Hence, we propose a new model ; we take into account the most important aspects like resources management and the relations of precedence among tasks and the data management and transfer. Thus, we model the problem. We begin with a simplistic model and we consider the minimisation of the Cmax as the objective function. We solve the model with mathematical solver CPLEX and we compute a lower bound. We propose the heuristic "LocFirst" that aims to minimize the Cmax. In the third level, we consider a more realistic modelling of the scheduling problem. We aim to minimize the weighted sum of the following objectives : the weighted flow time ( ∑ wjCj) and the makespan (Cmax). We compute a lower bound and we propose two heuristics to resolve the problem

Style APA, Harvard, Vancouver, ISO itp.

7

Saffarian, Azadeh. "Algorithmes de prédiction et de recherche de multi-structures d'ARN". Phd thesis, Université des Sciences et Technologie de Lille - Lille I, 2011. http://tel.archives-ouvertes.fr/tel-00832700.

Pełny tekst źródła

Streszczenie:

L'ARN (acide ribonucléique) est une molécule ubiquitaire qui joue plusieurs rôles fondamentaux au sein de la cellule: synthèse des protéines avec les ARN messagers, activité catalytique ou implicationdans la régulation, les ARN non-codants. Les nouvelles technologies de séquençage à haut-débit permettent de produire des milliards de séquences à moindre coût, posant de manière cruciale la question de l'analyse de ces données. L'objectif de cette thèse est de définir de nouvelles méthodes computationnelles pour aider à l'analyse de ces séquences dans le cas des ARN non-codants. Dans cette perspective, la "structure secondaire" d'un ARN, formée par l'ensemble des appariements entrebases, délivre des informations utiles pour étudier la fonction de l'ARN. Notre travail se concentre plus particulièrement sur l'ensemble des structures potentielles que peut adopter une séquence d'ARN donnée, ensemble que nous appelons "multi-structure". Nous apportons deux contributions: un algorithme pour générer systématiquement toutes les structures localement optimales composantune multi-structure, et un algorithme basé sur la recherche d'unemulti-structure pour identifier un ARN non-codant dans une séquence génomique. Ces résultats ont été mis en oeuvre dans deux logiciels, Alterna et Regliss, appliqués avec succès à des ensembles de test.

Style APA, Harvard, Vancouver, ISO itp.

8

Phan, Duy-Hung. "Algorithmes d'aggrégation pour applications Big Data". Electronic Thesis or Diss., Paris, ENST, 2016. http://www.theses.fr/2016ENST0043.

Pełny tekst źródła

Streszczenie:

Les bases de données traditionnelles sont confrontées à des problèmes de scalabilité et d'efficacité en raison d’importants volumes de données. Ainsi, les systèmes de gestion de base de données modernes, tels que Apache Hadoop et Spark, peuvent désormais être distribués sur des clusters de milliers de machines: ces systèmes sont donc devenus les principaux outils pour le traitement des données à grande échelle. De nombreuses optimisations ont été développées pour les bases de données conventionnelles, cependant celles-ci ne peuvent être appliquées aux nouvelles architectures et modèles de programmation. Dans ce contexte, cette thèse vise à optimiser une des opérations les plus prédominantes dans le traitement des données : l'agrégation de données pour ces systèmes à grande échelle. Nos principales contributions sont les optimisations logiques et physiques de l'agrégation de grands volumes de données. Ces optimisations sont fortement interconnectées : le problème d'optimisation d'agrégation de données ne pourrait être entièrement résolu si l’une d’entre elles venait à manquer. Par ailleurs, nous avons intégré les optimisations dans le moteur d'optimisation multi-requêtes, ce qui est transparent pour les usagers. Le moteur, les optimisations logiques et physiques proposées dans cette thèse forment une solution complété exécutable et prête à répondre aux requêtes d'agrégation de données à grande échelle. Nos optimisations ont été évaluées de manière théorique et expérimentale. Les résultats d'analyses ont démontré que le passage à l’échelle et l’efficacité de nos algorithmes et techniques surpassent les résultats des études antérieures
Traditional databases are facing problems of scalability and efficiency dealing with a vast amount of big-data. Thus, modern data management systems that scale to thousands of nodes, like Apache Hadoop and Spark, have emerged and become the de-facto platforms to process data at massive scales. In such systems, many data processing optimizations that were well studied in the database domain have now become futile because of the novel architectures and programming models. In this context, this dissertation pledged to optimize one of the most predominant operations in data processing: data aggregation for such systems.Our main contributions were the logical and physical optimizations for large-scale data aggregation, including several algorithms and techniques. These optimizations are so intimately related that without one or the other, the data aggregation optimization problem would not be solved entirely. Moreover, we integrated these optimizations in our multi-query optimization engine, which is totally transparent to users. The engine, the logical and physical optimizations proposed in this dissertation formed a complete package that is runnable and ready to answer data aggregation queries at massive scales. We evaluated our optimizations both theoretically and experimentally. The theoretical analyses showed that our algorithms and techniques are much more scalable and efficient than prior works. The experimental results using a real cluster with synthetic and real datasets confirmed our analyses, showed a significant performance boost and revealed various angles about our works. Last but not least, our works are published as open sources for public usages and studies

Style APA, Harvard, Vancouver, ISO itp.

9

Malekian, Hajar. "La libre circulation et la protection des données à caractère personnel sur Internet". Thesis, Paris 2, 2017. http://www.theses.fr/2017PA020050.

Pełny tekst źródła

Streszczenie:

La protection des données à caractère personnel (DCP) constitue un droit fondamental autonome au sein de l’Union européenne (article 8 de la Charte des droits fondamentaux de l’Union européenne). En outre, la libre circulation de ces données et des services de la société de l’information, notamment des plateformes en ligne, est primordiale pour le développement de l’économie numérique dans le cadre du marché unique numérique européen. C’est dans ce contexte qu’un point d’équilibre entre la libre circulation et la protection des DCP fait l’objet du cadre juridique européen et français en matière de protection des DCP. Ainsi, dans cette étude, nous nous sommes intéressés en particulier aux enjeux liés à la mise en balance de ces deux intérêts. Ces enjeux suscitent une attention particulière notamment à l’ère des plateformes en ligne, du Big Data et de l’exploitation en masse des données à travers des algorithmes sophistiqués dotés de plus en plus d’autonomie et d’intelligence
Free flow of data and personal data protection on the Internet Protection of personal data is an autonomous fundamental right within the European Union (Article 8 of the Charter of Fundamental Rights of European Union). Moreover, free flow of personal data and free movement of information society services in particular online platforms is essential for the development of digital single market in European Union. The balance between free movement of data and personal data protection is subject of the European legal framework. However, the main challenge still remains to strike the right balance between effective personal data protection and free flow of this data and information society services. This balance is not an easy task especially in the age of online platforms, Big Data and processing algorithms like Machine Learning and Deep Learning

Style APA, Harvard, Vancouver, ISO itp.

10

Kopylova, Evguenia. "Algorithmes bio-informatiques pour l'analyse de données de séquençage à haut débit". Phd thesis, Université des Sciences et Technologie de Lille - Lille I, 2013. http://tel.archives-ouvertes.fr/tel-00919185.

Pełny tekst źródła

Streszczenie:

Nucleotide sequence alignment is a method used to identify regions of similarity between organisms at the genomic level. In this thesis we focus on the alignment of millions of short sequences produced by Next-Generation Sequencing (NGS) technologies against a reference database. Particularly, we direct our attention toward the analysis of metagenomic and metatranscriptomic data, that is the DNA and RNA directly extracted for an environment. Two major challenges were confronted in our developed algorithms. First, all NGS technologies today are susceptible to sequencing errors in the form of nucleotide substitutions, insertions and deletions and error rates vary between 1-15%. Second, metagenomic samples can contain thousands of unknown organisms and the only means of identifying them is to align against known closely related species. To overcome these challenges we designed a new approximate matching technique based on the universal Levenshtein automaton which quickly locates short regions of similarity (seeds) between two sequences allowing 1 error of any type. Using seeds to detect possible high scoring alignments is a widely used heuristic for rapid sequence alignment, although most existing software are optimized for performing high similarity searches and apply exact seeds. Furthermore, we describe a new indexing data structure based on the Burst trie which optimizes the search for approximate seeds. We demonstrate the efficacy of our method in two implemented software, SortMeRNA and SortMeDNA. The former can quickly filter ribosomal RNA fragments from metatranscriptomic data and the latter performs full alignment for genomic and metagenomic data.

Style APA, Harvard, Vancouver, ISO itp.

11

Bulteau, Laurent. "Ordres et désordres dans l'algorithmique du génome". Phd thesis, Université de Nantes, 2013. http://tel.archives-ouvertes.fr/tel-00906929.

Pełny tekst źródła

Streszczenie:

Dans cette thèse, nous explorons la complexité algorithmique de plusieurs problèmes issus de la génomique comparative, et nous apportons des solutions à certains de ces problèmes sous la forme d'algorithmes d'approximation ou paramétrés. Le dénominateur commun aux problèmes soulevés est la mise en commun d'informations génomiques provenant de plusieurs espèces dans le but de tirer des conclusions pertinentes pour l'étude de ces espèces. Les problèmes de tri par transpositions et de tri par inversions pré xes permettent de retrouver l'histoire évolutive des deux espèces. Les problèmes de distance exemplaire et de plus petite partition commune ont pour but de comparer deux génomes dans les cas algorithmiquement di ciles où chaque gène apparait avec plusieurs copies indistinguables dans le génome. En n, les problèmes d'extraction de bandes et de linéarisation visent à préciser ou corriger l'information génomique a n qu'elle soit plus pertinente pour des traitements ultérieurs. Les résultats principaux que nous présentons sont la NP-di culté des problèmes de tri (par transpositions et par inversions pré xes) dont la complexité est restée longtemps une question ouverte; une étude complète de la complexité du calcul des distances exemplaires; un algorithme paramétré pour le calcul de plus petite partition commune (avec un unique paramètre étant la taille de la partition); une étude à la fois large et approfondie des problèmes d'extraction de bandes et en n une nouvelle structure de données permettant de résoudre plus e cacement le problème de linéarisation.

Style APA, Harvard, Vancouver, ISO itp.

12

Demuth, Stanislas. "Computational approach for precision medicine in multiple sclerosis". Electronic Thesis or Diss., Strasbourg, 2024. http://www.theses.fr/2024STRAJ062.

Pełny tekst źródła

Streszczenie:

Cette thèse a exploré l'utilisation secondaire des données de recherche clinique en sclérose en plaques (SEP) et leur intégration avec les technologies modernes de l'information pour assister les décisions thérapeutiques des neurologues. Les données tabulaires de 31,786 patients atteints de SEP ont été intégrées dans une plateforme de médecine de précision développée par le laboratoire. Le logiciel d'aide à la décision clinique en résultant reposait sur la visualisation de données interactive. Sa capacité discriminante fut similaire à l’apprentissage automatique mais eu une meilleure explicabilité et calibration dans une population externe suivie en vie réelle. Une formation dédiée des neurologues apparu nécessaire. Les obstacles réglementaires furent adressés en générant des patients virtuels par une méthode de confidentialité par conception. Leur confidentialité et leur utilité clinique furent suffisantes pour remplacer les données de référence. Ces travaux translationnels ont démontré l’utilité clinique de plusieurs processus d'ingénierie des données, permettant de développer un nouveau paradigme de médecine de précision dans la SEP
This PhD work explored the secondary use of clinical research data in multiple sclerosis (MS) and their integration with modern information technology to support neurologists’ therapeutic decisions. Tabular data of 31,786 patients with MS were integrated into a homemade cloud-based precision medicine platform from 11 industrial RCTs and two cohorts of the French MS registry. The resulting clinical decision support system relied on interactive data visualization. It showed a similar discriminatory capacity to machine learning but better explainability and calibration in a held-out real-world population. Dedicated training of neurologists appeared required. Regulatory barriers were addressed by generating virtual patients using a privacy-by-design method. They achieved sufficient privacy and clinical utility to proxy the reference data. These translational efforts demonstrated the clinical utility of several data engineering processes to develop a new paradigm of precision medicine in MS

Style APA, Harvard, Vancouver, ISO itp.

13

Duarte, Kevin. "Aide à la décision médicale et télémédecine dans le suivi de l’insuffisance cardiaque". Thesis, Université de Lorraine, 2018. http://www.theses.fr/2018LORR0283/document.

Pełny tekst źródła

Streszczenie:

Cette thèse s’inscrit dans le cadre du projet "Prendre votre cœur en mains" visant à développer un dispositif médical d’aide à la prescription médicamenteuse pour les insuffisants cardiaques. Dans une première partie, une étude a été menée afin de mettre en évidence la valeur pronostique d’une estimation du volume plasmatique ou de ses variations pour la prédiction des événements cardiovasculaires majeurs à court terme. Deux règles de classification ont été utilisées, la régression logistique et l’analyse discriminante linéaire, chacune précédée d’une phase de sélection pas à pas des variables. Trois indices permettant de mesurer l’amélioration de la capacité de discrimination par ajout du biomarqueur d’intérêt ont été utilisés. Dans une seconde partie, afin d’identifier les patients à risque de décéder ou d’être hospitalisé pour progression de l’insuffisance cardiaque à court terme, un score d’événement a été construit par une méthode d’ensemble, en utilisant deux règles de classification, la régression logistique et l’analyse discriminante linéaire de données mixtes, des échantillons bootstrap et en sélectionnant aléatoirement les prédicteurs. Nous définissons une mesure du risque d’événement par un odds-ratio et une mesure de l’importance des variables et des groupes de variables. Nous montrons une propriété de l’analyse discriminante linéaire de données mixtes. Cette méthode peut être mise en œuvre dans le cadre de l’apprentissage en ligne, en utilisant des algorithmes de gradient stochastique pour mettre à jour en ligne les prédicteurs. Nous traitons le problème de la régression linéaire multidimensionnelle séquentielle, en particulier dans le cas d’un flux de données, en utilisant un processus d’approximation stochastique. Pour éviter le phénomène d’explosion numérique et réduire le temps de calcul pour prendre en compte un maximum de données entrantes, nous proposons d’utiliser un processus avec des données standardisées en ligne au lieu des données brutes et d’utiliser plusieurs observations à chaque étape ou toutes les observations jusqu’à l’étape courante sans avoir à les stocker. Nous définissons trois processus et en étudions la convergence presque sûre, un avec un pas variable, un processus moyennisé avec un pas constant, un processus avec un pas constant ou variable et l’utilisation de toutes les observations jusqu’à l’étape courante. Ces processus sont comparés à des processus classiques sur 11 jeux de données. Le troisième processus à pas constant est celui qui donne généralement les meilleurs résultats
This thesis is part of the "Handle your heart" project aimed at developing a drug prescription assistance device for heart failure patients. In a first part, a study was conducted to highlight the prognostic value of an estimation of plasma volume or its variations for predicting major short-term cardiovascular events. Two classification rules were used, logistic regression and linear discriminant analysis, each preceded by a stepwise variable selection. Three indices to measure the improvement in discrimination ability by adding the biomarker of interest were used. In a second part, in order to identify patients at short-term risk of dying or being hospitalized for progression of heart failure, a short-term event risk score was constructed by an ensemble method, two classification rules, logistic regression and linear discriminant analysis of mixed data, bootstrap samples, and by randomly selecting predictors. We define an event risk measure by an odds-ratio and a measure of the importance of variables and groups of variables using standardized coefficients. We show a property of linear discriminant analysis of mixed data. This methodology for constructing a risk score can be implemented as part of online learning, using stochastic gradient algorithms to update online the predictors. We address the problem of sequential multidimensional linear regression, particularly in the case of a data stream, using a stochastic approximation process. To avoid the phenomenon of numerical explosion which can be encountered and to reduce the computing time in order to take into account a maximum of arriving data, we propose to use a process with online standardized data instead of raw data and to use of several observations per step or all observations until the current step. We define three processes and study their almost sure convergence, one with a variable step-size, an averaged process with a constant step-size, a process with a constant or variable step-size and the use of all observations until the current step without storing them. These processes are compared to classical processes on 11 datasets. The third defined process with constant step-size typically yields the best results

Style APA, Harvard, Vancouver, ISO itp.

14

Madra, Anna. "Analyse et visualisation de la géométrie des matériaux composites à partir de données d’imagerie 3D". Thesis, Compiègne, 2017. http://www.theses.fr/2017COMP2387/document.

Pełny tekst źródła

Streszczenie:

Le sujet du projet de thèse réalisée en cotutelle entre Laboratoire Roberval à l'Université de Technologie de Compiègne et le Centre de Composites à Haute Performance d'École Polytechnique de Montréal porté sur une proposition de l'architecture du deep learning avec sémantique pour la création automatisée des modèles de la microstructure de matériaux composites à partir d'imagerie de la micrographie aux rayons X. La thèse consiste de trois parties principales : d'abord les méthodes du prétraitement de données microtomographiques sont relevées, avec l'accent sur la segmentation de phases à partir d'images 2D. Ensuite, les propriétés géométriques des éléments de phases sont extraites et utilisées pour classifier et identifier de nouvelles morphologies. Cela est démontré pour le cas de composites chargés par les fibres courtes naturelles. L'approche de classification à l'aide des algorithmes d'apprentissage est reprise pour étudier les défauts dans un composite, mais en ajoutant les aspects spatiaux. En plus, un descripteur de haut niveau "génome de défauts" est introduit, qui permet de comparer l'état de défauts dans les différents échantillons. La deuxième partie introduit la segmentation structurelle sur l'exemple du renfort tissé du composite. La méthode repose sur un modèle du krigeage dual, calibré par l'erreur de segmentation provenant d'algorithme d'apprentissage. Finalement, le modèle krigé est repris pour construire une formulation stochastique du renfort à travers de processus gaussien et la distribution des propriétés physiques de la microstructure est extraite et prête pour la simulation numérique de la fabrication ou du comportement mécanique
The subject of the thesis project between Laboratoire Roberval at Université de Technologie Compiègne and Center for High-Performance Composites at Ecole Polytechnique de Montréal considered the design of a deep learning architecture with semantics for automatic generation of models of composite materials microstructure based on X-ray microtomographic imagery. The thesis consists of three major parts. Firstly, the methods of microtomographic image processing are presented, with an emphasis on phase segmentation. Then, the geometric features of phase elements are extracted and used to classify and identify new morphologies. The method is presented for composites filled with short natural fibers. The classification approach is also demonstrated for the study of defects in composites, but with spatial features added to the process. A high-level descriptor "defect genome" is proposed, that permits comparison of the state o defects between specimens. The second part of the thesis introduces structural segmentation on the example of woven reinforcement in a composite. The method relies on dual kriging, calibrated by the segmentation error from learning algorithms. In the final part, a stochastic formulation of the kriging model is presented based on Gaussian Processes, and distribution of physical properties of a composite microstructure is retrieved, ready for numerical simulation of the manufacturing process or of mechanical behavior

Style APA, Harvard, Vancouver, ISO itp.

15

Duarte, Kevin. "Aide à la décision médicale et télémédecine dans le suivi de l’insuffisance cardiaque". Electronic Thesis or Diss., Université de Lorraine, 2018. http://www.theses.fr/2018LORR0283.

Pełny tekst źródła

Streszczenie:

Cette thèse s’inscrit dans le cadre du projet "Prendre votre cœur en mains" visant à développer un dispositif médical d’aide à la prescription médicamenteuse pour les insuffisants cardiaques. Dans une première partie, une étude a été menée afin de mettre en évidence la valeur pronostique d’une estimation du volume plasmatique ou de ses variations pour la prédiction des événements cardiovasculaires majeurs à court terme. Deux règles de classification ont été utilisées, la régression logistique et l’analyse discriminante linéaire, chacune précédée d’une phase de sélection pas à pas des variables. Trois indices permettant de mesurer l’amélioration de la capacité de discrimination par ajout du biomarqueur d’intérêt ont été utilisés. Dans une seconde partie, afin d’identifier les patients à risque de décéder ou d’être hospitalisé pour progression de l’insuffisance cardiaque à court terme, un score d’événement a été construit par une méthode d’ensemble, en utilisant deux règles de classification, la régression logistique et l’analyse discriminante linéaire de données mixtes, des échantillons bootstrap et en sélectionnant aléatoirement les prédicteurs. Nous définissons une mesure du risque d’événement par un odds-ratio et une mesure de l’importance des variables et des groupes de variables. Nous montrons une propriété de l’analyse discriminante linéaire de données mixtes. Cette méthode peut être mise en œuvre dans le cadre de l’apprentissage en ligne, en utilisant des algorithmes de gradient stochastique pour mettre à jour en ligne les prédicteurs. Nous traitons le problème de la régression linéaire multidimensionnelle séquentielle, en particulier dans le cas d’un flux de données, en utilisant un processus d’approximation stochastique. Pour éviter le phénomène d’explosion numérique et réduire le temps de calcul pour prendre en compte un maximum de données entrantes, nous proposons d’utiliser un processus avec des données standardisées en ligne au lieu des données brutes et d’utiliser plusieurs observations à chaque étape ou toutes les observations jusqu’à l’étape courante sans avoir à les stocker. Nous définissons trois processus et en étudions la convergence presque sûre, un avec un pas variable, un processus moyennisé avec un pas constant, un processus avec un pas constant ou variable et l’utilisation de toutes les observations jusqu’à l’étape courante. Ces processus sont comparés à des processus classiques sur 11 jeux de données. Le troisième processus à pas constant est celui qui donne généralement les meilleurs résultats
This thesis is part of the "Handle your heart" project aimed at developing a drug prescription assistance device for heart failure patients. In a first part, a study was conducted to highlight the prognostic value of an estimation of plasma volume or its variations for predicting major short-term cardiovascular events. Two classification rules were used, logistic regression and linear discriminant analysis, each preceded by a stepwise variable selection. Three indices to measure the improvement in discrimination ability by adding the biomarker of interest were used. In a second part, in order to identify patients at short-term risk of dying or being hospitalized for progression of heart failure, a short-term event risk score was constructed by an ensemble method, two classification rules, logistic regression and linear discriminant analysis of mixed data, bootstrap samples, and by randomly selecting predictors. We define an event risk measure by an odds-ratio and a measure of the importance of variables and groups of variables using standardized coefficients. We show a property of linear discriminant analysis of mixed data. This methodology for constructing a risk score can be implemented as part of online learning, using stochastic gradient algorithms to update online the predictors. We address the problem of sequential multidimensional linear regression, particularly in the case of a data stream, using a stochastic approximation process. To avoid the phenomenon of numerical explosion which can be encountered and to reduce the computing time in order to take into account a maximum of arriving data, we propose to use a process with online standardized data instead of raw data and to use of several observations per step or all observations until the current step. We define three processes and study their almost sure convergence, one with a variable step-size, an averaged process with a constant step-size, a process with a constant or variable step-size and the use of all observations until the current step without storing them. These processes are compared to classical processes on 11 datasets. The third defined process with constant step-size typically yields the best results

Style APA, Harvard, Vancouver, ISO itp.

16

Bourdy, Emilien. "algorithmes de big data adaptés aux réseaux véhiculaires pour modélisation de comportement de conducteur". Thesis, Reims, 2018. http://www.theses.fr/2018REIMS001/document.

Pełny tekst źródła

Streszczenie:

Les technologies Big Data gagnent de plus en plus d’attentions de communautés de recherches variées, surtout depuis que les données deviennent si volumineuses, qu’elles posent de réels problèmes, et que leurs traitements ne sont maintenant possibles que grâce aux grandes capacités de calculs des équipements actuels. De plus, les réseaux véhiculaires, aussi appelés VANET pour Vehicular Ad-hoc Networks, se développent considérablement et ils constituent une part de plus en plus importante du marché du véhicule. La topologie de ces réseaux en constante évolution est accompagnée par des données massives venant d’un volume croissant de véhicules connectés.Dans cette thèse, nous discutons dans notre première contribution des problèmes engendrés par la croissance rapide des VANET, et nous étudions l’adaptation des technologies liées aux Big Data pour les VANET. Ainsi, pour chaque étape clé du Big Data, nous posons le problème des VANET.Notre seconde contribution est l’extraction des caractéristiques liées aux VANET afin d’obtenir des données provenant de ceux-ci. Pour ce faire, nous discutons de comment établir des scénarios de tests, et comment émuler un environnement afin, dans un premier temps, de tester une implémentation dans un environnement contrôlé, avant de pouvoir effectuer des tests dans un environnement réel, afin d’obtenir de vraies données provenant des VANET.Pour notre troisième contribution, nous proposons une approche originale de la modélisation du comportement de conducteur. Cette approche est basée sur un algorithme permettant d’extraire des représentants d’une population, appelés exemplaires, en utilisant un concept de densité locale dans un voisinage
Big Data is gaining lots of attentions from various research communities as massive data are becoming real issues and processing such data is now possible thanks to available high-computation capacity of today’s equipment. In the meanwhile, it is also the beginning of Vehicular Ad-hoc Networks (VANET) era. Connected vehicles are being manufactured and will become an important part of vehicle market. Topology in this type of network is in constant evolution accompanied by massive data coming from increasing volume of connected vehicles in the network.In this thesis, we handle this interesting topic by providing our first contribution on discussing different aspects of Big Data in VANET. Thus, for each key step of Big Data, we raise VANET issues.The second contribution is the extraction of VANET characteristics in order to collect data. To do that, we discuss how to establish tests scenarios, and to how emulate an environment for these tests. First we conduct an implementation in a controlled environment, before performing tests on real environment in order to obtain real VANET data.For the third contribution, we propose an original approach for driver's behavior modeling. This approach is based on an algorithm permitting extraction of representatives population, called samples, using a local density in a neighborhood concept

Style APA, Harvard, Vancouver, ISO itp.

17

Bassino, Frédérique. "Automates, énumération et algorithmes". Habilitation à diriger des recherches, Université de Marne la Vallée, 2005. http://tel.archives-ouvertes.fr/tel-00719172.

Pełny tekst źródła

Streszczenie:

Ces travaux s'inscrivent dans le cadre général de la théorie des automates, de la combinatoire des mots, de la combinatoire énumérative et de l'algorithmique. Ils ont en commun de traiter des automates et des langages réguliers, de problèmes d'énumération et de présenter des résultats constructifs, souvent explicitement sous forme d'algorithmes. Les domaines dont sont issus les problèmes abordés sont assez variés. Ce texte est compose de trois parties consacrées aux codes préfixes, à certaines séquences lexicographiques et à l'énumération d'automates.

Style APA, Harvard, Vancouver, ISO itp.

18

El, alaoui Imane. "Transformer les big social data en prévisions - méthodes et technologies : Application à l'analyse de sentiments". Thesis, Angers, 2018. http://www.theses.fr/2018ANGE0011/document.

Pełny tekst źródła

Streszczenie:

Extraire l'opinion publique en analysant les Big Social data a connu un essor considérable en raison de leur nature interactive, en temps réel. En effet, les données issues des réseaux sociaux sont étroitement liées à la vie personnelle que l’on peut utiliser pour accompagner les grands événements en suivant le comportement des personnes. C’est donc dans ce contexte que nous nous intéressons particulièrement aux méthodes d’analyse du Big data. La problématique qui se pose est que ces données sont tellement volumineuses et hétérogènes qu’elles en deviennent difficiles à gérer avec les outils classiques. Pour faire face aux défis du Big data, de nouveaux outils ont émergés. Cependant, il est souvent difficile de choisir la solution adéquate, car la vaste liste des outils disponibles change continuellement. Pour cela, nous avons fourni une étude comparative actualisée des différents outils utilisés pour extraire l'information stratégique du Big Data et les mapper aux différents besoins de traitement.La contribution principale de la thèse de doctorat est de proposer une approche d’analyse générique pour détecter de façon automatique des tendances d’opinion sur des sujets donnés à partir des réseaux sociaux. En effet, étant donné un très petit ensemble de hashtags annotés manuellement, l’approche proposée transfère l'information du sentiment connue des hashtags à des mots individuels. La ressource lexicale qui en résulte est un lexique de polarité à grande échelle dont l'efficacité est mesurée par rapport à différentes tâches de l’analyse de sentiment. La comparaison de notre méthode avec différents paradigmes dans la littérature confirme l'impact bénéfique de notre méthode dans la conception des systèmes d’analyse de sentiments très précis. En effet, notre modèle est capable d'atteindre une précision globale de 90,21%, dépassant largement les modèles de référence actuels sur l'analyse du sentiment des réseaux sociaux
Extracting public opinion by analyzing Big Social data has grown substantially due to its interactive nature, in real time. In fact, our actions on social media generate digital traces that are closely related to our personal lives and can be used to accompany major events by analysing peoples' behavior. It is in this context that we are particularly interested in Big Data analysis methods. The volume of these daily-generated traces increases exponentially creating massive loads of information, known as big data. Such important volume of information cannot be stored nor dealt with using the conventional tools, and so new tools have emerged to help us cope with the big data challenges. For this, the aim of the first part of this manuscript is to go through the pros and cons of these tools, compare their respective performances and highlight some of its interrelated applications such as health, marketing and politics. Also, we introduce the general context of big data, Hadoop and its different distributions. We provide a comprehensive overview of big data tools and their related applications.The main contribution of this PHD thesis is to propose a generic analysis approach to automatically detect trends on given topics from big social data. Indeed, given a very small set of manually annotated hashtags, the proposed approach transfers information from hashtags known sentiments (positive or negative) to individual words. The resulting lexical resource is a large-scale lexicon of polarity whose efficiency is measured against different tasks of sentiment analysis. The comparison of our method with different paradigms in literature confirms the impact of our method to design accurate sentiment analysis systems. Indeed, our model reaches an overall accuracy of 90.21%, significantly exceeding the current models on social sentiment analysis

Style APA, Harvard, Vancouver, ISO itp.

19

Kleisarchaki, Sofia. "Analyse des différences dans le Big Data : Exploration, Explication, Évolution". Thesis, Université Grenoble Alpes (ComUE), 2016. http://www.theses.fr/2016GREAM055/document.

Pełny tekst źródła

Streszczenie:

La Variabilité dans le Big Data se réfère aux données dont la signification change de manière continue. Par exemple, les données des plateformes sociales et les données des applications de surveillance, présentent une grande variabilité. Cette variabilité est dûe aux différences dans la distribution de données sous-jacente comme l’opinion de populations d’utilisateurs ou les mesures des réseaux d’ordinateurs, etc. L’Analyse de Différences a comme objectif l’étude de la variabilité des Données Massives. Afin de réaliser cet objectif, les data scientists ont besoin (a) de mesures de comparaison de données pour différentes dimensions telles que l’âge pour les utilisateurs et le sujet pour le traffic réseau, et (b) d’algorithmes efficaces pour la détection de différences à grande échelle. Dans cette thèse, nous identifions et étudions trois nouvelles tâches analytiques : L’Exploration des Différences, l’Explication des Différences et l’Evolution des Différences.L’Exploration des Différences s’attaque à l’extraction de l’opinion de différents segments d’utilisateurs (ex., sur un site de films). Nous proposons des mesures adaptées à la com- paraison de distributions de notes attribuées par les utilisateurs, et des algorithmes efficaces qui permettent, à partir d’une opinion donnée, de trouver les segments qui sont d’accord ou pas avec cette opinion. L’Explication des Différences s’intéresse à fournir une explication succinte de la différence entre deux ensembles de données (ex., les habitudes d’achat de deux ensembles de clients). Nous proposons des fonctions de scoring permettant d’ordonner les explications, et des algorithmes qui guarantissent de fournir des explications à la fois concises et informatives. Enfin, l’Evolution des Différences suit l’évolution d’un ensemble de données dans le temps et résume cette évolution à différentes granularités de temps. Nous proposons une approche basée sur le requêtage qui utilise des mesures de similarité pour comparer des clusters consécutifs dans le temps. Nos index et algorithmes pour l’Evolution des Différences sont capables de traiter des données qui arrivent à différentes vitesses et des types de changements différents (ex., soudains, incrémentaux). L’utilité et le passage à l’échelle de tous nos algorithmes reposent sur l’exploitation de la hiérarchie dans les données (ex., temporelle, démographique).Afin de valider l’utilité de nos tâches analytiques et le passage à l’échelle de nos algo- rithmes, nous réalisons un grand nombre d’expériences aussi bien sur des données synthé- tiques que réelles.Nous montrons que l’Exploration des Différences guide les data scientists ainsi que les novices à découvrir l’opinion de plusieurs segments d’internautes à grande échelle. L’Explication des Différences révèle la nécessité de résumer les différences entre deux ensembles de donnes, de manière parcimonieuse et montre que la parcimonie peut être atteinte en exploitant les relations hiérarchiques dans les données. Enfin, notre étude sur l’Evolution des Différences fournit des preuves solides qu’une approche basée sur les requêtes est très adaptée à capturer des taux d’arrivée des données variés à plusieurs granularités de temps. De même, nous montrons que les approches de clustering sont adaptées à différents types de changement
Variability in Big Data refers to data whose meaning changes continuously. For instance, data derived from social platforms and from monitoring applications, exhibits great variability. This variability is essentially the result of changes in the underlying data distributions of attributes of interest, such as user opinions/ratings, computer network measurements, etc. {em Difference Analysis} aims to study variability in Big Data. To achieve that goal, data scientists need: (a) measures to compare data in various dimensions such as age for users or topic for network traffic, and (b) efficient algorithms to detect changes in massive data. In this thesis, we identify and study three novel analytical tasks to capture data variability: {em Difference Exploration, Difference Explanation} and {em Difference Evolution}.Difference Exploration is concerned with extracting the opinion of different user segments (e.g., on a movie rating website). We propose appropriate measures for comparing user opinions in the form of rating distributions, and efficient algorithms that, given an opinion of interest in the form of a rating histogram, discover agreeing and disargreeing populations. Difference Explanation tackles the question of providing a succinct explanation of differences between two datasets of interest (e.g., buying habits of two sets of customers). We propose scoring functions designed to rank explanations, and algorithms that guarantee explanation conciseness and informativeness. Finally, Difference Evolution tracks change in an input dataset over time and summarizes change at multiple time granularities. We propose a query-based approach that uses similarity measures to compare consecutive clusters over time. Our indexes and algorithms for Difference Evolution are designed to capture different data arrival rates (e.g., low, high) and different types of change (e.g., sudden, incremental). The utility and scalability of all our algorithms relies on hierarchies inherent in data (e.g., time, demographic).We run extensive experiments on real and synthetic datasets to validate the usefulness of the three analytical tasks and the scalability of our algorithms. We show that Difference Exploration guides end-users and data scientists in uncovering the opinion of different user segments in a scalable way. Difference Explanation reveals the need to parsimoniously summarize differences between two datasets and shows that parsimony can be achieved by exploiting hierarchy in data. Finally, our study on Difference Evolution provides strong evidence that a query-based approach is well-suited to tracking change in datasets with varying arrival rates and at multiple time granularities. Similarly, we show that different clustering approaches can be used to capture different types of change

Style APA, Harvard, Vancouver, ISO itp.

20

Kacem, Fadi. "Algorithmes exacts et approchés pour des problèmes d'ordonnancement et de placement". Thesis, Evry-Val d'Essonne, 2012. http://www.theses.fr/2012EVRY0007/document.

Pełny tekst źródła

Streszczenie:

Dans cette thèse, nous nous intéressons à la résolution de quelques problèmes d'optimisation combinatoires que nous avons choisi de traiter en deux volets. Dans un premier temps, nous étudions des problèmes d'optimisation issus de l'ordonnancement d'un ensemble de tâches sur des machines de calcul et où on cherche à minimiser l'énergie totale consommée par ces machines tout en préservant une qualité de service acceptable. Dans un deuxième temps, nous traitons deux problèmes d'optimisation classiques à savoir un problème d'ordonnancement dans une architecture de machines parallèles avec des temps de communication, et un problème de placement de données dans des graphes modélisant des réseaux pair-à-pair et visant à minimiser le coût total d'accès aux données
In this thesis, we focus on solving some combinatorial optimization problems that we have chosen to study in two parts. Firstly, we study optimization problems issued from scheduling a set of tasks on computing machines where we seek to minimize the total energy consumed by these machines while maintaining acceptable quality of service. In a second step, we discuss two optimization problems, namely a classical scheduling problem in architecture of parallel machines with communication delays, and a problem of placing data in graphs that represent peer-to-peer networks and the goal is to minimize the total cost of data access

Style APA, Harvard, Vancouver, ISO itp.

21

Yameogo, Relwende Aristide. "Risques et perspectives du big data et de l'intelligence artificielle : approche éthique et épistémologique". Thesis, Normandie, 2020. http://www.theses.fr/2020NORMLH10.

Pełny tekst źródła

Streszczenie:

Au XXIème siècle, l’utilisation du big data et de l’IA dans le domaine de la santé s’est progressivement étendue bien qu’elle soit accompagnée par des problèmes liés à l’émergence de pratiques basées sur l’usage des traces numériques. Cette thèse a pour but d’évaluer l’utilisation du big data et de l’IA dans la pratique médicale, de découvrir les processus engendrés par les outils numériques en matière de santé et de souligner les problèmes d’éthique qu’ils posent.L'utilisation des TIC dans la pratique médicale passe essentiellement par l’utilisation des DPI, de logiciels d’aide à la prescription et d’objets connectés. Ces usages soulèvent de nombreux problèmes pour les médecins conscients du risque encouru quant à la protection des données de santé des patients. Dans ce travail, nous mettons en place une méthode de conception de SADM, l’espace vectoriel flou temporel. Cette méthode nous permet de modéliser un nouveau score diagnostique clinique de l’embolie pulmonaire. A travers le paradigme « homme-trace », notre recherche permet, non seulement de prendre la mesure de la limitation dans l’usage des TIC, mais aussi de mettre en évidence les biais interprétatifs dus à la déliaison effectuée entre l’individu pris dans sa complexité d’« homme-trace » et les data circulant à son sujet via les traces numériques. Si le big data, couplé à l’IA peut jouer un grand rôle dans la mise en place de SADM, il ne peut pas se limiter pas à ce champ. Nous étudions aussi comment mettre en place des processus de développement du big data et de IA respectant les règles déontologiques et d’éthique médicale associées à l’appropriation des TIC par les acteurs du système de santé
In the 21st century, the use of big data and AI in the field of health has gradually expanded, although it is accompanied by problems linked to the emergence of practices based on the use of digital traces. The aim of this thesis is to evaluate the use of big data and AI in medical practice, to discover the processes generated by digital tools in the field of health and to highlight the ethical problems they pose.The use of ICTs in medical practice is mainly based on the use of EHR, prescription software and connected objects. These uses raise many problems for physicians who are aware of the risk involved in protecting patients' health data. In this work, we are implementing a method for designing CDSS, the temporal fuzzy vector space. This method allows us to model a new clinical diagnostic score for pulmonary embolism. Through the "Human-trace" paradigm, our research allows us not only to measure the limitation in the use of ICT, but also to highlight the interpretative biases due to the delinking between the individual caught in his complexity as a "Human-trace" and the data circulating about him via digital traces. If big data, coupled with AI can play a major role in the implementation of CDSS, it cannot be limited to this field. We are also studying how to set up big data and AI development processes that respect the deontological and medical ethics rules associated with the appropriation of ICTs by the actors of the health system

Style APA, Harvard, Vancouver, ISO itp.

22

Clément, Julien. "Algorithmes, mots et textes aléatoires". Habilitation à diriger des recherches, Université de Caen, 2011. http://tel.archives-ouvertes.fr/tel-00913127.

Pełny tekst źródła

Streszczenie:

Dans ce mémoire, j'examine différents aspects d'un objet simple mais omniprésent en informatique: la séquence de symboles (appelée selon le contexte mot ou chaîne de caractères). La notion de mot est au carrefour de domaines comme la théorie de l'information et la théorie des langages. S'il est simple, il reste fondamental: nous n'avons, au plus bas niveau, que cela à disposition puisqu'il arrive toujours un moment où une donnée doit être encodée en symboles stockables en mémoire. La quantité d'information croissante de données mise à disposition et qu'on peut stocker, par exemple des génomes d'individus ou des documents numérisés, justifie que les algorithmes et les structures de données qui les manipulent soient optimisés. En conséquence, les besoins d'analyse se font sentir pour guider le choix et la conception des programmes qui manipulent ces données. L'analyse en moyenne est ici particulièrement adaptée puisque les données atteignent une variété et des volumes tellement importants que c'est le cas typique qui traduit le mieux la complexité et non pas le cas le pire. Cela évidemment pose le problème de la modélisation de données qui reste encore très épineux. En effet on souhaite deux choses contradictoires: un modèle au plus près des données, qui traduise vraiment leurs spécificités, mais aussi un modèle permettant de donner des résultats, c'est-à-dire de prédire les performances (et on comprend vite que le modèle doit donc rester relativement simple pour qu'il subsiste un espoir de le traiter!). Les méthodes sont le plus souvent celles de la combinatoire analytique et font appel à un objet mathématique, les séries génératrices, pour mener les analyses à bien.

Style APA, Harvard, Vancouver, ISO itp.

23

Stehlé, Damien. "Réseaux Euclidiens : Algorithmes et Cryptographie". Habilitation à diriger des recherches, Ecole normale supérieure de lyon - ENS LYON, 2011. http://tel.archives-ouvertes.fr/tel-00645387.

Pełny tekst źródła

Streszczenie:

Les réseaux Euclidiens sont un riche objet algébrique qui apparaît dans des contextes variés en mathématiques et en informatique. Cette thèse considère plusieurs aspects algorithmiques des réseaux. Le concept de réduction d'une base d'un réseau est étudié minutieusement : nous couvrons en particulier le spectre complet des compromis qualité-temps des algorithmes de réduction. D'une part, nous présentons et analysons des algorithmes rapides pour trouver une base assez courte (base LLL-réduite) d'un réseau donné arbitraire. D'autre part, nous proposons de nouvelles analyses pour des algorithmes (plus lents) permettant de calculer des bases très courtes (bases HKZ et BKZ-réduites). Cette étude des algorithmes de résolution efﬁcace de problèmes portant sur les réseaux est complétée par une application constructive exploitant leur difﬁculté apparente. Nous proposons et analysons des schémas cryptographiques, dont la fonction de chiffrement NTRU, et les prouvons au moins aussi difﬁciles à casser que de résoudre des problèmes pires-cas bien spéciﬁés portant sur les réseaux.

Style APA, Harvard, Vancouver, ISO itp.

24

Bouafia-Djalab, Soumaya. "Big Data dans les entreprises : transformations organisationnelles, modèles d'usages et modèles d'affaires". Thesis, Pau, 2019. http://www.theses.fr/2019PAUU2068.

Pełny tekst źródła

Streszczenie:

Big Data, block Chain, objets connectés, intelligence artificiel/e,...des expressions associées aux nouvelles technologies de l'information et relayées jusqu'à l'arrivée de la prochaine innovation. Cependant elf es ont toutes un point en commun, il s'agit de la donnée. Ces technologies accélèrent la production massive de données variées, et ouvrent l'accès à celles-ci, en temps réel. On parle alors des 3V du Big Data: Volume, Variété et Vélocité. Ces caractéristiques des données attirent l'intérêt de nombreux acteurs professionnels et académiques, elles posent également diverses questions sur leur appropriation et engendrent des transformations de différents niveaux. Notre travail de recherche traite de la question de la valorisation du Big Data par les entreprises. Nous avons tenté de comprendre comment les entreprises parviennent à créer de la valeur à partir des données du Big Data. Nous avons tenté d'identifier les différents business mode/ spécifiques à l'exploitation de ces données massives, et étudié les transformations organisationnelles qui leur sont éventuellement attachées. Nous avons élaboré une typologie des business mode/ du Big data en 9 types, regroupés finalement en 5 catégories
Big data, blockchain, connected abjects, artificia/ intelligence, eca, al/ these terms refers to new information technologies and relayed until the arrivai of the next innovation. However, they al/ have one thing in common: data. These technologies acce/erate the mass production of various data, and open access to them in real time. We are ta/king about 3V Big Data: Volume, Variety and Ve/ocity. These characteristics of data attract the interest of many professional and academic actors, they a/so pose various questions about their appropriation and generate transformations of different /eve/s. Our present research work deals with the issue of the valuation of Big Data by companies. We have thus tried to understand how companies manage to create value from such massive data, and tried to identify the various business models specific to the exploitation of such data. We also have tried to specif y the related organizational transformation. Weprovide a typology of Big data business mode/s, comprising 9 types eventualf y distributed in 5 categories

Style APA, Harvard, Vancouver, ISO itp.

25

Primicerio, Kevin. "Comportement des traders institutionnels et microstructure des marchés : une approche big data". Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLC036/document.

Pełny tekst źródła

Streszczenie:

Cette thèse est composée de quatre chapitres.Le premier chapitre est une description préliminaire de la base de données Factset Ownership. Nous en donnons une description statistique et exposons quelques faits stylisés caractérisant notamment la structure du portefeuille des institutions financières et fonds d'investissement, ainsi que la capitalisation boursière des entreprises y étant recensées.Le second chapitre propose une méthode d'évaluation statistique de la similarité entre des paires de portefeuilles d'institutions financières. Une paire statistiquement significative donnant lieu à la création d'un lien de similarité entre ces deux entités, nous sommes en mesure de projeter un réseau à l'origine bi-partite (entre institutions financières et entreprises) en un réseau mono-partite (entre institutions uniquement) afin d'en étudier l'évolution de sa structure au cours du temps. En effet, d'un point de vue économique, il est suspecté que les motifs d'investissements similaires constituent un facteur de risque important de contagion financière pouvant être à l'origine de banqueroutes aux conséquences systémiques significatives.Le troisième chapitre s'intéresse aux comportements collectifs des gestionnaires de fonds d'investissement et, en particulier, à la manière dont la structure du portefeuille de ces fonds prend en compte, en moyenne, de façon optimale les frais de transaction en présence de faibles contraintes d'investissements. Ce phénomène où, dans de nombreuses situations, la médiane ou la moyenne des estimations d'un groupe de personnes est étonnamment proche de la valeur réelle, est connu sous le nom de sagesse de la foule.Le quatrième chapitre est consacré à l'étude simultanée de données de marché. Nous utilisons plus de 6.7 milliards de trades de la base de données Thomson-Reuters Tick History, et de données de portefeuille de la base FactSet Ownership. Nous étudions la dynamique tick-à-tick du carnet d'ordres ainsi que l'action aggrégée, c'est-à-dire sur une échelle de temps bien plus grande, des fonds d'investissement. Nous montrons notamment que la mémoire longue du signe des ordres au marché est bien plus courte en présence de l'action, absolue ou directionnelle, des fonds d'investissement. Réciproquement nous expliquons dans quelle mesure une action caractérisée par une mémoire faible est sujette à du trading directionnel provenant de l'action des fonds d'investissement
The thesis is divided into four parts.Part I introduces and provides a technical description of the FactSet Ownership dataset together with some preliminary statistics and a set of stylized facts emerging from the portfolio structure of large financial institutions, and from the capitalization of recorded securities.Part II proposes a method to assess the statistical significance of the overlap between pairs of heterogeneously diversified portfolios. This method is then applied to public assets ownership data reported by financial institutions in order to infer statistically robust links between the portfolios of financial institutions based on similar patterns of investment. From an economic point of view, it is suspected that the overlapping holding of financial institution is an important channel for financial contagion with the potential to trigger fire sales and thus severe losses at a systemic level.Part III investigates the collective behaviour of fund manager and, in particular, how the average portfolio structure of institutional investors optimally accounts for transactions costs when investment constraints are weak. The collective ability of a crowd to accurately estimate an unknown quantity is known as the Wisdom of the Crowd. In many situation, the median or average estimate of a group of unrelated individuals is surprisingly close to the true value.In Part IV, we use more than 6.7 billions of trades from the Thomson-Reuters Tick History database and the ownership data from FactSet. We show how the tick-by-tick dynamics of limit order book data depends on the aggregate actions of large funds acting on much larger time scale. In particular, we find that the well-established long memory of marker order signs is markedly weaker when large investment funds trade in a markedly directional way or when their aggregate participation ratio is large. Conversely, we investigate to what respect an asset with a weak memory experiences direction trading from large funds

Style APA, Harvard, Vancouver, ISO itp.

26

Marcu, Ovidiu-Cristian. "KerA : Un Système Unifié d'Ingestion et de Stockage pour le Traitement Efficace du Big Data : Un Système Unifié d'Ingestion et de Stockage pour le Traitement Efficace du Big Data". Thesis, Rennes, INSA, 2018. http://www.theses.fr/2018ISAR0028/document.

Pełny tekst źródła

Streszczenie:

Le Big Data est maintenant la nouvelle ressource naturelle. Les architectures actuelles des environnements d'analyse des données massives sont constituées de trois couches: les flux de données sont acquis par la couche d’ingestion (e.g., Kafka) pour ensuite circuler à travers la couche de traitement (e.g., Flink) qui s’appuie sur la couche de stockage (e.g., HDFS) pour stocker des données agrégées ou pour archiver les flux pour un traitement ultérieur. Malheureusement, malgré les bénéfices potentiels apportés par les couches spécialisées (e.g., une mise en oeuvre simplifiée), déplacer des quantités importantes de données à travers ces couches spécialisées s’avère peu efficace: les données devraient être acquises, traitées et stockées en minimisant le nombre de copies. Cette thèse propose la conception et la mise en oeuvre d’une architecture unifiée pour l’ingestion et le stockage de flux de données, capable d'améliorer le traitement des applications Big Data. Cette approche minimise le déplacement des données à travers l’architecture d'analyse, menant ainsi à une amélioration de l’utilisation des ressources. Nous identifions un ensemble de critères de qualité pour un moteur dédié d’ingestion des flux et stockage. Nous expliquons l’impact des différents choix architecturaux Big Data sur la performance de bout en bout. Nous proposons un ensemble de principes de conception d’une architecture unifiée et efficace pour l’ingestion et le stockage des données. Nous mettons en oeuvre et évaluons le prototype KerA dans le but de gérer efficacement divers modèles d’accès: accès à latence faible aux flux et/ou accès à débit élevé aux flux et/ou objets
Big Data is now the new natural resource. Current state-of-the-art Big Data analytics architectures are built on top of a three layer stack:data streams are first acquired by the ingestion layer (e.g., Kafka) and then they flow through the processing layer (e.g., Flink) which relies on the storage layer (e.g., HDFS) for storing aggregated data or for archiving streams for later processing. Unfortunately, in spite of potential benefits brought by specialized layers (e.g., simplified implementation), moving large quantities of data through specialized layers is not efficient: instead, data should be acquired, processed and stored while minimizing the number of copies. This dissertation argues that a plausible path to follow to alleviate from previous limitations is the careful design and implementation of a unified architecture for stream ingestion and storage, which can lead to the optimization of the processing of Big Data applications. This approach minimizes data movement within the analytics architecture, finally leading to better utilized resources. We identify a set of requirements for a dedicated stream ingestion/storage engine. We explain the impact of the different Big Data architectural choices on end-to-end performance. We propose a set of design principles for a scalable, unified architecture for data ingestion and storage. We implement and evaluate the KerA prototype with the goal of efficiently handling diverse access patterns: low-latency access to streams and/or high throughput access to streams and/or objects

Style APA, Harvard, Vancouver, ISO itp.

27

Salikhov, Kamil. "Algorithmes et structures de données efficaces pour l’indexation de séquences d’ADN". Thesis, Paris Est, 2017. http://www.theses.fr/2017PESC1232/document.

Pełny tekst źródła

Streszczenie:

Les volumes des données générées par les technologies de séquençage haut débit augmentent exponentiellement ce dernier temps. Le stockage, le traitement et le transfertdeviennent des défis de plus en plus sérieux. Pour les affronter, les scientifiques doivent élaborer des approches et des algorithmes de plus en plus efficaces.Dans cette thèse, nous présentons des structures de données efficaces etdes algorithmes pour des problèmes de recherche approchée de chaînes de caractères, d'assemblagedu génome, de compression de séquences d’ADN et de classificationmétagénomique de lectures d’ADN.Le problème de recherche approchée a été bien étudié, avec un grandnombre de travaux publiés. Dans ledomaine de bioinformatique, le problème d’alignement de séquences peut être considéré comme unproblème de recherche approchée de chaînes de caractères. Dans notre travail, nousétudions une stratégie de recherche basée sur une structure d'indexation ditebidirectionnelle. D’abord, nous définissons un formalisme des schémas de recherche pour travailleravec les stratégies de recherche de ce type, ensuite nous fixons une mesure probabiliste del’efficacité de schémas de recherche et démontrons quelques propriétés combinatoires de schémasde recherche efficaces. Finalement, nous présentons des calculs expérimentaux quivalident la supériorité de nos stratégies. L’assemblage du génome est un des problèmes clefs en bioinformatique.Dans cette thèse, nous présentons une structure de données — filtre de Bloom en Cascade— qui améliore le filtre de Bloom standard et peut être utilisé pour larésolution de certains problèmes, y compris pour l’assemblage du génome. Nousdémontrons ensuite des résultats analytiques et expérimentaux sur les propriétés du filtre deBloom en Cascade. Nous présentons également comment le filtre de Bloom en Cascade peut être appliqué au problèmede compression de séquences d’ADN.Un autre problème que nous étudions dans cette thèse est la classificationmétagénomique de lectures d’ADN. Nous présentons une approche basée sur la transforméede Burrows-Wheeler pour la recherche efficace et rapide de k-mers (mots de longueur k).Cette étude est centrée sur les structures des données qui améliorent lavitesse et la consommation de mémoire par rapport à l'index classique de Burrows-Wheeler, dans le cadre de notre application
Amounts of data generated by Next Generation Sequencing technologies increase exponentially in recent years. Storing, processing and transferring this data become more and more challenging tasks. To be able to cope with them, data scientists should develop more and more efficient approaches and techniques.In this thesis we present efficient data structures and algorithmic methods for the problems of approximate string matching, genome assembly, read compression and taxonomy based metagenomic classification.Approximate string matching is an extensively studied problem with countless number of published papers, both theoretical and practical. In bioinformatics, read mapping problem can be regarded as approximate string matching. Here we study string matching strategies based on bidirectional indices. We define a framework, called search schemes, to work with search strategies of this type, then provide a probabilistic measure for the efficiency of search schemes, prove several combinatorial properties of efficient search schemes and provide experimental computations supporting the superiority of our strategies.Genome assembly is one of the basic problems of bioinformatics. Here we present Cascading Bloom filter data structure, that improves standard Bloom filter and can be applied to several problems like genome assembly. We provide theoretical and experimental results proving properties of Cascading Bloom filter. We also show how Cascading Bloom filter can be used for solving another important problem of read compression.Another problem studied in this thesis is metagenomic classification. We present a BWT-based approach that improves the BWT-index for quick and memory-efficient k-mer search. We mainly focus on data structures that improve speed and memory usage of classical BWT-index for our application

Style APA, Harvard, Vancouver, ISO itp.

28

Maria, Clément. "Algorithmes et structures de données en topologie algorithmique". Thesis, Nice, 2014. http://www.theses.fr/2014NICE4081/document.

Pełny tekst źródła

Streszczenie:

La théorie de l'homologie généralise en dimensions supérieures la notion de connectivité dans les graphes. Étant donné un domaine, décrit par un complexe simplicial, elle définit une famille de groupes qui capturent le nombre de composantes connexes, le nombre de trous, le nombre de cavités et le nombre de motifs équivalents en dimensions supérieures. En pratique, l'homologie permet d'analyser des systèmes de données complexes, interprétés comme des nuages de points dans des espaces métriques. La théorie de l'homologie persistante introduit une notion robuste d'homologie pour l'inférence topologique. Son champ d'application est vaste, et comprend notamment la description d'espaces des configurations de systèmes dynamiques complexes, la classification de formes soumises à des déformations et l'apprentissage en imagerie médicale. Dans cette thèse, nous étudions les ramifications algorithmiques de l'homologie persistante. En premier lieu, nous introduisons l'arbre des simplexes, une structure de données efficace pour construire et manipuler des complexes simpliciaux de grandes dimensions. Nous présentons ensuite une implémentation rapide de l'algorithme de cohomologie persistante à l'aide d'une matrice d'annotations compressée. Nous raffinons également l'inférence de topologie en décrivant une notion de torsion en homologie persistante, et nous introduisons la méthode de reconstruction modulaire pour son calcul. Enfin, nous présentons un algorithme de calcul de l'homologie persistante zigzag, qui est une généralisation algébrique de la persistance. Pour cet algorithme, nous introduisons de nouveaux théorèmes de transformations locales en théorie des représentations de carquois, appelés principes du diamant. Ces algorithmes sont tous implémentés dans la librairie de calcul Gudhi
The theory of homology generalizes the notion of connectivity in graphs to higher dimensions. It defines a family of groups on a domain, described discretely by a simplicial complex that captures the connected components, the holes, the cavities and higher-dimensional equivalents. In practice, the generality and flexibility of homology allows the analysis of complex data, interpreted as point clouds in metric spaces. The theory of persistent homology introduces a robust notion of homology for topology inference. Its applications are various and range from the description of high dimensional configuration spaces of complex dynamical systems, classification of shapes under deformations and learning in medical imaging. In this thesis, we explore the algorithmic ramifications of persistent homology. We first introduce the simplex tree, an efficient data structure to construct and maintain high dimensional simplicial complexes. We then present a fast implementation of persistent cohomology via the compressed annotation matrix data structure. We also refine the computation of persistence by describing ideas of homological torsion in this framework, and introduce the modular reconstruction method for computation. Finally, we present an algorithm to compute zigzag persistent homology, an algebraic generalization of persistence. To do so, we introduce new local transformation theorems in quiver representation theory, called diamond principles. All algorithms are implemented in the computational library Gudhi

Style APA, Harvard, Vancouver, ISO itp.

29

Woloszko, Nicolas. "Essays on Nowcasting : Machine learning, données haute-fréquence et prévision économique". Electronic Thesis or Diss., CY Cergy Paris Université, 2024. http://www.theses.fr/2024CYUN1257.

Pełny tekst źródła

Streszczenie:

Le COVID-19 a brutalement accéléré le besoin pour les acteurs des politiques publiques de disposer de données en temps réel sur l'activité économique. Cet événement a précipité l'aboutissement de recherches plus anciennes sur l'usage de méthodes nouvelles en économie, autour de l'apprentissage statistique et des big data. Car si les données massives créées et détenues par les entreprises contiennent de l'information en temps réel sur l'économie, leur traitement requiert une approche particulière qui s'appuie des algorithmes d'apprentissage non-linéaires.Les présentes recherches introduisent le OECD Weekly Tracker, un outil de suivi de l'activité économique qui fournit des estimations du PIB hebdomadaire de 48 pays en temps réel. Il s'appuie sur les données Google Trends, lesquelles renseignent l'évolution des sujets d'intérêts des utilisateurs de Google Search, un moteur de recherche. La principale innovation méthodologique tient à la mise en place d'un modèle de panel non-linéaire. Un réseau de neurones modélise conjointement la relation entre le PIB et les données Google Trends pour 48 pays, tout en autorisant l'existence de disparités entre les pays dans cette relation.Le Weekly Tracker est mis à jour chaque semaine depuis l'été 2020. Par suite, l'analyse de sa performance historique montre que ses prévisions étaient plus fiables que celles de l'Economic Outlook, publication phare de l'OCDE, durant les années de pandémie. En étudiant les nombreuses publications presse citant les chiffres du Weekly Tracker, on montre également que cet outil a fourni des indications qui étaient qualitativement justes et pertinentes pour aiguiller la prise de décision publique.La pertinence politique du Weekly Tracker tient au fait qu'il est publié en temps réel tout autant qu'à la production d'estimations du PIB hebdomadaires. Les séries disponibles depuis 2004 permettent d'enrichir l'analyse retrospective des politiques en exploitant des méthodes d'identification statistique haute fréquence. Le Tracker est utilisé dans un article paru dans la revue Nature Communications, qui étudie les conséquences de l'introduction du pass sanitaire en France, en Italie et en Allemagne. Entre autres, celui-ci révèle que l'effort de vaccination était positivement corrélé à la croissance économique, et que le pass sanitaire a permis de gagner 6 milliards d'euros de PIB en France, et respectivement 1.4 et 2.1 milliards d'euros en Allemagne et en Italie
COVID-19 has abruptly accelerated the need for policy makers to have real-time data on economic activity. This event has accelerated earlier research on the use of new methods in economics, such as machine learning and Big Data. While the big data created and held by companies contains real-time information on the economy, its processing requires a specific approach that relies on non-linear algorithms.This research introduces the OECD Weekly Tracker, a tool for monitoring economic activity that provides real-time estimates of weekly GDP for 48 countries. It relies on Google Trends data, which reflect the evolution of topics of interest to Google Search users. The main methodological innovation lies in the implementation of a non-linear panel model. A neural network jointly models the relationship between GDP and Google Trends data for 48 countries while allowing for disparities between countries in this relationship.The Weekly Tracker has been updated every week since the summer of 2020. An analysis of its historical performance shows that its forecasts were more reliable than those of the OECD's flagship publication, the Economic Outlook, during the years of the pandemic. By studying the numerous press publications citing the figures from the Weekly Tracker, it is also shown that this tool provided qualitatively accurate and relevant indications to guide policy making.The policy relevance of the Weekly Tracker lies in both its timeliness and high frequency. The weekly series available since 2004 allow for retrospective policy analysis that exploits high-frequency statistical identification methods. The Tracker is used in an article published in Nature Communications, which examines the consequences of the introduction of the COVID certificates in France, Italy, and Germany. Among other findings, it reveals that vaccination efforts were positively correlated with economic growth and that the COVID certificates led to a €6 billion increase in GDP in France, and respectively €1.4 billion and €2.1 billion in Germany and Italy

Style APA, Harvard, Vancouver, ISO itp.

30

Milojevic, Dragomir. "Implémentation des filtres non-linéaires de rang sur des architectures universelles et reconfigurables". Doctoral thesis, Universite Libre de Bruxelles, 2004. http://hdl.handle.net/2013/ULB-DIPOT:oai:dipot.ulb.ac.be:2013/211147.

Pełny tekst źródła

Streszczenie:

Les filtres non-linéaires de rang sont souvent utilisés dans le but de rehausser la qualité d'une image numérique. Leur application permet de faciliter l'interprétation visuelle et la compréhension du contenu des images que ce soit pour un opérateur humain ou pour un traitement automatique ultérieur. Dans le pipeline d'une chaîne habituelle de traitement des images, ces filtres sont appliqués généralement dans la phase de pré-traitement, juste après l'acquisition et avant le traitement et l'analyse d'image proprement dit.

Les filtres de rang sont considérés comme un important goulot d'étranglement dans la chaîne de traitement, à cause du tri des pixels dans chaque voisinage, à effectuer pour tout pixel de l'image. Les temps de calcul augmentent de façon significative avec la taille de l'image à traiter, la taille du voisinage considéré et lorsque le rang approche la médiane.

Cette thèse propose deux solutions à l'accélération du temps de traitement des filtres de rang.

La première solution vise l'exploitation des différents niveaux de parallélisme des ordinateurs personnels d'aujourd'hui, notamment le parallélisme de données et le parallélisme inter-processeurs. Une telle approche présente un facteur d'accélération de l'ordre de 10 par rapport à une approche classique qui fait abstraction du matériel grâce aux compilateurs des langages évolués. Si le débit résultant des pixels traités, de l'ordre d'une dizaine de millions de pixels par seconde, permet de travailler en temps réel avec des applications vidéo, peu de temps reste pour d'autres traitements dans la chaîne.

La deuxième solution proposée est basée sur le concept de calcul reconfigurable et réalisée à l'aide des circuits FPGA (Field Programmable Gate Array). Le système décrit combine les algorithmes de type bit-série et la haute densité des circuits FPGA actuels. Il en résulte un système de traitement hautement parallèle, impliquant des centaines d'unités de traitement par circuit FPGA et permet d'arriver à un facteur d'accélération supplémentaire de l'ordre de 10 par rapport à la première solution présentée. Un tel système, inséré entre une source d'image numérique et un système hôte, effectue le calcul des filtres de rang avec un débit de l'ordre de centaine de millions de pixels par seconde.
Doctorat en sciences appliquées
info:eu-repo/semantics/nonPublished

Style APA, Harvard, Vancouver, ISO itp.

31

Zheng, Wenjing. "Apprentissage ciblé et Big Data : contribution à la réconciliation de l'estimation adaptative et de l’inférence statistique". Thesis, Sorbonne Paris Cité, 2016. http://www.theses.fr/2016USPCB044/document.

Pełny tekst źródła

Streszczenie:

Cette thèse porte sur le développement de méthodes semi-paramétriques robustes pour l'inférence de paramètres complexes émergeant à l'interface de l'inférence causale et la biostatistique. Ses motivations sont les applications à la recherche épidémiologique et médicale à l'ère des Big Data. Nous abordons plus particulièrement deux défis statistiques pour réconcilier, dans chaque contexte, estimation adaptative et inférence statistique. Le premier défi concerne la maximisation de l'information tirée d'essais contrôlés randomisés (ECRs) grâce à la conception d'essais adaptatifs. Nous présentons un cadre théorique pour la construction et l'analyse d'ECRs groupes-séquentiels, réponses-adaptatifs et ajustés aux covariable (traduction de l'expression anglaise « group-sequential, response-adaptive, covariate-adjusted », d'où l'acronyme CARA) qui permettent le recours à des procédures adaptatives d'estimation à la fois pour la construction dynamique des schémas de randomisation et pour l'estimation du modèle de réponse conditionnelle. Ce cadre enrichit la littérature existante sur les ECRs CARA notamment parce que l'estimation des effets est garantie robuste même lorsque les modèles sur lesquels s'appuient les procédures adaptatives d'estimation sont mal spécificiés. Le second défi concerne la mise au point et l'étude asymptotique d'une procédure inférentielle semi-paramétrique avec estimation adaptative des paramètres de nuisance. A titre d'exemple, nous choisissons comme paramètre d'intérêt la différence des risques marginaux pour un traitement binaire. Nous proposons une version cross-validée du principe d'inférence par minimisation ciblée de pertes (« Cross-validated Targeted Mimum Loss Estimation » en anglais, d'où l'acronyme CV-TMLE) qui, comme son nom le suggère, marie la procédure TMLE classique et le principe de la validation croisée. L'estimateur CV-TMLE ainsi élaboré hérite de la propriété typique de double-robustesse et aussi des propriétés d'efficacité du TMLE classique. De façon remarquable, le CV-TMLE est linéairement asymptotique sous des conditions minimales, sans recourir aux conditions de type Donsker
This dissertation focuses on developing robust semiparametric methods for complex parameters that emerge at the interface of causal inference and biostatistics, with applications to epidemiological and medical research in the era of Big Data. Specifically, we address two statistical challenges that arise in bridging the disconnect between data-adaptive estimation and statistical inference. The first challenge arises in maximizing information learned from Randomized Control Trials (RCT) through the use of adaptive trial designs. We present a framework to construct and analyze group sequential covariate-adjusted response-adaptive (CARA) RCTs that admits the use of data-adaptive approaches in constructing the randomization schemes and in estimating the conditional response model. This framework adds to the existing literature on CARA RCTs by allowing flexible options in both their design and analysis and by providing robust effect estimates even under model mis-specifications. The second challenge arises from obtaining a Central Limit Theorem when data-adaptive estimation is used to estimate the nuisance parameters. We consider as target parameter of interest the marginal risk difference of the outcome under a binary treatment, and propose a Cross-validated Targeted Minimum Loss Estimator (TMLE), which augments the classical TMLE with a sample-splitting procedure. The proposed Cross-Validated TMLE (CV-TMLE) inherits the double robustness properties and efficiency properties of the classical TMLE , and achieves asymptotic linearity at minimal conditions by avoiding the Donsker class condition

Style APA, Harvard, Vancouver, ISO itp.

32

Nesvijevskaia, Anna. "Phénomène Big Data en entreprise : processus projet, génération de valeur et Médiation Homme-Données". Thesis, Paris, CNAM, 2019. http://www.theses.fr/2019CNAM1247.

Pełny tekst źródła

Streszczenie:

Le Big Data, phénomène sociotechnique porteur de mythes, se traduit dans les entreprises par la mise en place de premiers projets, plus particulièrement des projets de Data Science. Cependant, ils ne semblent pas générer la valeur espérée. La recherche-action menée au cours de 3 ans sur le terrain, à travers une étude qualitative approfondie de cas multiples, pointe des facteurs clés qui limitent cette génération de valeur, et notamment des modèles de processus projet trop autocentrés. Le résultat est (1) un modèle ajusté de dispositif projet data (Brizo_DS), ouvert et orienté sur les usages, dont la capitalisation de connaissances, destiné à réduire les incertitudes propres à ces projets exploratoires, et transposable à l’échelle d’une gestion de portefeuille de projets data en entreprise. Il est complété par (2) un outil de documentation de la qualité des données traitées, le Databook, et par (3) un dispositif de Médiation Homme-Données, qui garantissent l’alignement des acteurs vers un résultat optimal
Big Data, a sociotechnical phenomenon carrying myths, is reflected in companies by the implementation of first projects, especially Data Science projects. However, they do not seem to generate the expected value. The action-research carried out over the course of 3 years in the field, through an in-depth qualitative study of multiple cases, points to key factors that limit this generation of value, including overly self-contained project process models. The result is (1) an open data project model (Brizo_DS), orientated on the usage, including knowledge capitalization, intended to reduce the uncertainties inherent in these exploratory projects, and transferable to the scale of portfolio management of corporate data projects. It is completed with (2) a tool for documenting the quality of the processed data, the Databook, and (3) a Human-Data Mediation device, which guarantee the alignment of the actors towards an optimal result

Style APA, Harvard, Vancouver, ISO itp.

33

Kemp, Gavin. "CURARE : curating and managing big data collections on the cloud". Thesis, Lyon, 2018. http://www.theses.fr/2018LYSE1179/document.

Pełny tekst źródła

Streszczenie:

L'émergence de nouvelles plateformes décentralisées pour la création de données, tel que les plateformes mobiles, les capteurs et l'augmentation de la disponibilité d'open data sur le Web, s'ajoute à l'augmentation du nombre de sources de données disponibles et apporte des données massives sans précédent à être explorées. La notion de curation de données qui a émergé se réfère à la maintenance des collections de données, à la préparation et à l'intégration d'ensembles de données (data set), les combinant avec une plateforme analytique. La tâche de curation inclut l'extraction de métadonnées implicites et explicites ; faire la correspondance et l'enrichissement des métadonnées sémantiques afin d'améliorer la qualité des données. La prochaine génération de moteurs de gestion de données devrait promouvoir des techniques avec une nouvelle philosophie pour faire face au déluge des données. Ils devraient aider les utilisateurs à comprendre le contenue des collections de données et à apporter une direction pour explorer les données. Un scientifique peut explorer les collections de données pas à pas, puis s'arrêter quand le contenu et la qualité atteignent des niveaux satisfaisants. Notre travail adopte cette philosophie et la principale contribution est une approche de curation des données et un environnement d'exploration que nous avons appelé CURARE. CURARE est un système à base de services pour curer et explorer des données volumineuses sur les aspects variété et variabilité. CURARE implémente un modèle de collection de données, que nous proposons, visant représenter le contenu structurel des collections des données et les métadonnées statistiques. Le modèle de collection de données est organisé sous le concept de vue et celle-ci est une structure de données qui pourvoit une perspective agrégée du contenu des collections des données et de ses parutions (releases) associées. CURARE pourvoit des outils pour explorer (interroger) des métadonnées et pour extraire des vues en utilisant des méthodes analytiques. Exploiter les données massives requière un nombre considérable de décisions de la part de l'analyste des données pour trouver quelle est la meilleure façon pour stocker, partager et traiter les collections de données afin d'en obtenir le maximum de bénéfice et de connaissances à partir de ces données. Au lieu d'explorer manuellement les collections des données, CURARE fournit de outils intégrés à un environnement pour assister les analystes des données à trouver quelle est la meilleure collection qui peut être utilisée pour accomplir un objectif analytique donné. Nous avons implémenté CURARE et expliqué comment le déployer selon un modèle d'informatique dans les nuages (cloud computing) utilisant des services de science des donnés sur lesquels les services CURARE sont branchés. Nous avons conçu des expériences pour mesurer les coûts de la construction des vues à partir des ensembles des données du Grand Lyon et de Twitter, afin de pourvoir un aperçu de l'intérêt de notre approche et notre environnement de curation de données
The emergence of new platforms for decentralized data creation, such as sensor and mobile platforms and the increasing availability of open data on the Web, is adding to the increase in the number of data sources inside organizations and brings an unprecedented Big Data to be explored. The notion of data curation has emerged to refer to the maintenance of data collections and the preparation and integration of datasets, combining them to perform analytics. Curation tasks include extracting explicit and implicit meta-data; semantic metadata matching and enrichment to add quality to the data. Next generation data management engines should promote techniques with a new philosophy to cope with the deluge of data. They should aid the user in understanding the data collections’ content and provide guidance to explore data. A scientist can stepwise explore into data collections and stop when the content and quality reach a satisfaction point. Our work adopts this philosophy and the main contribution is a data collections’ curation approach and exploration environment named CURARE. CURARE is a service-based system for curating and exploring Big Data. CURARE implements a data collection model that we propose, used for representing their content in terms of structural and statistical meta-data organised under the concept of view. A view is a data structure that provides an aggregated perspective of the content of a data collection and its several associated releases. CURARE provides tools focused on computing and extracting views using data analytics methods and also functions for exploring (querying) meta-data. Exploiting Big Data requires a substantial number of decisions to be performed by data analysts to determine which is the best way to store, share and process data collections to get the maximum benefit and knowledge from them. Instead of manually exploring data collections, CURARE provides tools integrated in an environment for assisting data analysts determining which are the best collections that can be used for achieving an analytics objective. We implemented CURARE and explained how to deploy it on the cloud using data science services on top of which CURARE services are plugged. We have conducted experiments to measure the cost of computing views based on datasets of Grand Lyon and Twitter to provide insight about the interest of our data curation approach and environment

Style APA, Harvard, Vancouver, ISO itp.

34

Lechuga, lopez Olga. "Contributions a l’analyse de données multivoie : algorithmes et applications". Thesis, Université Paris-Saclay (ComUE), 2017. http://www.theses.fr/2017SACLC038/document.

Pełny tekst źródła

Streszczenie:

Nous proposons d’étendre des méthodes statistiques classiques telles que l’analyse discriminante, la régression logistique, la régression de Cox, et l’analyse canonique généralisée régularisée au contexte des données multivoie, pour lesquelles, chaque individu est décrit par plusieurs instances de la même variable. Les données ont ainsi naturellement une structure tensorielle. Contrairement à leur formulation standard, une contrainte structurelle est imposée. L’intérêt de cette contrainte est double: d’une part elle permet une étude séparée de l’influence des variables et de l’influence des modalités, conduisant ainsi à une interprétation facilitée des modèles. D’autre part, elle permet de restreindre le nombre de coefficients à estimer, et ainsi de limiter à la fois la complexité calculatoire et le phénomène de sur-apprentissage. Des stratégies pour gérer les problèmes liés au grande dimension des données sont également discutées. Ces différentes méthodes sont illustrées sur deux jeux de données réelles: (i) des données de spectroscopie d’une part et (ii) des données d’imagerie par résonance magnétique multimodales d’autre part, pour prédire le rétablissement à long terme de patients ayant souffert d’un traumatisme cranien. Dans ces deux cas les méthodes proposées offrent de bons résultats quand ont compare des résultats obtenus avec les approches standards
In this thesis we develop a framework for the extension of commonly used linear statistical methods (Fisher Discriminant Analysis, Logistical Regression, Cox regression and Regularized Canonical Correlation Analysis) to the multiway context. In contrast to their standard formulation, their multiway generalization relies on structural constraints imposed to the weight vectors that integrate the original tensor structure of the data within the optimization process. This structural constraint yields a more parsimonious and interpretable model. Different strategies to deal with high dimensionality are also considered. The application of these algorithms is illustrated on two real datasets: (i) serving for the discrimination of spectroscopy data for which all methods where tested and (ii) to predict the long term recovery of patients after traumatic brain injury from multi-modal brain Magnetic Resonance Imaging. In both datasets our methods yield valuable results compared to the standard approach

Style APA, Harvard, Vancouver, ISO itp.

35

Hadjipavlou, Elena. "Big data, surveillance et confiance : la question de la traçabilité dans le milieu aéroportuaire". Thesis, Université Côte d'Azur (ComUE), 2016. http://www.theses.fr/2016AZUR2044/document.

Pełny tekst źródła

Streszczenie:

Cette thèse questionne, d’un point de vue compréhensif et critique, la notion de traces numériques à l’heure du Big Data et de la relation entre les notions de la surveillance et la confiance. Le « Big Data » fait référence à la production massive de données qui représentent une manne précieuse de bénéfices. En effet, la quantité massive de données produites dans le monde atteint des volumes si importants qu’il est indéniablement impossible de les analyser par l’humain sans l’aide d’outils technologiques et statistiques adéquats. Parmi les secteurs concernés par cette révolution technologique et sociétale, le secteur aéroportuaire est aujourd’hui confronté à une importante transformation, nourrie par l’explosion des données au sein de sa structure. Les données générées, collectées et stockées au cours du parcours du passager sont désormais massives et leur gestion est un important levier pour la sécurité, l’amélioration de services et le confort du passager. Pour autant, les avantages attendus n’en soulèvent pas moins une grande question : où vont ces données ? Difficile d’y répondre. Et tant qu’on ne sait pas, comment peut-on faire confiance ? Ces réflexions sont mises en examen à l’aéroport de Larnaca à Chypre. Les différents angles d’approche ainsi que la diversité des acteurs ont nécessité la constitution d’un corpus multidimensionnel, issu d’une méthodologie mixte, afin d’avoir une approche compréhensive du sujet. Ce corpus comprend à la fois des entretiens, des questionnaires et des récits de vie des passagers et des professionnels du terrain. L’analyse qualitative et quantitative qui a suivi était basée sur un cadre précédemment élaboré afin de croiser les représentations des acteurs à propos de la surveillance et la confiance et mettre en évidence les différentes visions inhérentes à cette question
This research project questions, in a comprehensive and critical way, the presence of digital traces in the era of Big Data. This reflection opens up in the relation between Surveillance and Trust. In recent years, “Big Data” has massively and repeatedly been used in order to describe a new societal dynamic that would be characterized by the production of massive quantities of data. Furthermore, enormous potential benefits from using new statistical tools to analyze these data generated from connected objects and tools in more and more human actions. The airport sector is currently facing a major transformation, fueled by the explosion of data within its structure. The data generated during a passenger's journey are now extremely massive. There is no doubt that the management of this data is an important lever for the safety, the improvement of services and the comfort of the passenger. However, the expected benefits raise a great question: Where do these data go? We do not know. And as long as we do not know, how can we trust? These considerations are being examined at Larnaca airport in Cyprus. The different angles of approach as well as the diversity of the actors required the creation of a multidimensional corpus, resulting from a mixed methodology, in order to have a comprehensive approach to the subject. This corpus includes interviews, questionnaires and life stories of passengers and professionals. The qualitative and quantitative analysis that followed was based on a theoretical framework previously elaborated, in order to cross the representations of the actors concerning the surveillance and the trust and finally, highlight the different inherent visions to this issue

Style APA, Harvard, Vancouver, ISO itp.

36

Viennot, Laurent. "Quelques algorithmes parallèles et séquentiels de traitement des graphes et applications". Phd thesis, Université Paris-Diderot - Paris VII, 1996. http://tel.archives-ouvertes.fr/tel-00471691.

Pełny tekst źródła

Streszczenie:

Cette présente un point de vue algorithmique parllèle et séquentiel sur le traitement des graphes. Le chapitre~1 est consacré au modèle \lscPRAM qui est le modèle de parallèlisme le plus simple qui soit : plusieurs processeurs ont accès à une mémoire partagée. Même avec la simplification apportée par le modèle, certains problèmes restent difficiles à résoudre. La section~1.1 introduit une représentation adaptée aux traitement algorithmique des ordres de dimension fixée $d$ et permet de calculer une représentation classique de l'ordre, ce calcul est lié aux traitement de requêtes géométriques dans un espace de dimension $d$. La section~1.2 est consacrée à la reconnaissance en parallèle des ordres \lscN-free et la section~1.3 traite de la reconnaissance des graphes de comparabilité. D'une manière générale, l'étude de classes particulières de graphes permet de résoudre des problèmes qui sont difficiles dans le cas général en utilisant une structure algorithmique sous-jacente à la classe considérée. Le problème de la reconnaissance consiste à trouver cette structure. Le chapitre~2 est au consacré au modèle \lscCGM qui est un modèle de machine parallèle dite << à gros grain >> qui priviligie l'étude du placement distribué des données d'un problème, \cad{} sur les différentes mémoires des ordinateurs qui vont travailler ensemble sur le problème. Ce chapitre reprend les problèmes abordés dans le modèle \lscPRAM et en fournit des solutions dans le modèle \lscCGM. Un algorithme de \anglais{list-ranking} est de plus présenté dans la section d'un graphe dans ce modèle. Le chapitre~3 est consacré à un << modèle de calcul >> très particulier issu d'un problème de téléphonie \lscGSM. Ce chapitre regroupe d'une part les différentes idées algorithmiques qui s'appliquent à un tel problème soumis à de multiples contraintes et d'autre part des simulations permettant d'évaluer la pertinence des différentes idées. Ce problème est de nature continue mais on peut néanmoins y apporter des solutions issues de l'algorithmique discrète telles que les techniques liées aux des composantes connexes d'un graphe. Par soucis de continuité, un algorithme de composante connexes est donné dans chacun des trois modèles abordés. Enfin, le chapitre~4 est consacré à une nouvelle technique algorithmique : l'affinage de partition. La section~4.1 tente de cerner cette technique et montre les ressemblances entre différents algorithmes existants. Cette technique nous permettra de généraliser certains de ces algorithmes à la résolution d'autres problèmes proches. L'affinage de partition nous permettra ensuite dans la section~4.2 de donner des algorithmes simples pour résoudre la reconnaissance des graphes d'intervalles et l'orientation transitive, deux problèmes dont les solution algorithmiques efficaces étaient jusque là très difficiles à implanter et reposaient sur des structures de données complexes.

Style APA, Harvard, Vancouver, ISO itp.

37

Pasquier, Nicolas. "Data Mining : algorithmes d'extraction et de réduction des règles d'association dans les bases de données". Phd thesis, Université Blaise Pascal - Clermont-Ferrand II, 2000. http://tel.archives-ouvertes.fr/tel-00467764.

Pełny tekst źródła

Streszczenie:

L'extraction de connaissances dans les bases de données, également appelé data mining, désigne le processus non trivial permettant d'extraire des informations et des connaissances utiles qui sont enfouies dans les bases de données, les entrepôts de données (data warehouse) ou autres sources de données. Les recherches en ce domaine sont motivées par la croissance très rapide des volumes de données stockées et le potentiel de telles informations pour l'aide à la décision dans de nombreux domaines. Dans ce mémoire, nous traitons du problème de la génération efficace des règles d'association. Une règle d'association est une implication conditionnelle entre ensembles d'attributs binaires appelés items. Dans l'ensemble des travaux existants, ce problème est décomposé en deux sous-problèmes qui sont la recherche des ensembles fréquents d'items et la génération des règles d'association à partir de ces ensembles. Le premier sous-problème a une complexité exponentielle dans la taille de la relation en entrée et nécessite de parcourir à plusieurs reprises la totalité de la relation. L'extraction des ensembles fréquents d'items constitue donc la phase la plus coûteuse en termes de temps d'exécution et d'espace mémoire pour les algorithmes d'extraction des règles d'association. Nous proposons une nouvelle sémantique pour le problème de l'extraction des règles d'association basée sur la connexion de Galois d'une relation binaire finie. Utilisant cette sémantique, nous démontrons que les ensembles fermés fréquents d'items constituent une base, c'est à dire un ensemble générateur non redondant, pour les ensembles fréquents d'items et les règles d'association. Nous proposons deux nouveaux algorithmes, nommés Close et A-Close, permettant l'extraction des ensembles fermés fréquents d'items, à partir desquels les ensembles fréquents d'items et les règles d'association peuvent être dérivés sans accéder au jeu de données. Les résultats expérimentaux démontrent que ces algorithmes permettent de réduire les temps d'extraction des règles d'association dans le cas de jeux de données constitués de données denses ou corrélées. Utilisant la sémantique définie, nous proposons d'améliorer la pertinence et l'utilité des règles d'association extraites en limitant l'extraction à des bases pour les règles d'association. Nous adaptons pour cela les bases pour les règles d'implication définies en analyse de données et nous définissons de nouvelles bases constituées des règles non redondantes d'antécédents minimaux et de conséquences maximales à partir des ensembles fermés fréquents. Nous proposons également des algorithmes efficaces de génération de ces bases.

Style APA, Harvard, Vancouver, ISO itp.

38

Pasquier, Nicolas. "Data mining : algorithmes d'extraction et de reduction des regles d'association dans les bases de donnees". Clermont-Ferrand 2, 2000. https://tel.archives-ouvertes.fr/tel-00467764.

Pełny tekst źródła

Streszczenie:

L'extraction de connaissances dans les bases de donnees, egalement appele data mining, designe le processus non trivial permettant d'extraire des informations et des connaissances utiles qui sont enfouies dans les bases de donnees, les entrepots de donnees (data warehouses) ou autres sources de donnees. Dans ce memoire, nous traitons des problemes de la generation efficace des regles d'association et de la pertinence et de l'utilite des regles d'association extraites. Une regle d'association est une implication conditionnelle entre ensembles d'attributs binaires appeles items. Dans l'ensemble des travaux existants, l'extraction de regles d'association est decomposee en deux sous-problemes qui sont la recherche des ensembles frequents d'items et la generation des regles d'association a partir de ces ensembles. Le premier sous-probleme, dont la complexite est exponentielle dans la taille de la relation et qui necessite de parcourir a plusieurs reprises celle-ci, constitue la phase la plus couteuse en termes de temps d'execution et d'espace memoire. Nous proposons une nouvelle semantique pour le probleme de l'extraction des regles d'association basee sur la connexion de galois d'une relation binaire finie. Utilisant cette semantique, nous demontrons que les ensembles fermes frequents d'items constituent un ensemble generateur non redondant pour les ensembles frequents d'items et les regles d'association. Nous proposons deux nouveaux algorithmes, nommes close et a-close, permettant l'extraction des ensembles fermes frequents d'items, a partir desquels les ensembles frequents d'items et les regles d'association peuvent etre derives sans acceder au jeu de donnees. Les resultats experimentaux demontrent que ces algorithmes permettent de reduire les temps d'extraction et l'espace memoire necessaire dans le cas de jeux de donnees constitues de donnees denses ou correlees. Utilisant la semantique definie, nous proposons d'ameliorer la pertinence et l'utilite des regles d'association extraites en limitant l'extraction a des bases pour les regles d'association. Nous adaptons pour cela les bases pour les regles d'implication definies en analyse de donnees et nous definissons de nouvelles bases constituees des regles non redondantes d'antecedents minimaux et de consequences maximales a partir des ensembles fermes frequents. Nous proposons egalement des algorithmes efficaces de generation de ces bases.

Style APA, Harvard, Vancouver, ISO itp.

39

Barredo, Escribano Maria. "La construction de l'identité sur Internet : mutations et transformations dans le web social". Thesis, Limoges, 2015. http://www.theses.fr/2015LIMO0081.

Pełny tekst źródła

Streszczenie:

Le point de départ de notre analyse est celui de la construction de l'identité digitale considéré comme un processus complexe qui peut être également abordé sous plusieurs angles. En mutation constante, les différents acteurs présents sur Internet possèdent plusieurs rôles dans cette construction identitaire de l'individu en ligne. D'une part l'émergence du web social, sous la forme du profil, fait de l'utilisateur un acteur pluri-positionnel (énonciateur, récepteur, transmetteur, etc.) et lui donne, en outre une identité relationnelle. D'autre part, les contraintes imposées par le réseau et les enjeux situés à des différents niveaux, suggèrent la remise en cause hiérarchie horizontale de nœuds, – unités minimales qui composent le réseau –, et à son tour les nœuds incarnés par les utilisateurs. Cependant, pourrait un nœud être social ? La communication digitale interactive pourrait-elle se fonder sur de présupposés qui excluent l'individu ? Au-delà de cette identité relationnelle du web social, est-il possible de concevoir une identité digitale qui soit homologable à l'identité nominale d'un individu d'une société quelconque ? Les conditions, les prémisses et la confluence de plusieurs pratiques digitales sont les facteurs à analyser afin de trouver des réponses possibles à ce type de problématique. Certes, les critères à prendre en considération pour envisager une telle identité, ainsi que la préservation de l'identité réelle de l'utilisateur en tant que citoyen sont les axes fondamentaux de notre analyse. Une analyse qui se contente de faire l'état de lieu et l'état de l'art de l'Internet contemporain par rapport à l'individu, tel que nous le concevons à nos jours
On the basis of this analysis, we propose to take into consideration the digital identity as a complex process of construction, which may be regarded from several angles. In a constant mutation, a variety of stakeholders present in the Internet perform different roles in the on line individual's construction identity. On the one hand, an emergence of social web converts the user, in the form of a social media profile, into a multi-positional actor ( sender, transmitter, receiver, etc.) and gives him/her a relational identity as well. On the other hand, the constraints imposed by the net and the issues placed in different levels of analysis may suggest to review the horizontal hierarchy between nodes, being these ones the web's minimal units which in turn are embodied by the users. Therefore, could a node be social ? The digital interactive communication could it be based in presumptions excluding the individual ? Beyond the relational identity of social web, could it be conceived a digital identity equivalent to the real identity of an individual on any society? Conditions, premises and the confluence of different digital praxis are indeed the elements to be analysed in order to find suitable answers to our general problem. Certainly, the criteria to take into consideration a concept such an identity, and the preservation of user's real identity as a citizen are the main axis of our analysis. More precisely, an analysis which is focused in the current state of contemporary Internet regarding the individual, as we conceive him nowadays

Style APA, Harvard, Vancouver, ISO itp.

40

Chihoub, Houssem-Eddine. "Managing Consistency for Big Data Applications on Clouds: Tradeoffs and Self Adaptiveness". Phd thesis, École normale supérieure de Cachan - ENS Cachan, 2013. http://tel.archives-ouvertes.fr/tel-00915091.

Pełny tekst źródła

Streszczenie:

A l'ère de Big Data, les applications de traitement intensif de données gèrent des volumes de données extrêmement grands. De plus, ils requièrent des temps de traitement très rapides. Une grande partie de ces applications sont déployées sur des clouds, afin de bénéficier des avantages de ces infrastructures. Dans ce contexte, la réplication est un moyen essentiel dans le cloud afin de surmonter les défis de Big Data. Cependant, la réplication introduit le problème important de la cohérence des données. La gestion de la cohérence est primordiale. Les modèles à cohérence forte induisent des coûts importants en terme de performance et ont des difficultés à passer à l'échelle à cause des besoins de synchronisation. A l'inverse, les modèles à cohérence faible (la cohérence à terme, par exemple) fournissent de meilleures performances ainsi qu'une meilleure disponibilité de données. Toutefois, ces derniers modèles peuvent tolérer, sous certaines conditions, trop d'incohérence temporaire. Dans le cadre du travail de cette thèse, nous abordons les problèmes liés aux compromis suscités par la gestion de la cohérence dans les systèmes de Big Data. Premièrement, nous proposons un modèle de cohérence auto-adaptative qui augmente et diminue de manière automatique le niveau de cohérence. Ceci permet de fournir de meilleures performances tout en satisfaisant les besoins des applications. En deuxième lieu, nous abordons les enjeux financiers liés à la gestion de cohérence dans le cloud. Par conséquent, nous proposons une gestion de la cohérence efficace en termes de coût. La troisième contribution consiste à étudier les effets de gestion de cohérence sur la consommation d'énergie des systèmes de stockage distribués. Cette étude nous mène à analyser les gains potentiels des reconfigurations adaptatives des systèmes de stockage en matière de réduction de la consommation. Afin de compléter notre travail au niveau système, nous abordons la gestion de cohérence au niveau de l'application. Nous introduisons une approche pour la modélisation du comportement de l'application lors de ses accès aux données. Le modèle proposé facilite la compréhension des besoins en cohérence. De plus, ce modèle est utilisé afin de gérer la cohérence de manière spécifique à l'application lors de l'exécution. Des évaluations approfondies sur les plates-formes Grid'5000 et Amazon EC2 démontrent l'efficacité des approches proposées.

Style APA, Harvard, Vancouver, ISO itp.

41

Toss, Julio. "Algorithmes et structures de données parallèles pour applications interactives". Thesis, Université Grenoble Alpes (ComUE), 2017. http://www.theses.fr/2017GREAM056/document.

Pełny tekst źródła

Streszczenie:

La quête de performance a été une constante à travers l'histoire des systèmes informatiques.Il y a plus d'une décennie maintenant, le modèle de traitement séquentiel montrait ses premiers signes d'épuisement pour satisfaire les exigences de performance.Les barrières du calcul séquentiel ont poussé à un changement de paradigme et ont établi le traitement parallèle comme standard dans les systèmes informatiques modernes.Avec l'adoption généralisée d'ordinateurs parallèles, de nombreux algorithmes et applications ont été développés pour s'adapter à ces nouvelles architectures.Cependant, dans des applications non conventionnelles, avec des exigences d'interactivité et de temps réel, la parallélisation efficace est encore un défi majeur.L'exigence de performance en temps réel apparaît, par exemple, dans les simulations interactives où le système doit prendre en compte l'entrée de l'utilisateur dans une itération de calcul de la boucle de simulation.Le même type de contrainte apparaît dans les applications d'analyse de données en continu.Par exemple, lorsque des donnes issues de capteurs de trafic ou de messages de réseaux sociaux sont produites en flux continu, le système d'analyse doit être capable de traiter ces données à la volée rapidement sur ce flux tout en conservant un budget de mémoire contrôlé.La caractéristique dynamique des données soulève plusieurs problèmes de performance tel que la décomposition du problème pour le traitement en parallèle et la maintenance de la localité mémoire pour une utilisation efficace du cache.Les optimisations classiques qui reposent sur des modèles pré-calculés ou sur l'indexation statique des données ne conduisent pas aux performances souhaitées.Dans cette thèse, nous abordons les problèmes dépendants de données sur deux applications différentes: la première dans le domaine de la simulation physique interactive et la seconde sur l'analyse des données en continu.Pour le problème de simulation, nous présentons un algorithme GPU parallèle pour calculer les multiples plus courts chemins et des diagrammes de Voronoi sur un graphe en forme de grille.Pour le problème d'analyse de données en continu, nous présentons une structure de données parallélisable, basée sur des Packed Memory Arrays, pour indexer des données dynamiques géo-référencées tout en conservant une bonne localité de mémoire
The quest for performance has been a constant through the history of computing systems. It has been more than a decade now since the sequential processing model had shown its first signs of exhaustion to keep performance improvements.Walls to the sequential computation pushed a paradigm shift and established the parallel processing as the standard in modern computing systems. With the widespread adoption of parallel computers, many algorithms and applications have been ported to fit these new architectures. However, in unconventional applications, with interactivity and real-time requirements, achieving efficient parallelizations is still a major challenge.Real-time performance requirement shows-up, for instance, in user-interactive simulations where the system must be able to react to the user's input within a computation time-step of the simulation loop. The same kind of constraint appears in streaming data monitoring applications. For instance, when an external source of data, such as traffic sensors or social media posts, provides a continuous flow of information to be consumed by an on-line analysis system. The consumer system has to keep a controlled memory budget and delivery fast processed information about the stream.Common optimizations relying on pre-computed models or static index of data are not possible in these highly dynamic scenarios. The dynamic nature of the data brings up several performance issues originated from the problem decomposition for parallel processing and from the data locality maintenance for efficient cache utilization.In this thesis we address data-dependent problems on two different application: one in physics-based simulation and other on streaming data analysis. To the simulation problem, we present a parallel GPU algorithm for computing multiple shortest paths and Voronoi diagrams on a grid-like graph. To the streaming data analysis problem we present a parallelizable data structure, based on packed memory arrays, for indexing dynamic geo-located data while keeping good memory locality

Style APA, Harvard, Vancouver, ISO itp.

42

Attal, Jean-Philippe. "Nouveaux algorithmes pour la détection de communautés disjointes et chevauchantes basés sur la propagation de labels et adaptés aux grands graphes". Thesis, Cergy-Pontoise, 2017. http://www.theses.fr/2017CERG0842/document.

Pełny tekst źródła

Streszczenie:

Les graphes sont des structures mathématiques capable de modéliser certains systèmes complexes.Une des nombreuses problématiques liée aux graphes concerne la détection de communautés qui vise à trouver une partition en sommet d'un graphe en vue d'en comprendre la structure. A titre d'exemple, en représentant des contratsd'assurances par des noeuds et leurs degrés de similarité par une arête,détecter des groupes de noeuds fortement connectésconduit à détecter des profils similaires, et donc a voir des profils à risques.De nombreux algorithmes ont essayé de répondreà ce problème.Une des méthodes est la propagation de labels qui consiste à ce quechaque noeud puisse recevoir un label par un vote majoritaire de ses voisins.Bien que cette méthode soit simple à mettre en oeuvre,elle présente une grande instabilité due au non déterminisme del'algorithme et peut dans certains cas ne pas détecter de structures communautaires.La première contribution de cette thèse sera de i) proposerune méthode de stabilisation de la propagation de labelstout en appliquant des barrages artificiels pour limiter les possibles mauvaises propagations.Les réseaux complexes ont également comme caractéristique que certains noeuds puissent appartenir à plusieurs communautés, on parle alors de recouvrements. C'est en ce sens que la secondecontribution de cette thèse portera sur ii) la créationd'un algorithme auquel seront adjointes des fonctions d'appartenancespour détecter de possibles recouvrements via des noeuds candidats au chevauchement.La taille des graphes est également une notion à considérer dans la mesure où certains réseaux peuvent contenir plusieursmillions de noeuds et d'arêtes.Nous proposons iii) une version parallèleet distribuée de la détection de communautés en utilisant la propagation de labels par coeur.Une étude comparative sera effectuée pour observerla qualité de partitionnement et de recouvrement desalgorithmes proposés
Graphs are mathematical structures amounting to a set of nodes (objects or persons) in which some pairs are in linked with edges. Graphs can be used to model complex systems.One of the main problems in graph theory is the community detection problemwhich aims to find a partition of nodes in the graph to understand its structure.For instance, by representing insurance contracts by nodes and their relationship by edges,detecting groups of nodes highly connected leads to detect similar profiles and to evaluate risk profiles. Several algorithms are used as aresponse to this currently open research field.One of the fastest method is the label propagation.It's a local method, in which each node changes its own label according toits neighbourhood.Unfortunately, this method has two major drawbacks. The first is the instability of the method. Each trialgives rarely the same result.The second is a bad propagation which can lead to huge communities without sense (giant communities problem).The first contribution of the thesis is i) proposing a stabilisation methodfor the label propagation with artificial dams on edges of some networks in order to limit bad label propagations. Complex networks are also characterized by some nodes which may belong to several communities,we call this a cover.For example, in Protein–protein interaction networks, some proteins may have several functions.Detecting these functions according to their communities could help to cure cancers. The second contribution of this thesis deals with the ii)implementation of an algorithmwith functions to detect potential overlapping nodes .The size of the graphs is also to be considered because some networks contain several millions of nodes and edges like the Amazon product co-purchasing network.We propose iii) a parallel and a distributed version of the community detection using core label propagation.A study and a comparative analysis of the proposed algorithms will be done based on the quality of the resulted partitions and covers

Style APA, Harvard, Vancouver, ISO itp.

43

Gayet, Amaury. "Méthode de valorisation comptable temps réel et big data : étude de cas appliquée à l'industrie papetière". Thesis, Paris 10, 2018. http://www.theses.fr/2018PA100001/document.

Pełny tekst źródła

Streszczenie:

Contexte: La société IP Leanware est une start-up en pleine expansion. Créée en 2008, son C.A. a quadruplé en 4 ans et elle a implantée deux filiales (Brésil et Etats-Unis). Depuis, sa croissance est à deux chiffres (2015). Elle optimise la performance d’entreprises industrielles par un logiciel (BrainCube) qui identifie les conditions de sur-performance. La thèse, réalisée en CIFRE au sein du service R&D dirigé par Sylvain Rubat du Mérac, se situe à l’interface du contrôle de gestion, de la gestion de production et des systèmes d’information. Objectif : BrainCube gère des données descriptives massives des flux des processus de ses clients. Son moteur d’analyse identifie les situations de sur-performance et les diffusent en temps réel par des interfaces tactiles. BrainCube couple deux flux : informationnels et physiques. La mission est d'intégrer la variable économique. Une étude de la littérature montre qu’une évaluation simultanée en temps réel des flux physiques, informationnels et financiers, couplée à une amélioration continue des processus de production, n'est pas réalisée. Résultat : Une revue de la littérature étudie les pratiques et les méthodes du contrôle de gestion pour proposer une méthode temps réel adaptée aux spécificités de BrainCube. L'étude de cas, basée sur une recherche-ingénierique, propose une méthodologie de modélisation générique de la variable économique. Des modèles génériques décisionnels paramétrables sont proposés. Ils doivent faciliter l'usage d'une information temps réel à forte granularité. Les apports, limites et perspectives mettent en relief l'intérêt des travaux pour l'entreprise et les sciences de gestion
Context: IP Leanware is a growing start-up. Created in 2008, its consolidated sales has quadrupled in 4 years and established two subsidiaries (Brazil and the United States). Since then, its growth has been two digits (2015). It optimizes the performance of industrial companies with software (BrainCube) that identifies overperformance conditions. The thesis, carried out in CIFRE within the R&D service led by Sylvain Rubat du Mérac, is located at the interface of management control, production management and information systems.Aim: BrainCube manages massive descriptive data of its customers' process flows. Its analysis engine identifies overperformance situations and broadcasts them in real time through tactile interfaces. BrainCube couples two flows: informational and physical. The mission is to integrate the economic variable. A literature study shows that simultaneous real-time evaluation of physical, informational and financial flows coupled with continuous improvement of production processes is not realized.Result: A literature review examines the practices and methods of management control to propose a real-time method adapted to the specificities of BrainCube. The case study, based on an engineering-research, proposes a generic modeling methodology of the economic variable. Configurable generic decision models are proposed. They must facilitate the use of real time information with high granularity. The contributions, limits and perspectives highlight the interest of works for the company and the management sciences

Style APA, Harvard, Vancouver, ISO itp.

44

Ren, Xiangnan. "Traitement et raisonnement distribués des flux RDF". Thesis, Paris Est, 2018. http://www.theses.fr/2018PESC1139/document.

Pełny tekst źródła

Streszczenie:

Le traitement en temps réel des flux de données émanant des capteurs est devenu une tâche courante dans de nombreux scénarios industriels. Dans le contexte de l'Internet des objets (IoT), les données sont émises par des sources de flux hétérogènes, c'est-à-dire provenant de domaines et de modèles de données différents. Cela impose aux applications de l'IoT de gérer efficacement l'intégration de données à partir de ressources diverses. Le traitement des flux RDF est dès lors devenu un domaine de recherche important. Cette démarche basée sur des technologies du Web Sémantique supporte actuellement de nombreuses applications innovantes où les notions de temps réel et de raisonnement sont prépondérantes. La recherche présentée dans ce manuscrit s'attaque à ce type d'application. En particulier, elle a pour objectif de gérer efficacement les flux de données massifs entrants et à avoir des services avancés d’analyse de données, e.g., la détection d’anomalie. Cependant, un moteur de RDF Stream Processing (RSP) moderne doit prendre en compte les caractéristiques de volume et de vitesse rencontrées à l'ère du Big Data. Dans un projet industriel d'envergure, nous avons découvert qu'un moteur de traitement de flux disponible 24/7 est généralement confronté à un volume de données massives, avec des changements dynamiques de la structure des données et les caractéristiques de la charge du système. Pour résoudre ces problèmes, nous proposons Strider, un moteur de traitement de flux RDF distribué, hybride et adaptatif qui optimise le plan de requête logique selon l’état des flux de données. Strider a été conçu pour garantir d'importantes propriétés industrielles telles que l'évolutivité, la haute disponibilité, la tolérance aux pannes, le haut débit et une latence acceptable. Ces garanties sont obtenues en concevant l'architecture du moteur avec des composants actuellement incontournables du Big Data: Apache Spark et Apache Kafka. De plus, un nombre croissant de traitements exécutés sur des moteurs RSP nécessitent des mécanismes de raisonnement. Ils se traduisent généralement par un compromis entre le débit de données, la latence et le coût computationnel des inférences. Par conséquent, nous avons étendu Strider pour prendre en charge la capacité de raisonnement en temps réel avec un support d'expressivité d'ontologies en RDFS + (i.e., RDFS + owl:sameAs). Nous combinons Strider avec une approche de réécriture de requêtes pour SPARQL qui bénéficie d'un encodage intelligent pour les bases de connaissances. Le système est évalué selon différentes dimensions et sur plusieurs jeux de données, pour mettre en évidence ses performances. Enfin, nous avons exploré le raisonnement du flux RDF dans un contexte d'ontologies exprimés avec un fragment d'ASP (Answer Set Programming). La considération de cette problématique de recherche est principalement motivée par le fait que de plus en plus d'applications de streaming nécessitent des tâches de raisonnement plus expressives et complexes. Le défi principal consiste à gérer les dimensions de débit et de latence avec des méthologies efficaces. Les efforts récents dans ce domaine ne considèrent pas l'aspect de passage à l'échelle du système pour le raisonnement des flux. Ainsi, nous visons à explorer la capacité des systèmes distribuées modernes à traiter des requêtes d'inférence hautement expressive sur des flux de données volumineux. Nous considérons les requêtes exprimées dans un fragment positif de LARS (un cadre logique temporel basé sur Answer Set Programming) et proposons des solutions pour traiter ces requêtes, basées sur les deux principaux modèles d’exécution adoptés par les principaux systèmes distribuées: Bulk Synchronous Parallel (BSP) et Record-at-A-Time (RAT). Nous mettons en œuvre notre solution nommée BigSR et effectuons une série d’évaluations. Nos expériences montrent que BigSR atteint un débit élevé au-delà du million de triplets par seconde en utilisant un petit groupe de machines
Real-time processing of data streams emanating from sensors is becoming a common task in industrial scenarios. In an Internet of Things (IoT) context, data are emitted from heterogeneous stream sources, i.e., coming from different domains and data models. This requires that IoT applications efficiently handle data integration mechanisms. The processing of RDF data streams hence became an important research field. This trend enables a wide range of innovative applications where the real-time and reasoning aspects are pervasive. The key implementation goal of such application consists in efficiently handling massive incoming data streams and supporting advanced data analytics services like anomaly detection. However, a modern RSP engine has to address volume and velocity characteristics encountered in the Big Data era. In an on-going industrial project, we found out that a 24/7 available stream processing engine usually faces massive data volume, dynamically changing data structure and workload characteristics. These facts impact the engine's performance and reliability. To address these issues, we propose Strider, a hybrid adaptive distributed RDF Stream Processing engine that optimizes logical query plan according to the state of data streams. Strider has been designed to guarantee important industrial properties such as scalability, high availability, fault-tolerant, high throughput and acceptable latency. These guarantees are obtained by designing the engine's architecture with state-of-the-art Apache components such as Spark and Kafka. Moreover, an increasing number of processing jobs executed over RSP engines are requiring reasoning mechanisms. It usually comes at the cost of finding a trade-off between data throughput, latency and the computational cost of expressive inferences. Therefore, we extend Strider to support real-time RDFS+ (i.e., RDFS + owl:sameAs) reasoning capability. We combine Strider with a query rewriting approach for SPARQL that benefits from an intelligent encoding of knowledge base. The system is evaluated along different dimensions and over multiple datasets to emphasize its performance. Finally, we have stepped further to exploratory RDF stream reasoning with a fragment of Answer Set Programming. This part of our research work is mainly motivated by the fact that more and more streaming applications require more expressive and complex reasoning tasks. The main challenge is to cope with the large volume and high-velocity dimensions in a scalable and inference-enabled manner. Recent efforts in this area still missing the aspect of system scalability for stream reasoning. Thus, we aim to explore the ability of modern distributed computing frameworks to process highly expressive knowledge inference queries over Big Data streams. To do so, we consider queries expressed as a positive fragment of LARS (a temporal logic framework based on Answer Set Programming) and propose solutions to process such queries, based on the two main execution models adopted by major parallel and distributed execution frameworks: Bulk Synchronous Parallel (BSP) and Record-at-A-Time (RAT). We implement our solution named BigSR and conduct a series of evaluations. Our experiments show that BigSR achieves high throughput beyond million-triples per second using a rather small cluster of machines

Style APA, Harvard, Vancouver, ISO itp.

45

Blin, Lélia. "Algorithmes auto-stabilisants pour la construction d'arbres couvrants et la gestion d'entités autonomes". Habilitation à diriger des recherches, Université Pierre et Marie Curie - Paris VI, 2011. http://tel.archives-ouvertes.fr/tel-00847179.

Pełny tekst źródła

Streszczenie:

Dans le contexte des réseaux à grande échelle, la prise en compte des pannes est une nécessité évidente. Ce document s'intéresse à l'approche auto-stabilisante qui vise à concevoir des algorithmes se ''réparant d'eux-même ' en cas de fautes transitoires, c'est-à-dire de pannes impliquant la modification arbitraire de l'état des processus. Il se focalise sur deux contextes différents, couvrant la majeure partie de mes travaux de recherche ces dernières années. La première partie du document est consacrée à l'algorithmique auto-stabilisante pour les réseaux de processus. La seconde partie du document est consacrée quant à elle à l'algorithmique auto-stabilisante pour des entités autonomes (agents logiciels, robots, etc.) se déplaçant dans un réseau.

Style APA, Harvard, Vancouver, ISO itp.

46

Nardecchia, Alessandro. "Chemometric exploration in hyperspectral imaging in the framework of big data and multimodality". Electronic Thesis or Diss., Université de Lille (2022-....), 2022. https://pepite-depot.univ-lille.fr/LIBRE/EDSMRE/2022/2022ULILR021.pdf.

Pełny tekst źródła

Streszczenie:

Nous sommes aujourd'hui tous conscients que l'imagerie hyperspectral est un outil très utile dans de nombreux domaines de recherche liés à la chimie, et qu'elle peut être exploitée pour l'étude d'échantillons de nature différente, quelle que soit la technique spectroscopique utilisée. Malgré les caractéristiques très intéressantes liées à ce type de données, diverses limitations sont potentiellement rencontrées. Les instruments modernes peuvent tout d'abord générer une énorme quantité de données (big datasets). De plus, la fusion de différentes réponses spectroscopiques acquises sur le même échantillon (multimodalité) peut être potentiellement appliqué, conduisant à encore plus de données à analyser. Cet aspect peut être problématique, compte tenu du fait que si la bonne approche n'est pas utilisée, il peut être compliqué d'obtenir des résultats satisfaisants. Bien évidemment, certains artefacts spectraux peuvent être présents dans les jeux de données acquis, et donc la correction de ces imperfections doit être prise en compte pour obtenir de bons résultats. Un autre défi important lié à l'utilisation de l'analyse d'images hyperspectrales est que normalement, l'observation simultanée d'informations spectrales et spatiales est presque impossible avec la plupart des méthodes actuelles. De toute évidence, cela conduit à une exploration incomplète des données à disposition acquises sur l'échantillon d'intérêt. La chimiométrie est une branche moderne de la chimie qui peut parfaitement répondre aux limitations actuelles liées à la structure des données en imagerie hyperspectrale. Le but de ce travail de thèse est de présenter au lecteur une série de sujets différents dans lesquels de nombreux défis liés aux images hyperspectrales peuvent être surmontés en utilisant différentes facettes de la chimiométrie. En particulier, les problèmes liés à la génération d'une grande quantité de données peuvent être surmontés à l'aide d'algorithmes basés sur la sélection de l'information la plus pure (i.e., SIMPLISMA), ou liés à la création de clusters dans lesquels des composants similaires seront regroupés (i.e., KM clustering). Afin de corriger les artefacts instrumentaux tels que les signaux saturés, une méthodologie originale qui exploite l'imputation statistique sera utilisée, afin de recréer de manière très élégante les informations manquantes et ainsi obtenir des signaux qui autrement seraient irrémédiablement perdus. Une partie importante de cette thèse est liée à l'investigation des données acquises à l'aide de l'imagerie LIBS, une technique qui suscite actuellement un intérêt croissant dans de nombreux domaines de recherche, mais qui n'a pas encore vraiment été exploitée à son plein potentiel par l'utilisation des approches chimiométriques. Dans ce manuscrit, nous introduirons un pipeline général axé sur la sélection des informations les plus importantes liées à ce type de structure de données cubique (en raison de l'énorme quantité de données spectrales qui peuvent être facilement générées) afin de surmonter certaines limitations rencontrées lors de l'analyse de cette réponse instrumentale. De plus, la même approche sera exploitée pour les problématiques de fusion de données spectrales, liée à la LIBS et à d'autres données spectroscopiques. Enfin, nous introduiront une manière intéressante d'utiliser la transformée en ondelettes, afin de ne pas limiter l'analyse uniquement aux données spectrales, mais aussi spatiales, pour obtenir une exploration chimique plus complète des échantillons complexes
Nowadays, it is widely known that hyperspectral imaging is a very good tool used in many chemical-related research areas. Indeed, it can be exploited for the study of samples of different nature, whatever the spectroscopic technique used. Despite the very interesting characteristics related to this kind of acquired data, various limitations are potentially faced. First of all, modern instruments can generate a huge amount of data (big datasets). Furthermore, the fusion of different spectroscopic responses on the same sample (multimodality) can be potentially applied, leading to even more data to be analyzed. This aspect can be a problem, considering the fact that if the right approach is not used, it could be complicated to obtain satisfying results or even lead to a biased vision of the analytical reality of the sample. Obviously, some spectral artifacts can be present in a dataset, and so the correction of these imperfections has to be taken into account to carry out good outcomes. Another important challenge related to the use of hyperspectral image analysis is that normally, the simultaneous observation of spectral and spatial information is almost impossible. Clearly, this leads to an incomplete investigation of the sample of interest. Chemometrics is a modern branch of chemistry that can perfectly match the current limitations related to hyperspectral imaging. The purpose of this PhD work is to give to the reader a series of different topics in which many challenges related to hyperspectral images can be overcome using different chemometric facets. Particularly, as it will described, problems such as the generation of big amount of data can be faced using algorithms based on the selection of the purest information (i.e., SIMPLISMA), or related to the creation of clusters in which similar components will be grouped (i.e., KM clustering). In order to correct instrumental artifacts such as saturated signals will be used a methodology that exploits the statistical imputation, in order to recreate in a very elegant way the missing information and thus, obtain signals that otherwise would be irremediably lost. A significant part of this thesis has been related to the investigation of data acquired using LIBS imaging, a spectroscopic technique that is currently obtaining an increasing interest in many research areas, but that, still, has not really been exploited to its full potential by the use of chemometric approaches. In this manuscript, it will be shown a general pipeline focusing on the selection of the most important information related to this kind of data cube (due to the huge amount of spectral data that can be easily generated) in order to overcome some limitations faced during the analysis of this instrumental response. Furthermore, the same approach will be exploited for the data fusion analysis, related to LIBS and other spectroscopic data. Lastly, it will be shown an interesting way to use wavelet transform, in order to not limit the analysis only to spectral data, but also to spatial ones, to obtain a more complete chemical investigation

Style APA, Harvard, Vancouver, ISO itp.

47

Laroche, Benjamin. "Le big data à l’épreuve du règlement européen général sur la protection des données". Thesis, Toulouse 1, 2020. http://www.theses.fr/2020TOU10041.

Pełny tekst źródła

Streszczenie:

Les usages quotidiens des citoyens d’une société numérique produisent des données de manière exponentielle, et ce, à une vitesse considérable. Dans un tel contexte, le développement de technologies de collecte massive de données apparait comme une évidence. De telles technologies impliquent le traitementde données à caractère personnel afin de créer une valeur économique ou encore d’optimiser des processus métiers ou décisionnels. Le règlement général sur la protection des données (UE) 2016/679 (RGPD) tend à encadrer ces pratiques en respectant des impératifs de souplesse et de neutralité technologique. Cependant, le big data s’avère d’une complexité inédite, ses caractéristiques propres allant à l’encontre même de plusieurs principes du règlement général sur la protection des données. Largement partagé, ce constat a peu à peu imposé une forme implicite de status quo ne permettant pas la résolution effective de l’incompatibilité entre la réalité du big data et son encadrement juridique opéré par le règlement général à son égard. Pour ce faire, une approche distributive, fondée sur les composantes du big data que sont sa structure, ses données ainsi que ses capacités algorithmiques, permettra ensuite d’étudier la qualification de cette notion afin d’en dégager un régime approprié. Résoudre une telle problématique passera tout d’abord par une actualisation de la qualification de données à caractère personnel afin de répondre à la complexification des traitements de données réalisés à l’aide de capacités algorithmiques avancées. De plus, la responsabilisation des différents acteurs impliqués, notamment au travers du régime de responsabilité conjointe de traitement, sera associée à la notion de risque afin d’apporter l’actualisation nécessaire à l’encadrement du big data. Pour finir, l’application d’une méthodologie d’analyse d’impact sur la protection des données viendra éprouver puis synthétiser l’indispensable renforcement de l’adéquation entre la théorie juridique et la réalité pratique du big data
Citizens’ daily uses of technologies in a digital society exponentially produce data. In this context, the development of massive data collection appears as inevitable. Such technologies involve the processing of personal data in order to create economic value or to optimize business or decision-making processes. The General Data Protection Regulation (EU) 2016/679 (GDPR) aims to regulate these practices while respecting the imperatives of flexibility and technological neutrality. However, big data is proving to be an unprecedentedly complex legal issue, as its specific characteristics oppose several principles of the General Data Protection Regulation. Widely shared, this observation has gradually imposed an implicit form of status quo that does not allow for the effective resolution of the incompatibility between the reality of big data and the legal framework provided by the GDPR. In order to solve this equation, a distributive approach, based on the components of the big data: its structure, its data and its algorithmic capabilities, will then make it possible to study the qualification of this notion in order to identify an appropriate regime. Overcoming such a problem will, first of all, involve updating the qualification of personal data in order to respond to the increasing complexity of data processing carried out using advanced algorithmic capabilities. In addition, the accountability of the various actors involved, in particular through joint responsibilities for processing, will be associated with the notion of risk in order to bring the necessary updating to the regulation of big data. Finally, the application of a data protection impact analysis methodology will test and then synthesize the indispensable strengthening of the adequacy between legal theory and the practical reality of big data

Style APA, Harvard, Vancouver, ISO itp.

48

Chennen, Kirsley. "Maladies rares et "Big Data" : solutions bioinformatiques vers une analyse guidée par les connaissances : applications aux ciliopathies". Thesis, Strasbourg, 2016. http://www.theses.fr/2016STRAJ076/document.

Pełny tekst źródła

Streszczenie:

Au cours de la dernière décennie, la recherche biomédicale et la pratique médicale ont été révolutionné par l'ère post-génomique et l'émergence des « Big Data » en biologie. Il existe toutefois, le cas particulier des maladies rares caractérisées par la rareté, allant de l’effectif des patients jusqu'aux connaissances sur le domaine. Néanmoins, les maladies rares représentent un réel intérêt, car les connaissances fondamentales accumulées en temps que modèle d'études et les solutions thérapeutique qui en découlent peuvent également bénéficier à des maladies plus communes. Cette thèse porte sur le développement de nouvelles solutions bioinformatiques, intégrant des données Big Data et des approches guidées par la connaissance pour améliorer l'étude des maladies rares. En particulier, mon travail a permis (i) la création de PubAthena, un outil de criblage de la littérature pour la recommandation de nouvelles publications pertinentes, (ii) le développement d'un outil pour l'analyse de données exomique, VarScrut, qui combine des connaissance multiniveaux pour améliorer le taux de résolution
Over the last decade, biomedical research and medical practice have been revolutionized by the post-genomic era and the emergence of Big Data in biology. The field of rare diseases, are characterized by scarcity from the patient to the domain knowledge. Nevertheless, rare diseases represent a real interest as the fundamental knowledge accumulated as well as the developed therapeutic solutions can also benefit to common underlying disorders. This thesis focuses on the development of new bioinformatics solutions, integrating Big Data and Big Data associated approaches to improve the study of rare diseases. In particular, my work resulted in (i) the creation of PubAthena, a tool for the recommendation of relevant literature updates, (ii) the development of a tool for the analysis of exome datasets, VarScrut, which combines multi-level knowledge to improve the resolution rate

Style APA, Harvard, Vancouver, ISO itp.

49

Mondal, Kartick Chandra. "Algorithmes pour la fouille de données et la bio-informatique". Thesis, Nice, 2013. http://www.theses.fr/2013NICE4049.

Pełny tekst źródła

Streszczenie:

L'extraction de règles d'association et de bi-clusters sont deux techniques de fouille de données complémentaires majeures, notamment pour l'intégration de connaissances. Ces techniques sont utilisées dans de nombreux domaines, mais aucune approche permettant de les unifier n'a été proposée. Hors, réaliser ces extractions indépendamment pose les problèmes des ressources nécessaires (mémoire, temps d'exécution et accès aux données) et de l'unification des résultats. Nous proposons une approche originale pour extraire différentes catégories de modèles de connaissances tout en utilisant un minimum de ressources. Cette approche est basée sur la théorie des ensembles fermés et utilise une nouvelle structure de données pour extraire des représentations conceptuelles minimales de règles d'association, bi-clusters et règles de classification. Ces modèles étendent les règles d'association et de classification et les bi-clusters classiques, les listes d'objets supportant chaque modèle et les relations hiérarchiques entre modèles étant également extraits. Cette approche a été appliquée pour l'analyse de données d'interaction protéomiques entre le virus VIH-1 et l'homme. L'analyse de ces interactions entre espèces est un défi majeur récent en bio-informatique. Plusieurs bases de données intégrant des informations hétérogènes sur les interactions et des connaissances biologiques sur les protéines ont été construites. Les résultats expérimentaux montrent que l'approche proposée peut traiter efficacement ces bases de données et que les modèles conceptuels extraits peuvent aider à la compréhension et à l'analyse de la nature des relations entre les protéines interagissant
Knowledge pattern extraction is one of the major topics in the data mining and background knowledge integration domains. Out of several data mining techniques, association rule mining and bi-clustering are two major complementary tasks for these topics. These tasks gained much importance in many domains in recent years. However, no approach was proposed to perform them in one process. This poses the problems of resources required (memory, execution times and data accesses) to perform independent extractions and of the unification of the different results. We propose an original approach for extracting different categories of knowledge patterns while using minimum resources. This approach is based on the frequent closed patterns theoretical framework and uses a novel suffix-tree based data structure to extract conceptual minimal representations of association rules, bi-clusters and classification rules. These patterns extend the classical frameworks of association and classification rules, and bi-clusters as data objects supporting each pattern and hierarchical relationships between patterns are also extracted. This approach was applied to the analysis of HIV-1 and human protein-protein interaction data. Analyzing such inter-species protein interactions is a recent major challenge in computational biology. Databases integrating heterogeneous interaction information and biological background knowledge on proteins have been constructed. Experimental results show that the proposed approach can efficiently process these databases and that extracted conceptual patterns can help the understanding and analysis of the nature of relationships between interacting proteins

Style APA, Harvard, Vancouver, ISO itp.

50

Jain, Sheenam. "Big data management using artificial intelligence in the apparel supply chain : opportunities and challenges". Thesis, Lille 1, 2020. http://www.theses.fr/2020LIL1I051.

Pełny tekst źródła

Streszczenie:

L’industrie de l'habillement a bénéficié, au cours de la dernière décennie, de l'application de big data et de l'intelligence artificielle pour résoudre divers problèmes commerciaux. Face à la concurrence accrue sur le marché et aux attentes des clients en matière de personnalisation, ces industriels sont en permanence à la recherche des moyens d'améliorer leurs stratégies commerciales afin d'accroître leur rapidité et leur rentabilité. A cet égard, les solutions de gestion de big data offrent aux enseignes de la distribution textile la possibilité d'explorer leur chaîne d'approvisionnement et d'identifier les ressources de données importantes. Ces ressources précieuses, rares et inimitables permettent de créer des stratégies axées sur les données (data-driven) et d'établir des capacités dynamiques à maintenir dans un environnement commercial incertain. Grâce à ces stratégies data-driven, les enseignes de prêt-à-porter sont en mesure de confectionner des vêtements de façon intelligente afin de fournir à leurs clients un article adapté à leurs besoins et, par conséquent, d'adopter des pratiques de consommation et de production durables.Dans ce contexte, la thèse étudie les avantages de l'utilisation de big data et de l'intelligence artificielle (IA) dans les entreprises de l'habillement, afin d'améliorer leurs opérations commerciales tout en recherchant des opportunités de gestion de big data à l'aide de solutions d'IA. Dans un premier temps, cette thèse identifie et classifie les techniques d'IA qui peuvent être utilisées à différents stades de la chaîne d'approvisionnement pour améliorer les opérations commerciales existantes. Dans un deuxième temps, des données relatives aux produits sont présentées afin de créer un modèle de classification et des règles de conception susceptibles de fournir des recommandations personnalisées ou une personnalisation permettant une meilleure expérience d'achat pour le client. Dans un troisième et dernier temps, la thèse s'appuie sur les évidences de l'industrie de l'habillement et la littérature existante pour suggérer des propositions qui peuvent guider les responsables dans le développement de stratégies data-driven pour améliorer la satisfaction du client par des services personnalisés. Enfin, cette thèse montre l'efficacité des solutions analytiques basées sur les données pour maintenir un avantage concurrentiel grâce aux données et aux connaissances déjà présentes dans une chaîne d'approvisionnement de l'habillement. Plus précisément, cette thèse contribue au domaine textile en identifiant des opportunités spécifiques de gestion de big data à l'aide de solutions d'intelligence artificielle. Ces opportunités peuvent être une source de référence pour d'autres travaux de recherche dans le domaine de la technologie et de la gestion
Over the past decade, the apparel industry has seen several applications of big data and artificial intelligence (AI) in dealing with various business problems. With the increase in competition and customer demands for the personalization of products and services which can enhance their brand experience and satisfaction, supply-chain managers in apparel firms are constantly looking for ways to improve their business strategies so as to bring speed and cost efficiency to their organizations. The big data management solutions presented in this thesis highlight opportunities for apparel firms to look into their supply chains and identify big data resources that may be valuable, rare, and inimitable, and to use them to create data-driven strategies and establish dynamic capabilities to sustain their businesses in an uncertain business environment. With the help of these data-driven strategies, apparel firms can produce garments smartly to provide customers with a product that closer meets their needs, and as such drive sustainable consumption and production practices.In this context, this thesis aims to investigate whether apparel firms can improve their business operations by employing big data and AI, and in so doing, seek big data management opportunities using AI solutions. Firstly, the thesis identifies and classifies AI techniques that can be used at various stages of the supply chain to improve existing business operations. Secondly, the thesis presents product-related data to create a classification model and design rules that can create opportunities for providing personalized recommendations or customization, enabling better shopping experiences for customers. Thirdly, this thesis draws from the evidence in the industry and existing literature to make suggestions that may guide managers in developing data-driven strategies for improving customer satisfaction through personalized services. Finally, this thesis shows the effectiveness of data-driven analytical solutions in sustaining competitive advantage via the data and knowledge already present within the apparel supply chain. More importantly, this thesis also contributes to the field by identifying specific opportunities with big data management using AI solutions. These opportunities can be a starting point for other research in the field of technology and management

Style APA, Harvard, Vancouver, ISO itp.

Rozprawy doktorskie na temat „Big Data et algorithmes”

Utwórz poprawne odniesienie w stylach APA, MLA, Chicago, Harvard i wielu innych