Dissertations / Theses: 'Profilage des données'

1

Chevallier, Marc. "L’Apprentissage artificiel au service du profilage des données." Electronic Thesis or Diss., Paris 13, 2022. http://www.theses.fr/2022PA131060.

Full text

Abstract:

La transformation digitale qui s’est effectuée de manière rapide aux cours des dernières décennies au sein des entreprises a donné lieu à une production massive de données. Une fois les problèmes liés au stockage de ces données résolus, leur utilisation au sein de la Business Intelligence (BI) ou du Machine Learning (ML) est devenue un objectif majeur des entreprises afin de rentabiliser leurs données. Mais l’exploitation de ces données s’avère complexe car elles sont très peu documentées et contiennent très souvent de nombreuses erreurs. C’est dans ce contexte que les domaines du profilage des données et de la qualité des données (QD) ont pris de plus en plus d’importance, le profilage ayant pour but d’extraire des métadonnées informatives sur les données et la qualité des données de quantifier les erreurs dans les données. Le profilage étant un prérequis à la qualité des données nous avons concentré nos travaux sur ce sujet au travers de l’utilisation de vecteurs de métadonnées issu d’action de profilage simple. Ces vecteurs d’informations simples nous ont permis de réaliser des tâches de profilage avancées, en particulier la prédiction de type sémantique complexe au moyen d’algorithmes d’apprentissage artificiel. Les vecteurs de métadonnées que nous avons utilisés sont de grande taille et sont donc affectés par la malédiction de la grande dimension. Ce terme regroupe un ensemble de problèmes de performance survenant en apprentissage artificiel quand le nombre de dimensions du problème augmente. Une méthode pour résoudre ces problèmes est d’utiliser des algorithmes génétiques pour sélectionner un sous-ensemble de dimensions ayant de bonnes propriétés. Dans ce cadre nous avons proposé des améliorations : d’une part, une initialisation non aléatoire des individus composant la population initiale de l’algorithme génétique, d’autre part, des modifications pour l’algorithme génétique avec des mutations agressives afin d’améliorer ses performances (GAAM)
The digital transformation that has been rapidly happening within companies over the last few decades has led to a massive production of data. Once the problems related to the storage of those data have been solved, its use within Business Intelligence (BI) or Machine Learning (ML) has become a major objective for companies in order to make their data profitable. But the exploitation of the data is complex because it is not well documented and often contains many errors. It is in this context that the fields of data profiling and data quality (DQ) have become increasingly important. Profiling aims at extracting informative metadata from the data and data quality aims at quantifying the errors in the data.Profiling being a prerequisite to data quality, we have focused our work on this subject through the use of metadata vectors resulting from simple profiling actions. These simple information vectors have allowed us to perform advanced profiling tasks, in particular the prediction of complex semantic types using machine learning. The metadata vectors we used are large and are therefore affected by the curse of dimensionality. This term refers to a set of performance problems that occur in machine learning when the number of dimensions of the problem increases. One method to solve these problems is to use genetic algorithms to select a subset of dimensions with good properties. In this framework we have proposed improvements: on one hand, a non-random initialization of the individuals composing the initial population of the genetic algorithm, on the other hand, a modification to the genetic algorithm with aggressive mutations in order to improve its performance (GAAM)