Dissertations / Theses: 'Décalage de jeu de données'

1

Nodet, Pierre. "Biquality learning : from weakly supervised learning to distribution shifts." Electronic Thesis or Diss., université Paris-Saclay, 2023. http://www.theses.fr/2023UPASG030.

Full text

Abstract:

Le domaine de l'apprentissage avec des faiblesses en supervision est appelé apprentissage faiblement supervisé et regroupe une variété de situations où la vérité terrain collectée est imparfaite. Les étiquettes collectées peuvent souffrir de mauvaise qualité, de non-adaptabilité ou de quantité insuffisante. Dans ce mémoire nous proposons une nouvelle taxonomie de l'apprentissage faiblement supervisé sous la forme d'un cube continu appelé le cube de la supervision faible qui englobe toutes les faiblesses en supervision. Pour concevoir des algorithmes capables de gérer toutes supervisions faibles, nous supposons la disponibilité d'un petit ensemble de données de confiance, sans biais ni corruption, en plus de l'ensemble de données potentiellement corrompu. L'ensemble de données de confiance permet de définir un cadre de travail formel appelé apprentissage biqualité. Nous avons examiné l'état de l'art de ces algorithmes qui supposent la disponibilité d'un petit jeu de données de confiance. Dans ce cadre, nous proposons un algorithme basé sur la repondération préférentielle pour l'apprentissage biqualité (IRBL). Cette approche agnostique du classificateur est basée sur l'estimation empirique de la dérivée de Radon-Nikodym (RND), pour apprendre un estimateur conforme au risque sur des données non fiables repesées. Nous étendrons ensuite le cadre proposé aux décalages de jeu de données. Les décalages de jeu de données se produisent lorsque la distribution des données observée au moment de l'apprentissage est différente de celle attendue au moment de la prédiction. Nous proposons alors une version améliorée d'IRBL, appelée IRBL2, capable de gérer de tels décalages de jeux de données. Nous proposons aussi KPDR basé sur le même fondement théorique mais axé sur le décalage de covariable plutôt que le bruit des étiquettes. Pour diffuser et démocratiser le cadre de l'apprentissage biqualité, nous rendons ouvert le code source d'une bibliothèque Python à la Scikit-Learn pour l'apprentissage biqualité : biquality-learn
The field of Learning with weak supervision is called Weakly Supervised Learning and aggregates a variety of situations where the collected ground truth is imperfect. The collected labels may suffer from bad quality, non-adaptability, or insufficient quantity. In this report, we propose a novel taxonomy of Weakly Supervised Learning as a continuous cube called the Weak Supervision Cube that encompasses all of the weaknesses of supervision. To design algorithms capable of handling any weak supervisions, we suppose the availability of a small trusted dataset, without bias and corruption, in addition to the potentially corrupted dataset. The trusted dataset allows the definition of a generic learning framework named Biquality Learning. We review the state-of-the-art of these algorithms that assumed the availability of a small trusted dataset. Under this framework, we propose an algorithm based on Importance Reweighting for Biquality Learning (IRBL). This classifier-agnostic approach is based on the empirical estimation of the Radon-Nikodym derivative (RND), to build a risk-consistent estimator on reweighted untrusted data. Then we extend the proposed framework to dataset shifts. Dataset shifts happen when the data distribution observed at training time is different from what is expected from the data distribution at testing time. So we propose an improved version of IRBL named IRBL2, capable of handling such dataset shifts. Additionally, we propose another algorithm named KPDR based on the same theory but focused on covariate shift instead of the label noise formulation. To diffuse and democratize the Biquality Learning Framework, we release an open-source Python library à la Scikit-Learn for Biquality Learning named biquality-learn