Log in

Relevant bibliographies by topics / Auto-supervisé / Dissertations / Theses

To see the other types of publications on this topic, follow the link: Auto-supervisé.

Dissertations / Theses on the topic 'Auto-supervisé'

Author: Grafiati

Published: 21 September 2024

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 36 dissertations / theses for your research on the topic 'Auto-supervisé.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Decoux, Benoît. "Un modèle connexionniste de vision 3-D : imagettes rétiniennes, convergence stéréoscopique, et apprentissage auto-supervisé de la fusion." Rouen, 1995. http://www.theses.fr/1995ROUES056.

Full text

Abstract:

Les études destinées à apporter l'apprentissage non-supervisé à la vision stéréoscopique artificielle s'inscrivent dans la recherche en auto-organisation des systèmes, et constituent une avancée dans la modélisation de la vision stéréo naturelle. Le principal objectif de cette thèse est de participer à cette recherche. Après quelques données sur la vision naturelle, des propriétés importantes des réseaux neuronaux sont présentées. L'accent est mis ensuite sur les propriétés d'auto-organisation de ces derniers, ainsi que sur leurs capacités sensorimotrices. Un passage en revue non-exhaustif des modèles connexionnistes de vision stéréo existant, est alors effectué. Enfin, un modèle connexionniste de vision stéréo est proposé. Ce modèle comporte deux processus complémentaires : 1) la convergence stéréo met en correspondance des régions, par minimisation d'une disparité globale. Elle simule un processus de convergence visio-motrice; 2) la fusion stéréo recherche alors la correspondance entre des éléments caractéristiques. La fusion est obtenue après une phase d'apprentissage auto-supervisé. Le type de l'apprentissage est ainsi dénommé parce que la règle utilisée est une règle d'apprentissage supervisé, mais dans laquelle l'information de supervision est extraite automatiquement des entrées visuelles par le modèle. Les scènes visuelles sont perçues au moyen d'un ensemble d'imagettes rétiniennes : il s'agit de petites images de différents champs visuels et résolutions.

APA, Harvard, Vancouver, ISO, and other styles

2

Lefort, Mathieu. "Apprentissage spatial de corrélations multimodales par des mécanismes d'inspiration corticale." Phd thesis, Université Nancy II, 2012. http://tel.archives-ouvertes.fr/tel-00756687.

Full text

Abstract:

Cette thèse traite de la problématique de l'unification de différents flux d'informations modales qui peuvent provenir des senseurs d'un agent. Cette unification, inspirée des expériences psychologiques comme l'effet ventriloque, s'appuie sur la détection de corrélations, définies comme des motifs spatiaux qui apparaissent régulièrement dans les flux d'entrée. L'apprentissage de l'espace des corrélations du flux d'entrée échantillonne cet espace et généralise les échantillons appris. Cette thèse propose des principes fonctionnels pour le traitement multimodal de l'information qui ont aboutit à l'architecture connexionniste, générique, modulaire et cortico-inspirée SOMMA (Self-Organizing Maps for Multimodal Association). Dans ce modèle, le traitement de chaque modalité s'effectue au sein d'une carte corticale. L'unification multimodale de l'information est obtenue par la mise en relation réciproque de ces cartes. L'échantillonnage et la généralisation des corrélations reposent sur une auto-organisation contrainte des cartes. Ce modèle est caractérisé par un apprentissage progressif de ces propriétés fonctionnelles: les propriétés monomodales amorcent l'émergence des propriétés multimodales et, dans le même temps, l'apprentissage de certaines corrélations par chaque carte est un préalable à l'auto-organisation de ces cartes. Par ailleurs, l'utilisation d'une architecture connexionniste et d'un apprentissage continu et non supervisé fournit au modèle des propriétés de robustesse et d'adaptabilité qui sont généralement absentes des approches informatiques classiques.

APA, Harvard, Vancouver, ISO, and other styles

3

Lefort, Mathieu. "Apprentissage spatial de corrélations multimodales par des mécanismes d'inspiration corticale." Electronic Thesis or Diss., Université de Lorraine, 2012. http://www.theses.fr/2012LORR0106.

Full text

Abstract:

Cette thèse traite de la problématique de l'unification de différents flux d'informations modales qui peuvent provenir des senseurs d'un agent. Cette unification, inspirée des expériences psychologiques comme l'effet ventriloque, s'appuie sur la détection de corrélations, définies comme des motifs spatiauxqui apparaissent régulièrement dans les flux d'entrée. L'apprentissage de l'espace des corrélations du flux d'entrée échantillonne cet espace et généralise les échantillons appris. Cette thèse propose des principes fonctionnels pour le traitement multimodal de l'information qui ont aboutit à l'architectureconnexionniste, générique, modulaire et cortico-inspirée SOMMA (Self-Organizing Maps for Multimodal Association). Dans ce modèle, le traitement de chaque modalité s'effectue au sein d'une carte corticale. L'unification multimodale de l'information est obtenue par la mise en relation réciproque de ces cartes.L'échantillonnage et la généralisation des corrélations reposent sur une auto-organisation contrainte des cartes. Ce modèle est caractérisé par un apprentissage progressif de ces propriétés fonctionnelles : les propriétés monomodales amorcent l'émergence des propriétés multimodales et, dans le même temps, l'apprentissagede certaines corrélations par chaque carte est un préalable à l'auto-organisation de ces cartes. Par ailleurs, l'utilisation d'une architecture connexionniste et d'un apprentissage continu et non supervisé fournit au modèle des propriétés de robustesse et d'adaptabilité qui sont généralement absentes des approches informatiques classiques
This thesis focuses on unifying multiple modal data flows that may be provided by sensors of an agent. This unification, inspired by psychological experiments like the ventriloquist effect, is based on detecting correlations which are defined as temporally recurrent spatial patterns that appear in the input flows. Learning of the input flow correlations space consists on sampling this space and generalizing theselearned samples. This thesis proposed some functional paradigms for multimodal data processing, leading to the connectionist, generic, modular and cortically inspired architecture SOMMA (Self-Organizing Maps for Multimodal Association). In this model, each modal stimulus is processed in a cortical map. Interconnectionof these maps provides an unifying multimodal data processing. Sampling and generalization of correlations are based on the constrained self-organization of each map. The model is characterised by a gradual emergence of these functional properties : monomodal properties lead to the emergence of multimodal ones and learning of correlations in each map precedes self-organization of these maps.Furthermore, the use of a connectionist architecture and of on-line and unsupervised learning provides plasticity and robustness properties to the data processing in SOMMA. Classical artificial intelligence models usually miss such properties

APA, Harvard, Vancouver, ISO, and other styles

4

Geiler, Louis. "Deep learning for churn prediction." Electronic Thesis or Diss., Université Paris Cité, 2022. http://www.theses.fr/2022UNIP7333.

Full text

Abstract:

Le problème de la prédiction de l’attrition est généralement réservé aux équipes de marketing. Cependant,grâce aux avancées technologiques, de plus en plus de données peuvent être collectés afin d’analyser le comportement des clients. C’est dans ce cadre que cette thèse s’inscrit, plus particulièrement par l’exploitation des méthodes d’apprentissages automatiques. Ainsi, nous avons commencés par étudier ce problème dans le cadre de l’apprentissage supervisé. Nous avons montré que la combinaison en ensemble de la régression logistique, des forêt aléatoire et de XGBoost offraient les meilleurs résultats en terme d’Aire sous la courbe (Are Under the Curve, AUC). Nous avons également montré que les méthodes du type ré-échantillonage jouent uniquement un rôle local et non pas global.Ensuite, nous avons enrichi nos prédictions en prenant en compte la segmentation des clients. En effet, certains clients peuvent quitter le service à cause d’un coût qu’ils jugent trop élevés ou suite à des difficultés rencontrés avec le service client. Notre approche a été réalisée avec une nouvelle architecture de réseaux de neurones profonds qui exploite à la fois les autoencodeur et l’approche desk-means. De plus, nous nous sommes intéressés à l’apprentissage auto-supervisé dans le cadre tabulaire. Plus précisément, notre architecture s’inspire des travaux autour de l’approche SimCLR en modificant l’architecture mean-teacher du domaine du semi-supervisé. Nous avons montré via la win matrix la supériorité de notre approche par rapport à l’état de l’art. Enfin, nous avons proposé d’appliquer les connaissances acquises au cours de ce travail de thèse dans un cadre industriel, celui de Brigad. Nous avons atténué le problème de l’attrition à l’aide des prédictions issues de l’approche de forêt aléatoire que nous avons optimisés via un grid search et l’optimisation des seuils. Nous avons également proposé une interprétation des résultats avec les méthodes SHAP (SHapley Additive exPlanations)
The problem of churn prediction has been traditionally a field of study for marketing. However, in the wake of the technological advancements, more and more data can be collected to analyze the customers behaviors. This manuscript has been built in this frame, with a particular focus on machine learning. Thus, we first looked at the supervised learning problem. We have demonstrated that logistic regression, random forest and XGBoost taken as an ensemble offer the best results in terms of Area Under the Curve (AUC) among a wide range of traditional machine learning approaches. We also have showcased that the re-sampling approaches are solely efficient in a local setting and not a global one. Subsequently, we aimed at fine-tuning our prediction by relying on customer segmentation. Indeed,some customers can leave a service because of a cost that they deem to high, and other customers due to a problem with the customer’s service. Our approach was enriched with a novel deep neural network architecture, which operates with both the auto-encoders and the k-means approach. Going further, we focused on self-supervised learning in the tabular domain. More precisely, the proposed architecture was inspired by the work on the SimCLR approach, where we altered the architecture with the Mean-Teacher model from semi-supervised learning. We showcased through the win matrix the superiority of our approach with respect to the state of the art. Ultimately, we have proposed to apply what we have built in this manuscript in an industrial setting, the one of Brigad. We have alleviated the company churn problem with a random forest that we optimized through grid-search and threshold optimization. We also proposed to interpret the results with SHAP (SHapley Additive exPlanations)

APA, Harvard, Vancouver, ISO, and other styles

5

Zaiem, Mohamed Salah. "Informed Speech Self-supervised Representation Learning." Electronic Thesis or Diss., Institut polytechnique de Paris, 2024. http://www.theses.fr/2024IPPAT009.

Full text

Abstract:

L'apprentissage des caractéristiques a été un des principaux moteurs des progrès de l'apprentissage automatique. L'apprentissage auto-supervisé est apparu dans ce contexte, permettant le traitement de données non étiquetées en vue d'une meilleure performance sur des tâches faiblement étiquetées. La première partie de mon travail de doctorat vise à motiver les choix dans les pipelines d'apprentissage auto-supervisé de la parole qui apprennent les représentations non supervisées. Dans cette thèse, je montre d'abord comment une fonction basée sur l'indépendance conditionnelle peut être utilisée pour sélectionner efficacement et de manière optimale des tâches de pré-entraînement adaptées à la meilleure performance sur une tâche cible. La deuxième partie de mon travail de doctorat étudie l'évaluation et l'utilisation de représentations auto-supervisées pré-entraînées. J'y explore d'abord la robustesse des benchmarks actuels d'auto-supervision de la parole aux changements dans les choix de modélisation en aval. Je propose, ensuite, de nouvelles approches d'entraînement en aval favorisant l'efficacité et la généralisation
Feature learning has been driving machine learning advancement with the recently proposed methods getting progressively rid of handcrafted parts within the transformations from inputs to desired labels. Self-supervised learning has emerged within this context, allowing the processing of unlabeled data towards better performance on low-labeled tasks. The first part of my doctoral work is aimed towards motivating the choices in the speech selfsupervised pipelines learning the unsupervised representations. In this thesis, I first show how conditional-independence-based scoring can be used to efficiently and optimally select pretraining tasks tailored for the best performance on a target task. The second part of my doctoral work studies the evaluation and usage of pretrained self-supervised representations. I explore, first, the robustness of current speech self-supervision benchmarks to changes in the downstream modeling choices. I propose, second, fine-tuning approaches for better efficicency and generalization

APA, Harvard, Vancouver, ISO, and other styles

6

Jouffroy, Emma. "Développement de modèles non supervisés pour l'obtention de représentations latentes interprétables d'images." Electronic Thesis or Diss., Bordeaux, 2024. http://www.theses.fr/2024BORD0050.

Full text

Abstract:

Le Laser Mégajoule (LMJ) est un instrument d’envergure qui simule des conditions de pression et de température similaires à celles des étoiles. Lors d’expérimentations, plusieurs diagnostics sont guidés dans la chambre d’expériences et il est essentiel qu’ils soient positionnés de manière précise. Afin de minimiser les risques liés à l’erreur humaine dans un tel contexte expérimental, la mise en place d'un système anti-collision automatisé est envisagée. Cela passe par la conception d’outils d’apprentissage automatique offrant des niveaux de décision fiables à partir de l’interprétation d’images issues de caméras positionnées dans la chambre. Nos travaux de recherche se concentrent sur des méthodes neuronales génératives probabilistes, en particulier les auto-encodeurs variationnels (VAEs). Le choix de cette classe de modèles est lié au fait qu’elle rende possible l’accès à un espace latent lié directement aux propriétés des objets constituant la scène observée. L’enjeu majeur est d’étudier la conception de modèles de réseaux profonds permettant effectivement d’accéder à une telle représentation pleinement informative et interprétable dans un objectif de fiabilité du système. Le formalisme probabiliste intrinsèque du VAE nous permet, si nous pouvons remonter à une telle représentation, d’accéder à une analyse d’incertitudes des informations encodées
The Laser Megajoule (LMJ) is a large research device that simulates pressure and temperature conditions similar to those found in stars. During experiments, diagnostics are guided into an experimental chamber for precise positioning. To minimize the risks associated with human error in such an experimental context, the automation of an anti-collision system is envisaged. This involves the design of machine learning tools offering reliable decision levels based on the interpretation of images from cameras positioned in the chamber. Our research focuses on probabilistic generative neural methods, in particular variational auto-encoders (VAEs). The choice of this class of models is linked to the fact that it potentially enables access to a latent space directly linked to the properties of the objects making up the observed scene. The major challenge is to study the design of deep network models that effectively enable access to such a fully informative and interpretable representation, with a view to system reliability. The probabilistic formalism intrinsic to VAE allows us, if we can trace back to such a representation, to access an analysis of the uncertainties of the encoded information

APA, Harvard, Vancouver, ISO, and other styles

7

Roger, Vincent. "Modélisation de l'indice de sévérité du trouble de la parole à l'aide de méthodes d'apprentissage profond : d'une modélisation à partir de quelques exemples à un apprentissage auto-supervisé via une mesure entropique." Thesis, Toulouse 3, 2022. http://www.theses.fr/2022TOU30180.

Full text

Abstract:

Les personnes atteintes de cancers des voies aérodigestives supérieures présentent des difficultés de prononciation après des chirurgies ou des radiothérapies. Il est important pour le praticien de pouvoir disposer d'une mesure reflétant la sévérité de la parole. Pour produire cette mesure, il est communément pratiqué une étude perceptive qui rassemble un groupe de cinq à six experts cliniques. Ce procédé limite l'usage de cette évaluation en pratique. Ainsi, la création d'une mesure automatique, semblable à l'indice de sévérité, permettrait un meilleur suivi des patients en facilitant son obtention. Pour réaliser une telle mesure, nous nous sommes appuyés sur une tâche de lecture, classiquement réalisée. Nous avons utilisé les enregistrements du corpus C2SI-RUGBI qui rassemble plus de 100 personnes. Ce corpus représente environ une heure d'enregistrement pour modéliser l'indice de sévérité. Dans ce travail de doctorat, une revue des méthodes de l'état de l'art sur la reconnaissance de la parole, des émotions et du locuteur utilisant peu de données a été entreprise. Nous avons ensuite essayé de modéliser la sévérité à l'aide d'apprentissage par transfert et par apprentissage profond. Les résultats étant non utilisables, nous nous sommes tourné sur les techniques dites "few shot" (apprentissage à partir de quelques exemples seulement). Ainsi, après de premiers essais prometteurs sur la reconnaissance de phonèmes, nous avons obtenu des résultats prometteurs pour catégoriser la sévérité des patients. Néanmoins, l'exploitation de ces résultats pour une application médicale demanderait des améliorations. Nous avons donc réalisé des projections des données de notre corpus. Comme certaines tranches de scores étaient séparables à l'aide de paramètres acoustiques, nous avons proposé une nouvelle méthode de mesure entropique. Celle-ci est fondée sur des représentations de la parole autoapprise sur le corpus Librispeech : le modèle PASE+, qui est inspiré de l'Inception Score (généralement utilisé en image pour évaluer la qualité des images générées par les modèles). Notre méthode nous permet de produire un score semblable à l'indice de sévérité avec une corrélation de Spearman de 0,87 sur la tâche de lecture du corpus cancer. L'avantage de notre approche est qu'elle ne nécessite pas des données du corpus C2SI-RUGBI pour l'apprentissage. Ainsi, nous pouvons utiliser l'entièreté du corpus pour l'évaluation de notre système. La qualité de nos résultats nous a permis d'envisager une utilisation en milieu clinique à travers une application sur tablette : des tests sont d'ailleurs en cours à l'hôpital Larrey de Toulouse
People with head and neck cancers have speech difficulties after surgery or radiation therapy. It is important for health practitioners to have a measure that reflects the severity of speech. To produce this measure, a perceptual study is commonly performed with a group of five to six clinical experts. This process limits the use of this assessment in practice. Thus, the creation of an automatic measure, similar to the severity index, would allow a better follow-up of the patients by facilitating its obtaining. To realise such a measure, we relied on a reading task, classically performed. We used the recordings of the C2SI-RUGBI corpus, which includes more than 100 people. This corpus represents about one hour of recording to model the severity index. In this PhD work, a review of state-of-the-art methods on speech, emotion and speaker recognition using little data was undertaken. We then attempted to model severity using transfer learning and deep learning. Since the results were not usable, we turned to the so-called "few shot" techniques (learning from only a few examples). Thus, after promising first attempts at phoneme recognition, we obtained promising results for categorising the severity of patients. Nevertheless, the exploitation of these results for a medical application would require improvements. We therefore performed projections of the data from our corpus. As some score slices were separable using acoustic parameters, we proposed a new entropic measurement method. This one is based on self-supervised speech representations on the Librispeech corpus: the PASE+ model, which is inspired by the Inception Score (generally used in image processing to evaluate the quality of images generated by models). Our method allows us to produce a score similar to the severity index with a Spearman correlation of 0.87 on the reading task of the cancer corpus. The advantage of our approach is that it does not require data from the C2SI-RUGBI corpus for training. Thus, we can use the whole corpus for the evaluation of our system. The quality of our results has allowed us to consider a use in a clinical environment through an application on a tablet: tests are underway at the Larrey Hospital in Toulouse

APA, Harvard, Vancouver, ISO, and other styles

8

Sarazin, Tugdual. "Apprentissage massivement distribué dans un environnement Big Data." Thesis, Sorbonne Paris Cité, 2018. http://www.theses.fr/2018USPCD050.

Full text

Abstract:

Lors de ces dernières années les volumes de données analysées par les entreprises et les laboratoires de recherches ont fortement augment´es ouvrant ainsi l’`ere du BigData. Cependant ces données brutes sont fréquemment non catégorisées et difficilement exploitables. Cette thèse vise à améliorer et faciliter le pré-traitement et la comprehension de grands volumes de données en fournissant des algorithmes d’apprentissage non supervisés. La première partie de cette thèse est consacrée à un état de l’art des algorithmes de partitionnement et bi-partitionnement ainsi qu’une présentation des technologies du Big Data. La première contribution de cette thèse est dédiée à la conception de l’algorithme de clustering Self-Organizing Map ou carte auto-organisatrice [Kohonen,2001] dans un environnement Big data. Notre algorithme (SOM-MR) fournit les mêmes avantages que l’algorithme de base, à savoir la création de partition de données et leur visualisation sous la forme de carte. De plus il utilise la plateforme Spark, ce qui lui permet à la fois de traiter de grands volumes de données en peu de temps. De part la popularité de cette plateforme il s’intègre facilement dans dans de nombreux environnements de traitement de données. C’est ce que nous avons démontré dans notre projet “Square Predict” réalisé en partenariat avec l’assurance Axa. Ce projet avait pour objectif de fournir une plateforme d’analyse de données en temps r´eel afin d’évaluer la sévérité d’une catastrophe naturelle ou d’améliorer la connaissance des risques résidentiels. Durant ce projet nous avons démontré l’efficacité de notre algorithme pour analyser et fournir des visualisations à partir de grands volumes de données provenant des réseaux sociaux et d’Open data. La deuxième contribution de cette thèse est consacrée à un nouvel algorithme de BiClustering. Le BiClustering consiste `a réaliser un clustering simultanément sur les observations et les variables. Dans cette contribution nous proposons une nouvelle approche de biclustering bas´e sur l’algorithme self-organizing maps capable de passer `a l’échelle sur de grands volumes de données (BiTM-MR). Pour ce faire il est également basé sur la plateforme des technologies Big data. Mais il apporte davantage d’informations que notre algorithme SOM-MR car en plus de produire des groupes d’observations il associe des variables à ces groupes, formant ainsi des bi-groupes d’observations et variables
In recent years, the amount of data analysed by companies and research laboratories increased strongly, opening the era of BigData. However, these raw data are frequently non-categorized and uneasy to use. This thesis aims to improve and ease the pre-treatment and comprehension of these big amount of data by using unsupervised machine learning algorithms.The first part of this thesis is dedicated to a state-of-the-art of clustering and biclustering algorithms and to an introduction to big data technologies. The first part introduces the conception of clustering Self-Organizing Map algorithm [Kohonen,2001] in big data environment. Our algorithm (SOM-MR) provides the same advantages as the original algorithm, namely the creation of data visualisation map based on data clusters. Moreover, it uses the Spark platform that makes it able to treat a big amount of data in a short time. Thanks to the popularity of this platform, it easily fits in many data mining environments. This is what we demonstrated it in our project \Square Predict" carried out in partnership with Axa insurance. The aim of this project was to provide a real-time data analysing platform in order to estimate the severity of natural disasters or improve residential risks knowledge. Throughout this project, we proved the efficiency of our algorithm through its capacity to analyse and create visualisation out of a big volume of data coming from social networks and open data.The second part of this work is dedicated to a new bi-clustering algorithm. BiClustering consists in making a cluster of observations and variables at the same time. In this contribution we put forward a new approach of bi-clustering based on the self-organizing maps algorithm that can scale on big amounts of data (BiTM-MR). To reach this goal, this algorithm is also based on a the Spark platform. It brings out more information than the SOM-MR algorithm because besides producing observation groups, it also associates variables to these groups,thus creating bi-clusters of variables and observations

APA, Harvard, Vancouver, ISO, and other styles

9

Luce-Vayrac, Pierre. "Open-Ended Affordance Discovery in Robotics Using Pertinent Visual Features." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS670.

Full text

Abstract:

L'analyse de scène est un problème difficile en vision par ordinateur et en robotique. Il s'agit généralement d'un processus d'observation seul, dans lequel le robot acquiert des données sur son environnement par le biais de ses capteurs extéroceptifs puis les traite avec des algorithmes spécifiques (par exemple les réseaux de neurones profonds dans les approches modernes), afin de produire une interprétation de la scène: 'Ceci est une chaise parce que cela ressemble à une chaise'. Pour qu'un robot opère correctement dans son environnement, il doit le comprendre. Il doit lui donner du sens en lien avec ses motivations et ses capacités d'action. Nous pensons que l'analyse de scène requiert une interaction avec l'environnement, dans lequel la perception, l'action et la proprioception sont intégrées. Le travail décrit dans cette thèse explore cette perspective, qui s’inspire des travaux en psychologie et neuroscience montrant le lien étroit qui existe entre action et perception. James J. Gibson a introduit le concept d'affordance en 1977. Il y propose que les animaux ont tendance à percevoir leur environnement en fonction de ce qu'ils peuvent accomplir avec (ce qu'il leur afforde), plutôt qu'en fonction de ses propriétés intrinsèques: 'Ceci est une chaise parce que je peux m'asseoir dessus'. Il existe une variété d'approches qui étudient les affordances en robotique, beaucoup s'accordent pour représenter une affordance comme un triplet (effet, (action, entité)), tel qu'un certain effet soit généré lorsque une certaine action est exercée sur une certaine entité. Cependant, la plupart des auteurs utilisent des descripteurs prédéfinies pour décrire l'environnement. Nous pensons que l'apprentissage d'affordance sur des descripteurs prédéfinies va à l’encontre de leur objectif, en les limitant au sous-espace perceptuel défini par ces descripteurs. De plus, nous affirmons qu'il est impossible de prédéfinir un ensemble de descripteurs suffisamment général pour des environnements ouverts. Dans cette thèse, nous proposons et développons une approche permettant à un robot d’apprendre des affordances en construisant simultanément les descripteurs pertinents de l’environnement. Pour amorcer la découverte d'affordance, nous utilisons une boucle d’interaction classique. Le robot exécute une séquence de commandes motrices (action a) sur une partie de l'environnement ('objet' o) décrit à l'aide d'un ensemble prédéfini de descripteurs initiaux (couleur et taille) et observe le résultat (effet e). En itérant ce processus, un jeu de données d'instances (e, (a, o)) est créé. Cet ensemble de données est ensuite utilisé pour apprendre un modèle prédictif d'affordance. Pour apprendre un nouveau descripteur, la même boucle est employée pour entraîner un réseau de neurones convolutifs (CNN). Les données brutes (images 2D) de l'objet o sont utilisées en tant qu'entrée et l'effet e en tant que sortie attendue. L'action est implicite, un CNN différent est instancié pour chaque action. L'entraînement est auto-supervisée car les données d'interaction sont produites par le robot lui-même. Pour pouvoir prédire correctement les affordances, le réseau doit extraire des caractéristiques visuelles pertinentes dans cet environnement et pour les capacités motrices du robot. Les caractéristiques apprisent par la méthode sont ensuite ajoutées au jeu de descripteurs initial. Pour que l'apprentissage fonctionne en milieu ouvert, nous ajoutons un critère de d'ambiguïté. Si l'agent exécute une même action sur deux objets apparemment similaires (selon l'ensemble de descripteurs actuel), mais n'observe pas le même effet, alors il doit supposer qu'il ne possède pas les descripteurs requis pour distinguer ces objets selon cette action, il doit donc découvrir et apprendre ces nouveaux descripteurs pour réduire cette ambiguïté. Plusieurs expériences sur robot réel ont montré que nous pouvons atteindre des performances prédictives similaires aux approches classiques [...]
Scene understanding is a challenging problem in computer vision and robotics. It is traditionally addressed as an observation only process, in which the robot acquires data on its environment through its exteroceptive sensors, and processes it with specific algorithms (using for example Deep Neural Nets in modern approaches), to produce an interpretation: 'This is a chair because this looks like a chair'. For a robot to properly operate in its environment it needs to understand it. It needs to make sense of it in relation to its motivations and to its action capacities. We believe that scene understanding requires interaction with the environment, wherein perception, action and proprioception are integrated. The work described in this thesis explores this avenue which is inspired by work in Psychology and Neuroscience showing the strong link between action and perception. The concept of affordance has been introduced by James J. Gibson in 1977. It states that animals tend to perceive their environment through what they can accomplish with it (what it affords them), rather than solely through its intrinsic properties: 'This is a chair because I can sit on it.'. There is a variety of approaches studying affordances in robotics, largely agreeing on representing an affordance as a triplet (effect, (action, entity)), such that the effect effect is generated when action action is exerted on entity entity. However most authors use predefined features to describe the environment. We argue that building affordances on predefined features is actually defeating their purpose, by limiting them to the perceptual subspace generated by these features. Furthermore we affirm the impracticability of predefining a set of features general enough to describe entities in open-ended environments. In this thesis, we propose and develop an approach to enable a robot to learn affordances while simultaneously building relevant features describing the environment. To bootstrap affordance discovery we use a classical interaction loop. The robot executes a sequence of motor controls (action a) on a part of the environment ('object' o) described using a predefined set of initial features (color and size) and observes the result (effect e). By repeating this process, a dataset of (e, (a, o)) instances is built. This dataset is then used to train a predictive model of the affordance. To learn a new feature, the same loop is used, but instead of using a predefined set of descriptors of o we use a deep convolutional neural network (CNN). The raw data (2D images) of o is used as input and the effect e as expected output. The action is implicit as a different CNN is trained for each specific action. The training is self-supervised as the interaction data is produced by the robot itself. In order to correctly predict the affordance, the network must extract features which are directly relevant to the environment and the motor capabilities of the robot. Any feature learned by the method can then be added to the initial descriptors set. To achieve open-ended learning, whenever the agent executes the same action on two apparently similar objects (regarding a currently used set of features), but does not observe the same effect, it has to assume that it does not possess the relevant features to distinguish those objects in regard to this action, hence it needs to discover and learn these new features to reduce ambiguity. The robot will use the same approach to enrich its descriptor set. Several experiments on a real robotic setup showed that we can reach predictive performance similar to classical approaches which use predefined descriptors, while avoiding their limitation

APA, Harvard, Vancouver, ISO, and other styles

10

Chareyre, Maxime. "Apprentissage non-supervisé pour la découverte de propriétés d'objets par découplage entre interaction et interprétation." Electronic Thesis or Diss., Université Clermont Auvergne (2021-...), 2023. http://www.theses.fr/2023UCFA0122.

Full text

Abstract:

Les robots sont de plus en plus utilisés pour réaliser des tâches dans des environnements contrôlés. Leur utilisation en milieu ouvert est cependant encore confrontée à des difficultés. L'agent robotique est en effet susceptible de rencontrer des objets dont il ignore le comportement et la fonction. Dans certains cas, il doit interagir avec ces éléments pour réaliser sa mission en les collectant ou en les déplaçant mais, sans la connaissance de leurs propriétés dynamiques il n'est pas possible de mettre en place une stratégie de résolution de la mission efficace.Dans cette thèse, nous présentons une méthode visant à apprendre à un robot autonome une stratégie d'interaction physique avec des objets inconnus, sans aucune connaissance a priori, l'objectif étant d'extraire de l'information sur un maximum de propriétés physiques de l'objet à partir des interactions observées par ses capteurs. Les méthodes existantes pour la caractérisation d'objets par interactions physiques ne répondent pas entièrement à ces critères. En effet, les interactions établies ne permettent qu'une représentation implicite de la dynamique des objets, nécessitant une supervision pour identifier leurs propriétés. D'autre part, la solution proposée s'appuie sur des scénarios peu réalistes sans agent. Notre approche se distingue de l'état de l'art en proposant une méthode générique pour l'apprentissage de l'interaction, indépendante de l'objet et de ses propriétés, et pouvant donc être découplée de la phase de leurs prédictions. Cela permet notamment de mener à un pipeline global totalement non-supervisé.Dans une première phase, nous proposons d'apprendre une stratégie d'interaction avec l'objet via une méthode d'apprentissage par renforcement non-supervisée, en utilisant un signal de motivation intrinsèque qui repose sur l'idée de maximisation des variations d'un vecteur d'état de l'objet. Le but est d'obtenir une série d'interactions contenant des informations fortement corrélées aux propriétés physiques de l'objet. Cette méthode a été testée sur un robot simulé interagissant par poussée et a permis d'identifier avec précision des propriétés telles que la masse, la forme de l'objet et les frottements.Dans une seconde phase, nous réalisons l'hypothèse que les vraies propriétés physiques définissent un espace latent explicatif des comportements de l'objet et que cet espace peut être identifié à partir des observations recueillies grâce aux interactions de l'agent. Nous mettons en place une tâche de prédiction auto-supervisée dans laquelle nous adaptons une architecture de l'état de l'art pour construire cet espace latent. Nos simulations confirment que la combinaison du modèle comportemental avec cette architecture permet de faire émerger une représentation des propriétés de l'objet dont les composantes principales s'avèrent fortement corrélées avec les propriétés physiques de l'objet.Les propriétés des objets étant extraites, l'agent peut les exploiter pour améliorer son efficacité dans des tâches impliquant ces objets. Nous concluons cette étude par une mise en avant du gain de performance de l'agent au travers d'un entraînement via l'apprentissage par renforcement sur une tâche simplifiée de repositionnement d'objet où les propriétés sont parfaitement connues.L'intégralité du travail effectué en simulation confirme l'efficacité d'une méthode novatrice visant à découvrir en autonomie les propriétés physiques d'un objet au travers d'interactions physiques d'un robot. Les perspectives d'extension de ces travaux concernent le transfert vers un robot réel en milieu encombré
Robots are increasingly used to achieve tasks in controlled environments. However, their use in open environments is still fraught with difficulties. Robotic agents are likely to encounter objects whose behaviour and function they are unaware of. In some cases, it must interact with these elements to carry out its mission by collecting or moving them, but without knowledge of their dynamic properties it is not possible to implement an effective strategy for resolving the mission.In this thesis, we present a method for teaching an autonomous robot a physical interaction strategy with unknown objects, without any a priori knowledge, the aim being to extract information about as many of the object's physical properties as possible from the interactions observed by its sensors. Existing methods for characterising objects through physical interactions do not fully satisfy these criteria. Indeed, the interactions established only provide an implicit representation of the object's dynamics, requiring supervision to identify their properties. Furthermore, the proposed solution is based on unrealistic scenarios without an agent. Our approach differs from the state of the art by proposing a generic method for learning interaction that is independent of the object and its properties, and can therefore be decoupled from the prediction phase. In particular, this leads to a completely unsupervised global pipeline.In the first phase, we propose to learn an interaction strategy with the object via an unsupervised reinforcement learning method, using an intrinsic motivation signal based on the idea of maximising variations in a state vector of the object. The aim is to obtain a set of interactions containing information that is highly correlated with the object's physical properties. This method has been tested on a simulated robot interacting by pushing and has enabled properties such as the object's mass, shape and friction to be accurately identified.In a second phase, we make the assumption that the true physical properties define a latent space that explains the object's behaviours and that this space can be identified from observations collected through the agent's interactions. We set up a self-supervised prediction task in which we adapt a state-of-the-art architecture to create this latent space. Our simulations confirm that combining the behavioural model with this architecture leads to the emergence of a representation of the object's properties whose principal components are shown to be strongly correlated with the object's physical properties.Once the properties of the objects have been extracted, the agent can use them to improve its efficiency in tasks involving these objects. We conclude this study by highlighting the performance gains achieved by the agent through training via reinforcement learning on a simplified object repositioning task where the properties are perfectly known.All the work carried out in simulation confirms the effectiveness of an innovative method aimed at autonomously discovering the physical properties of an object through the physical interactions of a robot. The prospects for extending this work involve transferring it to a real robot in a cluttered environment

APA, Harvard, Vancouver, ISO, and other styles

11

Schutz, Georges. "Adaptations et applications de modèles mixtes de réseaux de neurones à un processus industriel." Phd thesis, Université Henri Poincaré - Nancy I, 2006. http://tel.archives-ouvertes.fr/tel-00115770.

Full text

Abstract:

Cette étude consiste à étudier l'apport de réseaux de neurones
artificiels pour améliorer le contrôle de processus industriels
complexes, caractérisés en particulier par leur aspect temporel.
Les motivations principales pour traiter des séries temporelles
sont la réduction du volume de données, l'indexation pour la
recherche de similarités, la localisation de séquences,
l'extraction de connaissances (data mining) ou encore la
prédiction.

Le processus industriel choisi est un four à arc
électrique pour la production d'acier liquide au Luxembourg. Notre
approche est un concept de contrôle prédictif et se base sur des
méthodes d'apprentissage non-supervisé dans le but d'une
extraction de connaissances.

Notre méthode de codage se base sur
des formes primitives qui composent les signaux. Ces formes,
composant un alphabet de codage, sont extraites par une méthode
non-supervisée, les cartes auto-organisatrices de Kohonen (SOM).
Une méthode de validation des alphabets de codage accompagne
l'approche.

Un sujet important abordé durant ces recherches est
la similarité de séries temporelles. La méthode proposée est
non-supervisée et intègre la capacité de traiter des séquences de
tailles variées.

APA, Harvard, Vancouver, ISO, and other styles

12

Belhadj, Djedjiga. "Multi-GAT semi-supervisé pour l’extraction d’informations et son adaptation au chiffrement homomorphe." Electronic Thesis or Diss., Université de Lorraine, 2024. http://www.theses.fr/2024LORR0023.

Full text

Abstract:

Cette thèse est réalisée dans le cadre du projet BPI DeepTech, en collaboration avec la société Fair&Smart, veillant principalement à la protection des données personnelles conformément au Règlement Général sur la Protection des Données (RGPD). Dans ce contexte, nous avons proposé un modèle neuronal profond pour l'extraction d'informations dans les documents administratifs semi-structurés (DSSs). En raison du manque de données d'entraînement publiques, nous avons proposé un générateur artificiel de DSSs qui peut générer plusieurs classes de documents avec une large variation de contenu et de mise en page. Les documents sont générés à l'aide de variables aléatoires permettant de gérer le contenu et la mise en page en respectant des contraintes visant à garantir leur proximité avec des documents réels. Des métriques ont été introduites pour évaluer la diversité des DSSs générés en termes de contenu et de mise en page. Les résultats de l'évaluation ont montré que les jeux de données générés pour trois types de DSSs (fiches de paie, tickets de caisse et factures) présentent un degré élevé de diversité, ce qui permet d'éviter le sur-apprentissage lors de l'entraînement des systèmes d'extraction d'informations. En s'appuyant sur le format spécifique des DSSs, constitué de paires de mots (mots-clés, informations) situés dans des voisinages proches spatialement, le document est modélisé sous forme de graphe où les nœuds représentent les mots et les arcs, les relations de voisinage. Le graphe est incorporé dans un réseau d'attention à graphe (GAT) multi-couches (Multi-GAT). Celui-ci applique le mécanisme d'attention multi-têtes permettant d'apprendre l'importance des voisins de chaque mot pour mieux le classer. Une première version de ce modèle a été utilisée en mode supervisé et a obtenu un score F1 de 96 % sur deux jeux de données de factures et de fiches de paie générées, et de 89 % sur un ensemble de tickets de caisse réels (SROIE). Nous avons ensuite enrichi le Multi-GAT avec un plongement multimodal de l'information au niveau des mots (avec des composantes textuelle, visuelle et positionnelle), et l'avons associé à un auto-encodeur variationnel à graphe (VGAE). Ce modèle fonctionne en mode semi-supervisé, capable d'apprendre à partir des données annotées et non annotées simultanément. Pour optimiser au mieux la classification des nœuds du graphe, nous avons proposé un semi-VGAE dont l'encodeur partage ses premières couches avec le classifieur Multi-GAT. Cette optimisation est encore renforcée par la proposition d'une fonction de perte VGAE gérée par la perte de classification. En utilisant une petite base de données non annotées, nous avons pu améliorer de plus de 3 % le score F1 obtenu sur un ensemble de factures générées. Destiné à fonctionner dans un environnement protégé, nous avons adapté l'architecture du modèle pour son chiffrement homomorphe. Nous avons étudié une méthode de réduction de la dimensionnalité du modèle Multi-GAT. Ensuite, nous avons proposé une approche d'approximation polynomiale des fonctions non-linéaires dans le modèle. Pour réduire la dimension du modèle, nous avons proposé une méthode de fusion de caractéristiques multimodales qui nécessite peu de paramètres supplémentaires et qui réduit les dimensions du modèle tout en améliorant ses performances. Pour l'adaptation au chiffrement, nous avons étudié des approximations polynomiales de degrés faibles aux fonctions non-linéaires avec une utilisation des techniques de distillation de connaissance et de fine tuning pour mieux adapter le modèle aux nouvelles approximations. Nous avons pu minimiser la perte lors de l'approximation d'environ 3 % pour deux jeux de données de factures ainsi qu'un jeu de données de fiches de paie et de 5 % pour SROIE
This thesis is being carried out as part of the BPI DeepTech project, in collaboration with the company Fair&Smart, primarily looking after the protection of personal data in accordance with the General Data Protection Regulation (RGPD). In this context, we have proposed a deep neural model for extracting information in semi-structured administrative documents (SSDs). Due to the lack of public training datasets, we have proposed an artificial generator of SSDs that can generate several classes of documents with a wide variation in content and layout. Documents are generated using random variables to manage content and layout, while respecting constraints aimed at ensuring their similarity to real documents. Metrics were introduced to evaluate the content and layout diversity of the generated SSDs. The results of the evaluation have shown that the generated datasets for three SSD types (payslips, receipts and invoices) present a high diversity level, thus avoiding overfitting when training the information extraction systems. Based on the specific format of SSDs, consisting specifically of word pairs (keywords-information) located in spatially close neighborhoods, the document is modeled as a graph where nodes represent words and edges, neighborhood connections. The graph is fed into a multi-layer graph attention network (Multi-GAT). The latter applies the multi-head attention mechanism to learn the importance of each word's neighbors in order to better classify it. A first version of this model was used in supervised mode and obtained an F1 score of 96% on two generated invoice and payslip datasets, and 89% on a real receipt dataset (SROIE). We then enriched the multi-GAT with multimodal embedding of word-level information (textual, visual and positional), and combined it with a variational graph auto-encoder (VGAE). This model operates in semi-supervised mode, being able to learn on both labeled and unlabeled data simultaneously. To further optimize the graph node classification, we have proposed a semi-VGAE whose encoder shares its first layers with the multi-GAT classifier. This is also reinforced by the proposal of a VGAE loss function managed by the classification loss. Using a small unlabeled dataset, we were able to improve the F1 score obtained on a generated invoice dataset by over 3%. Intended to operate in a protected environment, we have adapted the architecture of the model to suit its homomorphic encryption. We studied a method of dimensionality reduction of the Multi-GAT model. We then proposed a polynomial approximation approach for the non-linear functions in the model. To reduce the dimensionality of the model, we proposed a multimodal feature fusion method that requires few additional parameters and reduces the dimensions of the model while improving its performance. For the encryption adaptation, we studied low-degree polynomial approximations of nonlinear functions, using knowledge distillation and fine-tuning techniques to better adapt the model to the new approximations. We were able to minimize the approximation loss by around 3% on two invoice datasets as well as one payslip dataset and by 5% on SROIE

APA, Harvard, Vancouver, ISO, and other styles

13

Khacef, Lyes. "Exploration du calcul bio-inspiré avec des architectures neuromorphiques auto-organisées." Thesis, Université Côte d'Azur, 2020. http://www.theses.fr/2020COAZ4085.

Full text

Abstract:

La plasticité corticale du cerveau est l'une des principales caractéristiques qui nous permettent d'apprendre et de nous adapter à notre environnement. En effet, le cortex cérébral a la capacité de s'auto-organiser grâce à deux formes de plasticité : la plasticité structurelle qui crée ou coupe les connexions synaptiques entre les neurones, et la plasticité synaptique qui modifie la force des connexions synaptiques. Ces mécanismes sont très probablement à la base d'une caractéristique extrêmement intéressante du développement du cerveau humain : l'association multimodale. Malgré la diversité des modalités sensorielles, comme la vue, le son et le toucher, le cerveau arrive aux mêmes concepts. De plus, les observations biologiques montrent qu'une modalité peut activer la représentation interne d'une autre modalité lorsque les deux sont corrélées. Pour modéliser un tel comportement, Edelman et Damasio ont proposé respectivement la réentrance et la zone de convergence/divergence où les communications neurales bidirectionnelles peuvent conduire à la fois à la fusion multimodale (convergence) et à l'activation intermodale (divergence). Néanmoins, ces cadres théoriques ne fournissent pas de modèle de calcul au niveau des neurones.L'objectif de cette thèse est d'abord d'explorer les fondements de l'auto-organisat-ion inspirée par le cerveau en termes (1) d'apprentissage multimodal non supervisé, (2) de calcul massivement parallèle, distribué et local, et (3) de traitement efficace sur le plan énergétique. Sur la base de ces lignes directrices et d'une étude des modèles neuronaux de la littérature, nous choisissons la carte auto-organisée (SOM) proposée par Kohonen comme composant principal de notre système. Nous introduisons la grille itérative, une architecture entièrement distribuée avec une connectivité locale entre les neurones matériels qui permet un calcul cellulaire dans le SOM, et donc un système qui passe à l'échelle en termes de temps de traitement et de connectivité.Ensuite, nous évaluons la performance du SOM dans le problème de l'apprentissage non supervisé post-étiqueté : aucun label n'est disponible pendant l'entrainement, puis très peu de labels sont disponibles pour étiqueter les neurones du SOM. Nous proposons et comparons différentes méthodes d'étiquetage afin de minimiser le nombre d'étiquettes tout en conservant la meilleure précision. Nous comparons nos performances à une approche différente utilisant des réseaux neuronaux à spike (SNN).Ensuite, nous proposons d'améliorer les performances du SOM en utilisant des caractéristiques extraites au lieu de données brutes. Nous menons une étude comparative sur la classification du SOM avec extraction non-supervisée de caractéristiques à partir de la base de données MNIST en utilisant deux approches différentes : une approche d'apprentissage machine avec des auto-encodeurs convolutionnels et une approche bio-inspirée avec des SNN.Pour prouver la capacité du SOM à classifier des données plus complexes, nous utilisons l'apprentissage par transfert dvec la base de données mini-ImageNet.Enfin, nous passons au mécanisme d'association multimodale. Nous construisons le modèle bio-inspiré ReSOM basé sur les principes de réentrance en utilisant les SOMs et l'apprentissage Hebbien. Nous proposons et comparons différentes méthodes de calcul pour l'apprentissage et l'inférence multimodale non supervisée, puis nous quantifions le gain des mécanismes de convergence et de divergence sur trois bases de données multimodales. Le mécanisme de divergence est utilisé pour étiqueter une modalité à partir de l'autre, tandis que le mécanisme de convergence est utilisé pour améliorer la classification globale du système. Nous comparons nos résultats avec des SNNs, puis nous montrons le gain de la plasticité dite matérielle induite par notre modèle, où la topologie du système n'est pas fixée par l'utilisateur mais apprise au fil de l'expérience du système par l'auto-organisation
The brain's cortical plasticity is one of the main features that enable our capability to learn and adapt in our environment. Indeed, the cerebral cortex has the ability to self-organize itself through two distinct forms of plasticity: the structural plasticity that creates (sprouting) or cuts (pruning) synaptic connections between neurons, and the synaptic plasticity that modifies the synaptic connections strength. These mechanisms are very likely at the basis of an extremely interesting characteristic of the human brain development: the multimodal association. In spite of the diversity of the sensory modalities, like sight, sound and touch, the brain arrives at the same concepts. Moreover, biological observations show that one modality can activate the internal representation of another modality when both are correlated. To model such a behavior, Edelman and Damasio proposed respectively the Reentry and the Convergence Divergence Zone frameworks where bi-directional neural communications can lead to both multimodal fusion (convergence) and inter-modal activation (divergence). Nevertheless, these theoretical frameworks do not provide a computational model at the neuron level.The objective of this thesis is first to explore the foundations of brain-inspired self-organization in terms of (1) multimodal unsupervised learning, (2) massively parallel, distributed and local computing, and (3) extremely energy-efficient processing. Based on these guidelines and a review of the neural models in the literature, we choose the Self-Organizing Map (SOM) proposed by Kohonen as the main component of our system. We introduce the Iterative Grid, a fully distributed architecture with local connectivity amongst hardware neurons which enables cellular computing in the SOM, and thus a scalable system is terms of processing time and connectivity complexity.Then, we assess the performance of the SOM in the problem of post-labeled unsupervised learning: no label is available during training, then very few labels are available for naming the SOM neurons. We propose and compare different labeling methods so that we minimize the number of labels while keeping the best accuracy. We compare our performance to a different approach using Spiking Neural Networks (SNNs) with Spike Timing Dependant Plasticity (STDP) learning.Next, we propose to improve the SOM performance by using extracted features instead of raw data. We conduct a comparative study on the SOM classification accuracy with unsupervised feature extraction from the MNIST dataset using two different approaches: a machine learning approach with Sparse Convolutional Auto-Encoders using gradient-based learning, and a neuroscience approach with SNNs using STDP learning.To prove the SOM ability to handle more complex datasets, we use transfer learning in the mini-ImageNet few shot classification benchmark to exploit a Wide Residual Network backbone trained on a base dataset as a feature extractor, then we use the SOM to classify the obtained features from the target dataset.Finally, we move into the multimodal association mechanism. We build the Reentrant SOM (ReSOM), a brain-inspired neural system based on the Reentry principles using SOMs and Hebbian-like learning. We propose and compare different computational methods for multimodal unsupervised learning and inference, then quantify the gain of both convergence and divergence mechanisms on three multimodal datasets. The divergence mechanism is used to label one modality based on the other, while the convergence mechanism is used to improve the overall accuracy of the system. We compare our results to SNNs with STDP learning and different fusion strategies, then we show the gain of the so-called hardware plasticity induced by our model, where the system's topology is not fixed by the user but learned along the system's experience through self-organization

APA, Harvard, Vancouver, ISO, and other styles

14

Li, Chuyuan. "Facing Data Scarcity in Dialogues for Discourse Structure Discovery and Prediction." Electronic Thesis or Diss., Université de Lorraine, 2023. http://www.theses.fr/2023LORR0107.

Full text

Abstract:

Un document est plus qu'une combinaison aléatoire de phrases. Il s'agit plutôt d'une entité cohésive où les phrases interagissent les unes avec les autres pour créer une structure cohérente et transmettre des objectifs de communication spécifiques. Le domaine du discours examine l'organisation des phrases au sein d'un document, dans le but de révéler les informations structurelles sous-jacentes. L'analyse du discours joue un rôle crucial dans le Traitement Automatique des Langues (TAL) et a démontré son utilité dans diverses applications telles que le résumé et la question-réponse. Les efforts de recherche existants se sont concentrés sur l'extraction automatique des structures du discours à travers des tâches telles que l'identification des relations du discours et l'analyse du discours (discourse parsing). Cependant, ces méthodes axées sur les données ont été principalement appliquées à des scénarios de monologues, ce qui a conduit à une disponibilité et une généralisation limitées des analyseurs de discours pour les dialogues. Dans cette thèse, nous abordons ce problème difficile en raison de la rareté des données annotées : l'analyse du discours dans les dialogues. Nous abordons l'analyse du discours selon deux axes de recherche : la "découverte des traits du discours" et la "prédiction de la structure du discours". Dans la première ligne de recherche, nous menons des expériences pour étudier les marqueurs linguistiques, à la fois lexicaux et non lexicaux, dans les tâches de classification de texte. Nous nous intéressons particulièrement au contexte de l'identification des troubles mentaux car il reflète un scénario réaliste. Pour résoudre le problème de la rareté des données, nous proposons des techniques pour améliorer la représentation des données et l'ingénierie des traits. Nos résultats démontrent que les traits non lexicaux et au niveau du discours (même s'ils sont surfaciques) sont des indicateurs fiables pour développer des classificateurs plus généraux et plus robustes. Dans le deuxième axe de recherche, notre objectif est de prédire directement la structure du discours d'un document. Nous adoptons le cadre de la théorie Segmented Discourse Representation Theory (SDRT), qui représente un document sous la forme d'un graphe. L'extraction de cette structure graphique à l'aide de techniques d'apprentissage automatique est communément appelée "discourse parsing". En s'inspirant des études récentes portant sur le fonctionnement interne des modèles basés sur Transformer ("BERTology"), nous exploitons les informations discursives encodées dans les modèles de langage pré-entraînés (PLMs) tels que les Bidirectional Encoder Representations from Transformers (modèle BERT) et proposons des méthodes d'extraction innovantes qui nécessitent un minimum de supervision. Notre approche de l'analyse du discours comporte deux étapes : tout d'abord, nous prédisons la structure du discours, puis nous identifions les relations au sein de la structure. Ce processus en deux étapes permet une analyse complète des performances de l'analyseur à chaque étape. En utilisant des stratégies d'apprentissage auto-supervisé, notre analyseur obtient des résultats encourageants dans l'analyse complète du discours. Nous effectuons des analyses approfondies pour évaluer les performances de l'analyseur dans différentes structures de discours et proposons des pistes d'amélioration pour l'avenir
A document is more than a random combination of sentences. It is, instead, a cohesive entity where sentences interact with each other to create a coherent structure and convey specific communicative goals. The field of discourse examines the sentence organization within a document, aiming to reveal its underlying structural information. Discourse analysis plays a crucial role in Natural Language Processing (NLP) and has demonstrated its usefulness in various downstream applications like summarization and question answering. Existing research efforts have focused on automatically extracting discourse structures through tasks such as discourse relation identification and discourse parsing. However, these data-driven methods have predominantly been applied to monologue scenarios, leading to limited availability and generalizability of discourse parsers for dialogues. In this thesis, we address this challenging problem: discourse analysis in dialogues, which presents unique difficulties due to the scarcity of suitable annotated data.We approach discourse analysis along two research lines: “Discourse Feature Discovery” and “Discourse Structure Prediction”. In the first research line, we conduct experiments to investigate linguistic markers, both lexical and non-lexical, in text classification tasks. We are particularly interested in the context of mental disorder identification since it reflects a realistic scenario. To address the issue of data sparsity, we propose techniques for enhancing data representation and feature engineering. Our results demonstrate that non-lexical and discourse-level (even though shallow) features are reliable indicators in developing more general and robust classifiers. In the second research line, our objective is to directly predict the discourse structure of a given document. We adopt the Segmented Discourse Representation Theory (SDRT) framework, which represents a document as a graph. The task of extracting this graph-like structure using machine learning techniques is commonly known as discourse parsing. Taking inspiration from recent studies that investigate the inner workings of Transformer-based models (“BERTology”'), we leverage discourse information encoded in Pre-trained Language Models (PLMs) such as Bidirectional Encoder Representations from Transformers (BERT) and propose innovative extraction methods that require minimal supervision. Our discourse parsing approach involves two steps: first, we predict the discourse structure, and then we identify the relations within the structure. This two-stage process allows for a comprehensive analysis of the parser's performance at each stage. Using self-supervised learning strategies, our parser achieves encouraging results for the full parsing. We conduct extensive analyses to evaluate the parser's performance across different discourse structures and propose directions for future improvements

APA, Harvard, Vancouver, ISO, and other styles

15

Mehr, Éloi. "Unsupervised Learning of 3D Shape Spaces for 3D Modeling." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS566.

Full text

Abstract:

Bien que les données 3D soient de plus en plus populaires, en particulier avec la démocratisation des expériences de réalité virtuelle et augmentée, il reste très difficile de manipuler une forme 3D, même pour des designers ou des experts. Partant d’une base de données d’instances 3D d’une ou plusieurs catégories d’objets, nous voulons apprendre la variété des formes plausibles en vue de développer de nouveaux outils intelligents de modélisation et d’édition 3D. Cependant, cette variété est souvent bien plus complexe comparée au domaine 2D. En effet, les surfaces 3D peuvent être représentées en utilisant plusieurs plongements distincts, et peuvent aussi exhiber des alignements ou des topologies différentes. Dans cette thèse, nous étudions la variété des formes plausibles à la lumière des défis évoqués précédemment, en approfondissant trois points de vue différents. Tout d'abord, nous considérons la variété comme un espace quotient, dans le but d’apprendre la géométrie intrinsèque des formes à partir d’une base de données où les modèles 3D ne sont pas co-alignés. Ensuite, nous supposons que la variété est non connexe, ce qui aboutit à un nouveau modèle d’apprentissage profond capable d’automatiquement partitionner et apprendre les formes selon leur typologie. Enfin, nous étudions la conversion d’une entrée 3D non structurée vers une géométrie exacte, représentée comme un arbre structuré de primitives solides continues
Even though 3D data is becoming increasingly more popular, especially with the democratization of virtual and augmented experiences, it remains very difficult to manipulate a 3D shape, even for designers or experts. Given a database containing 3D instances of one or several categories of objects, we want to learn the manifold of plausible shapes in order to develop new intelligent 3D modeling and editing tools. However, this manifold is often much more complex compared to the 2D domain. Indeed, 3D surfaces can be represented using various embeddings, and may also exhibit different alignments and topologies. In this thesis we study the manifold of plausible shapes in the light of the aforementioned challenges, by deepening three different points of view. First of all, we consider the manifold as a quotient space, in order to learn the shapes’ intrinsic geometry from a dataset where the 3D models are not co-aligned. Then, we assume that the manifold is disconnected, which leads to a new deep learning model that is able to automatically cluster and learn the shapes according to their typology. Finally, we study the conversion of an unstructured 3D input to an exact geometry, represented as a structured tree of continuous solid primitives

APA, Harvard, Vancouver, ISO, and other styles

16

Banville, Hubert. "Enabling real-world EEG applications with deep learning." Electronic Thesis or Diss., université Paris-Saclay, 2022. http://www.theses.fr/2022UPASG005.

Full text

Abstract:

Au cours des dernières décennies, les avancées révolutionnaires en neuroimagerie ont permis de considérablement améliorer notre compréhension du cerveau. Aujourd'hui, avec la disponibilité croissante des dispositifs personnels de neuroimagerie portables, tels que l'EEG mobile " à bas prix ", une nouvelle ère s’annonce où cette technologie n'est plus limitée aux laboratoires de recherche ou aux contextes cliniques. Les applications de l’EEG dans le " monde réel " présentent cependant leur lot de défis, de la rareté des données étiquetées à la qualité imprévisible des signaux et leur résolution spatiale limitée. Dans cette thèse, nous nous appuyons sur le domaine de l'apprentissage profond afin de transformer cette modalité d'imagerie cérébrale centenaire, purement clinique et axée sur la recherche, en une technologie pratique qui peut bénéficier à l'individu au quotidien. Tout d'abord, nous étudions comment les données d’EEG non étiquetées peuvent être mises à profit via l'apprentissage auto-supervisé pour améliorer la performance d’algorithmes d'apprentissage entraînés sur des tâches cliniques courantes. Nous présentons trois approches auto-supervisées qui s'appuient sur la structure temporelle des données elles-mêmes, plutôt que sur des étiquettes souvent difficiles à obtenir, pour apprendre des représentations pertinentes aux tâches cliniques étudiées. Par le biais d'expériences sur des ensembles de données à grande échelle d'enregistrements de sommeil et d’examens neurologiques, nous démontrons l'importance des représentations apprises, et révélons comment les données non étiquetées peuvent améliorer la performance d’algorithmes dans un scénario semi-supervisé. Ensuite, nous explorons des techniques pouvant assurer la robustesse des réseaux de neurones aux fortes sources de bruit souvent présentes dans l’EEG hors laboratoire. Nous présentons le Filtrage Spatial Dynamique, un mécanisme attentionnel qui permet à un réseau de dynamiquement concentrer son traitement sur les canaux EEG les plus instructifs tout en minimisant l’apport des canaux corrompus. Des expériences sur des ensembles de données à grande échelle, ainsi que des données du monde réel démontrent qu'avec l'EEG à peu de canaux, notre module attentionnel gère mieux la corruption qu'une approche automatisée de traitement du bruit, et que les cartes d'attention prédites reflètent le fonctionnement du réseau de neurones. Enfin, nous explorons l'utilisation d'étiquettes faibles afin de développer un biomarqueur de la santé neurophysiologique à partir d'EEG collecté dans le monde réel. Pour ce faire, nous transposons à ces données d'EEG le principe d'âge cérébral, originellement développé avec l'imagerie par résonance magnétique en laboratoire et en clinique. À travers l'EEG de plus d'un millier d'individus enregistré pendant un exercice d'attention focalisée ou le sommeil nocturne, nous démontrons non seulement que l'âge peut être prédit à partir de l'EEG portable, mais aussi que ces prédictions encodent des informations contenues dans des biomarqueurs de santé cérébrale, mais absentes dans l'âge chronologique. Dans l’ensemble, cette thèse franchit un pas de plus vers l’utilisation de l’EEG pour le suivi neurophysiologique en dehors des contextes de recherche et cliniques traditionnels, et ouvre la porte à de nouvelles applications plus flexibles de cette technologie
Our understanding of the brain has improved considerably in the last decades, thanks to groundbreaking advances in the field of neuroimaging. Now, with the invention and wider availability of personal wearable neuroimaging devices, such as low-cost mobile EEG, we have entered an era in which neuroimaging is no longer constrained to traditional research labs or clinics. "Real-world'' EEG comes with its own set of challenges, though, ranging from a scarcity of labelled data to unpredictable signal quality and limited spatial resolution. In this thesis, we draw on the field of deep learning to help transform this century-old brain imaging modality from a purely clinical- and research-focused tool, to a practical technology that can benefit individuals in their day-to-day life. First, we study how unlabelled EEG data can be utilized to gain insights and improve performance on common clinical learning tasks using self-supervised learning. We present three such self-supervised approaches that rely on the temporal structure of the data itself, rather than onerously collected labels, to learn clinically-relevant representations. Through experiments on large-scale datasets of sleep and neurological screening recordings, we demonstrate the significance of the learned representations, and show how unlabelled data can help boost performance in a semi-supervised scenario. Next, we explore ways to ensure neural networks are robust to the strong sources of noise often found in out-of-the-lab EEG recordings. Specifically, we present Dynamic Spatial Filtering, an attention mechanism module that allows a network to dynamically focus its processing on the most informative EEG channels while de-emphasizing any corrupted ones. Experiments on large-scale datasets and real-world data demonstrate that, on sparse EEG, the proposed attention block handles strong corruption better than an automated noise handling approach, and that the predicted attention maps can be interpreted to inspect the functioning of the neural network. Finally, we investigate how weak labels can be used to develop a biomarker of neurophysiological health from real-world EEG. We translate the brain age framework, originally developed using lab and clinic-based magnetic resonance imaging, to real-world EEG data. Using recordings from more than a thousand individuals performing a focused attention exercise or sleeping overnight, we show not only that age can be predicted from wearable EEG, but also that age predictions encode information contained in well-known brain health biomarkers, but not in chronological age. Overall, this thesis brings us a step closer to harnessing EEG for neurophysiological monitoring outside of traditional research and clinical contexts, and opens the door to new and more flexible applications of this technology

APA, Harvard, Vancouver, ISO, and other styles

17

Chéhab, L'Émir Omar. "Advances in Self-Supervised Learning : applications to neuroscience and sample-efficiency." Electronic Thesis or Diss., université Paris-Saclay, 2023. http://www.theses.fr/2023UPASG079.

Full text

Abstract:

L'apprentissage auto-supervisé a gagné en popularité en tant que méthode d'apprentissage à partir de données non annotées. Il s'agit essentiellement de créer puis de résoudre un problème de prédiction qui utilise les données; par exemple, de retrouver l'ordre de données qui ont été mélangées. Ces dernières années, cette approche a été utilisée avec succès pour entraîner des réseaux de neurones qui extraient des représentations utiles des données, le tout sans aucune annotation. Cependant, notre compréhension de ce qui est appris et de la qualité de cet apprentissage est limitée. Ce document éclaire ces deux aspects de l'apprentissage auto-supervisé.Empiriquement, nous évaluons ce qui est appris en résolvant des tâches auto-supervisés. Nous spécialisons des tâches de prédiction lorsque les données sont des enregistrements d'activité cérébrale, par magnétoencéphalographie (MEG) ou électroencephalographie (EEG). Ces tâches partagent un objectif commun: reconnaître la structure temporelle dans les ondes cérébrales. Nos résultats montrent que les représentations apprises en résolvant ces tâches-là comprennent des informations neurophysiologiques, cognitives et cliniques, interprétables.Théoriquement, nous explorons également la question de la qualité de l'appretissage, spécifiquement pour les tâches de prédiction qui peuvent s'écrire comme un problème de classification binaire. Nous poursuivons une trâme de recherche qui utilise des problèmes de classification binaire pour faire de l'inférence statistique, alors que cela peut nécessiter de sacrifier une notion d'efficacité statistique pour une autre notion d'efficacité computationnelle. Nos contributions visent à améliorer l'efficacité statistique. Nous analysons théoriquement l'erreur d'estimation statistique et trouvons des situations lorsque qu'elle peut rigoureusement être réduite. Spécifiquement, nous caractérisons des hyperparametres optimaux de la tâche de classification binaire et prouvons également que la populaire heuristique de "recuit" peut rendre l'estimation plus efficace, même en grandes dimensions
Self-supervised learning has gained popularity as a method for learning from unlabeled data. Essentially, it involves creating and then solving a prediction task using the data, such as reordering shuffled data. In recent years, this approach has been successful in training neural networks to learn useful representations from data, without any labels. However, our understanding of what is actually being learned and how well it is learned is still somewhat limited. This document contributes to our understanding of self-supervised learning in these two key aspects.Empirically, we address the question of what is learned. We design prediction tasks specifically tailored to learning from brain recordings with magnetoencephalography (MEG) or electroencephalography (EEG). These prediction tasks share a common objective: recognizing temporal structure within the brain data. Our results show that representations learnt by solving these tasks contain interpretable cognitive and clinical neurophysiological features.Theoretically, we explore the quality of the learning procedure. Our focus is on a specific category of prediction tasks: binary classification. We extend prior research that has highlighted the utility of binary classification for statistical inference, though it may involve trading off some measure of statistical efficiency for another measure of computational efficiency. Our contributions aim to improve statistical efficiency. We theoretically analyze the statistical estimation error and find situations when it can be provably reduced. Specifically, we characterize optimal hyperparameters of the binary classification task and also prove that the popular heuristic of "annealing" can lead to more efficient estimation, even in high dimensions

APA, Harvard, Vancouver, ISO, and other styles

18

Ozcelik, Furkan. "Déchiffrer le langage visuel du cerveau : reconstruction d'images naturelles à l'aide de modèles génératifs profonds à partir de signaux IRMf." Electronic Thesis or Diss., Université de Toulouse (2023-....), 2024. http://www.theses.fr/2024TLSES073.

Full text

Abstract:

Les grands esprits de l'humanité ont toujours été curieux de la nature de l'esprit, du cerveau et de la conscience. Par le biais d'expériences physiques et mentales, ils ont tenté de répondre à des questions difficiles sur la perception visuelle. Avec le développement des techniques de neuro-imagerie, les techniques de codage et de décodage neuronaux ont permis de mieux comprendre la manière dont nous traitons les informations visuelles. Les progrès réalisés dans les domaines de l'intelligence artificielle et de l'apprentissage profond ont également influencé la recherche en neuroscience. Avec l'émergence de modèles génératifs profonds tels que les autoencodeurs variationnels (VAE), les réseaux adversariaux génératifs (GAN) et les modèles de diffusion latente (LDM), les chercheurs ont également utilisé ces modèles dans des tâches de décodage neuronal telles que la reconstruction visuelle des stimuli perçus à partir de données de neuro-imagerie. La présente thèse fournit deux bases théoriques dans le domaine de la reconstruction des stimuli perçus à partir de données de neuro-imagerie, en particulier les données IRMf, en utilisant des modèles génératifs profonds. Ces bases théoriques se concentrent sur des aspects différents de la tâche de reconstruction visuelle que leurs prédécesseurs, et donc ils peuvent apporter des résultats précieux pour les études qui suivront. La première étude dans la thèse (décrite au chapitre 2) utilise un modèle génératif particulier appelé IC-GAN pour capturer les aspects sémantiques et réalistes de la reconstruction visuelle. La seconde étude (décrite au chapitre 3) apporte une nouvelle perspective sur la reconstruction visuelle en fusionnant les informations décodées à partir de différentes modalités (par exemple, le texte et l'image) en utilisant des modèles de diffusion latente récents. Ces études sont à la pointe de la technologie dans leurs domaines de référence en présentant des reconstructions très fidèles des différents attributs des stimuli. Dans nos deux études, nous proposons des analyses de régions d'intérêt (ROI) pour comprendre les propriétés fonctionnelles de régions visuelles spécifiques en utilisant nos modèles de décodage neuronal. Les relations statistiques entre les régions d'intérêt et les caractéristiques latentes décodées montrent que les zones visuelles précoces contiennent plus d'informations sur les caractéristiques de bas niveau (qui se concentrent sur la disposition et l'orientation des objets), tandis que les zones visuelles supérieures sont plus informatives sur les caractéristiques sémantiques de haut niveau. Nous avons également observé que les images optimales de ROI générées à l'aide de nos techniques de reconstruction visuelle sont capables de capturer les propriétés de sélectivité fonctionnelle des ROI qui ont été examinées dans de nombreuses études antérieures dans le domaine de la recherche neuroscientifique. Notre thèse tente d'apporter des informations précieuses pour les études futures sur le décodage neuronal, la reconstruction visuelle et l'exploration neuroscientifique à l'aide de modèles d'apprentissage profond en fournissant les résultats de deux bases théoriques de reconstruction visuelle et d'analyses de ROI. Les résultats et les contributions de la thèse peuvent aider les chercheurs travaillant dans le domaine des neurosciences cognitives et avoir des implications pour les applications d'interface cerveau-ordinateur
The great minds of humanity were always curious about the nature of mind, brain, and consciousness. Through physical and thought experiments, they tried to tackle challenging questions about visual perception. As neuroimaging techniques were developed, neural encoding and decoding techniques provided profound understanding about how we process visual information. Advancements in Artificial Intelligence and Deep Learning areas have also influenced neuroscientific research. With the emergence of deep generative models like Variational Autoencoders (VAE), Generative Adversarial Networks (GAN) and Latent Diffusion Models (LDM), researchers also used these models in neural decoding tasks such as visual reconstruction of perceived stimuli from neuroimaging data. The current thesis provides two frameworks in the above-mentioned area of reconstructing perceived stimuli from neuroimaging data, particularly fMRI data, using deep generative models. These frameworks focus on different aspects of the visual reconstruction task than their predecessors, and hence they may bring valuable outcomes for the studies that will follow. The first study of the thesis (described in Chapter 2) utilizes a particular generative model called IC-GAN to capture both semantic and realistic aspects of the visual reconstruction. The second study (mentioned in Chapter 3) brings new perspective on visual reconstruction by fusing decoded information from different modalities (e.g. text and image) using recent latent diffusion models. These studies become state-of-the-art in their benchmarks by exhibiting high-fidelity reconstructions of different attributes of the stimuli. In both of our studies, we propose region-of-interest (ROI) analyses to understand the functional properties of specific visual regions using our neural decoding models. Statistical relations between ROIs and decoded latent features show that while early visual areas carry more information about low-level features (which focus on layout and orientation of objects), higher visual areas are more informative about high-level semantic features. We also observed that generated ROI-optimal images, using these visual reconstruction frameworks, are able to capture functional selectivity properties of the ROIs that have been examined in many prior studies in neuroscientific research. Our thesis attempts to bring valuable insights for future studies in neural decoding, visual reconstruction, and neuroscientific exploration using deep learning models by providing the results of two visual reconstruction frameworks and ROI analyses. The findings and contributions of the thesis may help researchers working in cognitive neuroscience and have implications for brain-computer-interface applications

APA, Harvard, Vancouver, ISO, and other styles

19

Bojko, Adrian. "Self-supervised Dynamic SLAM : Tackling Consensus Inversions." Electronic Thesis or Diss., université Paris-Saclay, 2022. http://www.theses.fr/2022UPASG031.

Full text

Abstract:

La capacité d'auto-localisation est essentielle pour les véhicules autonomes, les robots, la réalité mixte et plus généralement les systèmes qui interagissent avec leur environnement. Lorsqu’il n’y a pas de carte disponible, les algorithmes de SLAM (Localisation et Cartographie Simultanées) créent une carte de l'environnement et en même temps y localisent le système. Un capteur populaire est la caméra, qui a l'avantage de fournir passivement une représentation visuelle de l'environnement à faible coût, et donc celui que nous utilisons.Le SLAM en environnement dynamique, ou SLAM Dynamique, est un défi car l'algorithme doit être capable de percevoir en permanence quelles parties de l'image sont fixes par rapport au référentiel souhaité par l'utilisateur, en général le sol. Des problèmes surviennent lorsque les hypothèses sur lesquelles reposent les algorithmes SLAM deviennent invalides. Un cas remarquable est l'inversion de consensus de mouvement : lorsque la majeure partie d'une image est constituée d'objets en mouvement, l'algorithme n'utilise pas le bon référentiel, et échoue. Un autre est le masquage excessif : certains algorithmes SLAM retirent des images -- c'est-à-dire masquent -- tous les objets qui pourraient être dynamiques même s'ils ne sont pas en mouvement, et par conséquent échouent si les images deviennent vides.De façon générale, l'utilisateur peut vouloir utiliser un algorithme SLAM dans un contexte non supporté. En réalité, l'écart entre ce dont l'utilisateur a besoin et ce que font les algorithmes SLAM est significatif dans la recherche SLAM et la cause de problèmes tels que les inversions de consensus, elles-mêmes rarement présentes dans la littérature. Ainsi, au lieu de proposer un SLAM plus général, nous proposons un algorithme SLAM qui s'adapte à de nouveaux environnements grâce à un apprentissage auto-supervisé automatisé : apprendre automatiquement quelles parties d'une scène peuvent être mobiles par rapport au référentiel souhaité par l'utilisateur, et quand elles sont fixées ou non. L'utilisateur fournit des vidéos d’entraînement non annotées et notre algorithme apprend automatiquement ce qu'il faut en faire.Nous présentons d’abord l'état de l'art, les bases de données et les métriques SLAM de référence. En particulier, nous détaillons les défis du SLAM Dynamique et de l'évaluation de la robustesse. Les bases de données et métriques SLAM actuelles font partie des points bloquants, nous proposons donc les nôtres. Dans une deuxième partie, nous explorons les relations entre les points d’intérêt d’une image et les performances du SLAM, et à partir de ce travail, nous présentons un nouvel algorithme de SLAM Dynamique auto-supervisé qui apprend quels objets masquer, en utilisant les outliers SLAM. Les outliers SLAM sont des points d’intérêt rejetés au cours du processus de SLAM : nous avons observé que les outliers sur les objets en mouvement ont des propriétés uniques dans des séquences vidéo faciles et peuvent être utilisés pour apprendre automatiquement à segmenter les objets dynamiques. Enfin, nous présentons une approche auto-supervisée qui apprend quand masquer des objets : SLAM Dynamique avec Masquage Temporel. A partir d'une méthode donnée de masquage d’objet, on apprend automatiquement quand masquer les objets de certaines classes. On annote automatiquement chaque image des séquences d’entraînement avec des décisions de masquage (masquer les objets ou non), puis on apprend les circonstances qui ont mené à ces décisions avec un réseau basé mémoire.Les résultats de cette thèse montrent que le SLAM Dynamique auto-supervisé est une approche viable pour résoudre les inversions de consensus de mouvement. Plus généralement, l'auto-supervision est la clé pour qu'un SLAM s'adapte aux besoins des utilisateurs. Nous avons dépassé l'Etat de l'Art en termes de robustesse, en plus de clarifier des points aveugles de la littérature en termes d’évaluation de la robustesse des algorithmes de SLAM Dynamique
The ability of self-localization is essential for autonomous vehicles, robots, mixed reality and more generally to systems that interact with their environment. When maps are not available, SLAM (Simultaneous Localization and Mapping) algorithms create a map of the environment and at the same time locate the system within it. A popular sensor is the camera, which has the benefit of passively providing a visual representation of the environment at a low cost, and for this reason the one we use in this thesis.SLAM in Dynamic environments, or Dynamic SLAM, is challenging as the algorithm must be able to continuously perceive what parts of the image are fixed with respect to the frame of reference the user wants, usually the ground. Problems arise when assumptions SLAM algorithms rely on become invalid. A remarkable case is the Motion Consensus Inversion (MCI): when most of an image is made of moving objects, the SLAM does not use the correct frame of reference and fails. Another one is excessive masking: some SLAM algorithms remove from images -- ie, mask -- all objects that might be dynamic even if they are not moving, and consequently fail if images become empty.More generally, the user may need to use a SLAM algorithm in an unsupported context. In fact, the gap between what the user needs and what SLAM algorithms do is a blind spot in SLAM research and the cause for issues like motion consensus inversions, which are themselves seldom seen in the literature. Hence, instead of making a more general SLAM algorithm, we propose a SLAM algorithm that adapts to new environments through automated self-supervised training: to automatically learn what parts of a scene may not be fixed with respect to the user's desired frame of reference, and when they are fixed or not. The user provides unlabeled training videos and our SLAM automatically learns what to do to from them.In the first part of this document, we present the State of the Art of algorithms for SLAM and Dynamic SLAM, reference datasets and metrics. We detail the challenges of Dynamic SLAM and robustness evaluation. Current SLAM datasets and metrics are also subject to the user need gap, so we propose our own. Our datasets are the first to explicitly include video sequences with motion consensus inversions or excessive masking and our metric is more general that the usual accuracy metrics, which are misleading in very difficult scenarios.In the second part, we explore the relation between image features and SLAM performance, and from this work we present a novel self-supervised Dynamic SLAM that learns what objects to mask, using SLAM outliers. Outliers are features rejected during the standard SLAM process: we observed that outliers on objects in motion have unique properties in easy dynamic sequences. Thus, we locate dynamic objects using outliers and learn to segment them, so we can mask dynamic objects in sequences of any difficulty at runtime.Finally, we present a self-supervised approach that learns when to mask objects: Dynamic SLAM with Temporal Masking. Leveraging an existing method to mask objects, it automatically learns when to mask objects of certain classes. It automatically annotates every frame of training sequences with masking decisions (to mask objects or not), then learn the circumstances that led to these decisions with a memory-based network. We do not make any geometrical assumption, unlike other SLAM algorithms. Using a memory-based approach prevents at runtime motion consensus inversions and excessive masking, which is hardly possible when relying on geometrical methods.The results of this thesis show that a self-supervised Dynamic SLAM is a viable approach to tackle motion consensus inversions. More generally, self-supervision is the key to have a SLAM adapt to user needs. We surpassed the State of the Art in terms of robustness, in addition to clarifying blind spots of the literature in Dynamic SLAM robustness evaluation

APA, Harvard, Vancouver, ISO, and other styles

20

Jezequel, Loïc. "Vers une détection d'anomalie unifiée avec une application à la détection de fraude." Electronic Thesis or Diss., CY Cergy Paris Université, 2023. http://www.theses.fr/2023CYUN1190.

Full text

Abstract:

La détection d'observation s'écartant d'un cas de référence est cruciale dans de nombreuses applications. Cette problématique est présente dans la détection de fraudes, l'imagerie médicale, voire même la surveillance vidéo avec des données allant d'image aux sons. La détection d'anomalie profonde a été introduite dans cette optique, en modélisant la classe normale et en considérant tout ce qui est significativement différent comme étant anormal. Dans la mesure où la classe anormale n'est pas bien définie, une classification binaire classique manquerait de robustesse et de fiabilité sur des données hors de son domaine d'apprentissage. Néanmoins, les approches de détection d'anomalies les plus performantes se généralisent encore mal à différents types d'anomalies. Aucune méthode ne permet de simultanément détecter des anomalies d'objets à grande échelle, et des anomalies locales à petite échelle.Dans ce contexte, nous introduisons un premier détecteur d'anomalies plus générique par tâche prétexte. Le modèle, nommé OC-MQ, calcule un score d'anomalie en apprenant à résoudre une tâche prétexte complexe sur la classe normale. La tâche prétexte est composée de plusieurs sous-tâches, séparées en tâche discriminatives et génératives, lui permettant de capturer une grande variété de caractéristiques visuelles.Néanmoins, un ensemble de données d'anomalies supplémentaires est en pratique souvent disponible. Dans cette optique, nous explorons deux approches intégrant des données d'anomalie afin de mieux traiter les cas limites. Tout d'abord, nous généralisons le concept de tâche de prétexte au cas semi-supervisé en apprenant aussi dynamiquement la tâche de prétexte avec des échantillons normaux et anormaux. Nous proposons les modèles SadTPS et SadRest, qui apprennent respectivement une tâche prétexte de reconnaissance de TPS et une tâche de restauration d'image. De plus, nous présentons un nouveau modèle de distance d'anomalie, SadCLR, où l'entraînement est stabilisé par une régularisation contrastive sur la direction des représentations apprises. Nous enrichissons davantage les anomalies existantes en générant plusieurs types de pseudo-anomalies.Enfin, nous prolongeons les deux approches précédentes pour les rendre utilisables avec ou sans données d'anomalies. Premièrement, nous introduisons le modèle AnoMem, qui mémorise un ensemble de prototypes normaux à plusieurs échelles en utilisant des couches de Hopfield modernes. Des estimateurs de distance d'anomalie sont ensuite appris sur les disparités entre l'entrée observée et les prototypes normaux. Deuxièmement, nous reformulons les tâches prétextes apprenables afin qu'elles soient apprises uniquement à partir d'échantillons normaux. Notre modèle proposé, HEAT, apprend de manière adverse la tâche prétexte afin de maintenir de bonnes performance sur les échantillons normaux, tout en échouant sur les anomalies. De plus, nous choisissons la distance de Busemann, récemment proposée dans le modèle du disque de Poincaré, pour calculer le score d'anomalie.Des évaluations approfondies sont réalisées pour chaque méthode proposée, incluant des anomalies grossières, fines ou locales avec comme application l'antifraude visage. Les résultats obtenus dépassant l'état de l'art démontrent le succès de nos méthodes
Detecting observations straying apart from a baseline case is becoming increasingly critical in many applications. It is found in fraud detection, medical imaging, video surveillance or even in manufacturing defect detection with data ranging from images to sound. Deep anomaly detection was introduced to tackle this challenge by properly modeling the normal class, and considering anything significantly different as anomalous. Given the anomalous class is not well-defined, classical binary classification will not be suitable and lack robustness and reliability outside its training domain. Nevertheless, the best-performing anomaly detection approaches still lack generalization to different types of anomalies. Indeed, each method is either specialized on high-scale object anomalies or low-scale local anomalies.In this context, we first introduce a more generic one-class pretext-task anomaly detector. The model, named OC-MQ, computes an anomaly score by learning to solve a complex pretext task on the normal class. The pretext task is composed of several sub-tasks allowing it to capture a wide variety of visual cues. More specifically, our model is made of two branches each representing discriminative and generative tasks.Nevertheless, an additional anomalous dataset is in reality often available in many applications and can provide harder edge-case anomalous examples. In this light, we explore two approaches for outlier-exposure. First, we generalize the concept of pretext task to outlier-exposure by dynamically learning the pretext task itself with normal and anomalous samples. We propose two the models SadTPS and SadRest that respectively learn a discriminative pretext task of thin plate transform recognition and generative task of image restoration. In addition, we present a new anomaly-distance model SadCLR, where the training of previously unreliable anomaly-distance models is stabilized by adding contrastive regularization on the representation direction. We further enrich existing anomalies by generating several types of pseudo-anomalies.Finally, we extend the two previous approaches to be usable in both one-class and outlier-exposure setting. Firstly, we introduce the AnoMem model which memorizes a set of multi-scale normal prototypes by using modern Hopfield layers. Anomaly distance estimators are then fitted on the deviations between the input and normal prototypes in a one-class or outlier-exposure manner. Secondly, we generalize learnable pretext tasks to be learned only using normal samples. Our proposed model HEAT adversarially learns the pretext task to be just challenging enough to keep good performance on normal samples, while failing on anomalies. Besides, we choose the recently proposed Busemann distance in the hyperbolic Poincaré ball model to compute the anomaly score.Extensive testing was conducted for each proposed method, varying from coarse and subtle style anomalies to a fraud detection dataset of face presentation attacks with local anomalies. These tests yielded state-of-the-art results, showing the significant success of our methods

APA, Harvard, Vancouver, ISO, and other styles

21

Zheng, Léon. "Frugalité en données et efficacité computationnelle dans l'apprentissage profond." Electronic Thesis or Diss., Lyon, École normale supérieure, 2024. http://www.theses.fr/2024ENSL0009.

Full text

Abstract:

Cette thèse s’intéresse à deux enjeux de frugalité et d’efficacité dans l’apprentissage profond moderne : frugalité en données et efficacité en ressources de calcul. Premièrement, nous étudions l’apprentissage auto-supervisé, une approche prometteuse en vision par ordinateur qui ne nécessite pas d’annotations des données pour l'apprentissage de représentations. En particulier, nous proposons d’unifier plusieurs fonctions objectives auto-supervisées dans un cadre de noyaux invariants par rotation, ce qui ouvre des perspectives en termes de réduction de coût de calcul de ces fonctions objectives. Deuxièmement, étant donné que l’opération prédominante des réseaux de neurones profonds est la multiplication matricielle, nous nous penchons sur la construction d’algorithmes rapides qui permettent d’effectuer la multiplication matrice-vecteur avec une complexité presque linéaire. Plus spécifiquement, nous étudions le problème de factorisation creuse de matrices sous contrainte de parcimonie "butterfly", une structure commune à plusieurs transformées rapides comme la transformée de Fourier discrète. La thèse établit des garanties théoriques sur l’algorithme de factorisation butterfly, et étudie le potentiel de la parcimonie butterfly pour la réduction du coût computationnel des réseaux de neurones lors de leur phase d’apprentissage ou d’inférence. Nous explorons notamment l’efficacité des implémentations GPU de la multiplication matricielle avec parcimonie butterfly, dans le but d’accélérer réellement des réseaux de neurones parcimonieux
This thesis focuses on two challenges of frugality and efficiency in modern deep learning: data frugality and computational resource efficiency. First, we study self-supervised learning, a promising approach in computer vision that does not require data annotations for learning representations. In particular, we propose a unification of several self-supervised objective functions under a framework based on rotation-invariant kernels, which opens up prospects to reduce the computational cost of these objective functions. Second, given that matrix multiplication is the predominant operation in deep neural networks, we focus on the construction of fast algorithms that allow matrix-vector multiplication with nearly linear complexity. More specifically, we examine the problem of sparse matrix factorization under the constraint of butterfly sparsity, a structure common to several fast transforms like the discrete Fourier transform. The thesis establishes new theoretical guarantees for butterfly factorization algorithms, and explores the potential of butterfly sparsity to reduce the computational costs of neural networks during their training or inference phase. In particular, we explore the efficiency of GPU implementations for butterfly sparse matrix multiplication, with the goal of truly accelerating sparse neural networks

APA, Harvard, Vancouver, ISO, and other styles

22

Marsal, Rémi. "Motion analysis in videos with deep self-supervised learning." Electronic Thesis or Diss., Sorbonne université, 2024. http://www.theses.fr/2024SORUS137.

Full text

Abstract:

Ces travaux de thèse explorent les méthodes d'apprentissage auto-supervisé basées sur le mouvement dans les vidéos afin de réduire la dépendance à l'égard de coûteux ensembles de données annotées pour les tâches d'estimation du flux optique et de la profondeur monoculaire. En l'absence de vérité terrain, ces deux tâches sont principalement apprises par minimisation d'une erreur de reconstruction d'images en supposant l'hypothèse de constance de la luminosité vérifiée. Dans la pratique, en raison des variations de luminosité causées par des ombres mobiles ou des surfaces non lambertiennes, cette hypothèse peut être invalidée, ce qui empêche certaines reconstructions. D'une part, des solutions peuvent être mises en œuvre pour limiter l'impact de ces changements de luminosité. Ainsi, notre première contribution améliore les performances des méthodes d'estimation auto-supervisée du flux optique grâce à un réseau de neurones auxiliaire conçu pour compenser tout changement de luminosité à l'étape d'apprentissage seulement, de sorte que le temps d'exécution ne soit pas affecté à l'inférence. D'autre part, puisque les reconstructions impossibles rendent certaines situations mal supervisées et donc difficiles à estimer pour un réseau d'estimation de la profondeur, elles constituent une cause d'incertitude aléatoire qui peut être estimée. Dans notre deuxième contribution, nous montrons que notre nouvelle formulation probabiliste du problème d'apprentissage auto-supervisé de la profondeur monoculaire donne de meilleures prédictions à la fois de la profondeur et de l'incertitude
These thesis works explore self-supervised learning methods based on motion in videos to reduce the reliance on costly annotated datasets for the tasks of optical flow and monocular depth estimation. In the absence of ground truth, both tasks are mainly learned with an image reconstruction loss, which relies on the brightness constancy hypothesis. In practice, this assumption may not be verified due to brightness changes caused by moving shadows or non-Lambertian surfaces, which prevents some reconstructions. On the one hand, solutions can be implemented to limit the impact of these brightness changes. Thus, our first contribution improves the performance of self-supervised optical flow estimation methods thanks to an auxiliary neural network that is designed to compensate for any brightness change at the training stage only, so that the running time at inference is not affected. On the other hand, since the reconstruction loss limits make some cases poorly supervised and therefore difficult to estimate for a depth estimation neural network, they are a source of aleatoric uncertainty that can be estimated. In our second contribution, we show that using our new probabilistic formulation of the problem of self-supervised learning of monocular depth provides both better depth and uncertainty predictions

APA, Harvard, Vancouver, ISO, and other styles

23

Robert, Thomas. "Improving Latent Representations of ConvNets for Visual Understanding." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS343.

Full text

Abstract:

Depuis le début de la décennie, les réseaux de neurones convolutifs profonds pour le traitement d'images ont démontré leur capacité à produire d'excellent résultats. Pour cela, ces modèles transforment une image en une succession de représentations latentes. Dans cette thèse, nous travaillerons à l'amélioration de la qualité de ces représentations latentes. Dans un premier temps, nous travaillons à la régularisation de ces représentations pour les rendre plus robustes aux variations intra-classe et améliorer les performances de classification via une pénalité basée sur des métriques liées à la théorie de l'information. Dans un second temps, nous proposons de structurer l'information en deux sous-espaces latents complémentaires, résolvant un conflit entre l'invariance des représentations et la reconstruction. La structuration en deux espaces permet ainsi de relâcher la contrainte posée par les architectures classiques, permettant ainsi d'obtenir de meilleurs résultats en classification semi-supervisé. Enfin, nous nous intéressons au disentangling, c'est-à-dire la séparation de facteurs sémantiques indépendants. Nous poursuivons nos travaux de structuration des espaces latent et utilisons des coûts adverses pour assurer une séparation efficace de l'information. Cela permet d'améliorer la qualité des représentations ainsi que l'édition sémantique d'images
For a decade now, convolutional deep neural networks have demonstrated their ability to produce excellent results for computer vision. For this, these models transform the input image into a series of latent representations. In this thesis, we work on improving the "quality'' of the latent representations of ConvNets for different tasks. First, we work on regularizing those representations to increase their robustness toward intra-class variations and thus improve their performance for classification. To do so, we develop a loss based on information theory metrics to decrease the entropy conditionally to the class. Then, we propose to structure the information in two complementary latent spaces, solving a conflict between the invariance of the representations and the reconstruction task. This structure allows to release the constraint posed by classical architecture, allowing to obtain better results in the context of semi-supervised learning. Finally, we address the problem of disentangling, i.e. explicitly separating and representing independent factors of variation of the dataset. We pursue our work on structuring the latent spaces and use adversarial costs to ensure an effective separation of the information. This allows to improve the quality of the representations and allows semantic image editing

APA, Harvard, Vancouver, ISO, and other styles

24

Gillard, Tristan. "Auto-organisation multi-échelle pour l’émergence de comportements sensorimoteurs coordonnés." Electronic Thesis or Diss., Université de Lorraine, 2022. http://www.theses.fr/2022LORR0353.

Full text

Abstract:

Les apprentissages non-associatifs sont largement observés à travers la phylogénie et apparaissent fondamentaux pour l'adaptation et, ainsi, la survie des organismes vivants. Cet travail de thèse explore des mécanismes d'adaptation inspirés de ces apprentissages non-associatifs. Nous proposons trois modèles computationnels de l'habituation, trois modèles de la sensibilisation spécifique au site et un modèle de pseudo-conditionnement. Nous développons ces modèles dans le cadre du milieu sensorimoteur déformable itératif ("Iterant Deformable Sensorimotor Medium", IDSM), un modèle abstrait récemment développé de la formation du comportement sensorimoteur. Les caractéristiques des modèles présentés sont étudiées et analysées à la lumière de notre objectif à long terme, qui est d'étudier de nouveaux mécanismes d'apprentissage non supervisés pour des agents artificiels autonomes
Non-associative learning is widely observed throughout phylogeny and appears to be fundamental for the adaptation and, thus, the survival of living organisms. This thesis explores adaptation mechanisms inspired by these non-associative learnings. We propose three computational models of habituation, three models of site-specific sensitization and one model of pseudo-conditioning. We develop these models within the framework of the Iterant Deformable Sensorimotor Medium (IDSM), a recently developed abstract model of sensorimotor behavior formation. The characteristics of the presented models are studied and analyzed in light of our long-term goal of investigating new unsupervised learning mechanisms for autonomous artificial agents

APA, Harvard, Vancouver, ISO, and other styles

25

Shahid, Mustafizur Rahman. "Deep learning for Internet of Things (IoT) network security." Electronic Thesis or Diss., Institut polytechnique de Paris, 2021. http://www.theses.fr/2021IPPAS003.

Full text

Abstract:

L’internet des objets (IoT) introduit de nouveaux défis pour la sécurité des réseaux. La plupart des objets IoT sont vulnérables en raison d'un manque de sensibilisation à la sécurité des fabricants d'appareils et des utilisateurs. En conséquence, ces objets sont devenus des cibles privilégiées pour les développeurs de malware qui veulent les transformer en bots. Contrairement à un ordinateur de bureau, un objet IoT est conçu pour accomplir des tâches spécifiques. Son comportement réseau est donc très stable et prévisible, ce qui le rend bien adapté aux techniques d'analyse de données. Ainsi, la première partie de cette thèse tire profit des algorithmes de deep learning pour développer des outils de surveillance des réseaux IoT. Deux types d'outils sont explorés: les systèmes de reconnaissance de type d’objets IoT et les systèmes de détection d'intrusion réseau IoT. Pour la reconnaissance des types d’objets IoT, des algorithmes d'apprentissage supervisé sont entrainés pour classifier le trafic réseau et déterminer à quel objet IoT le trafic appartient. Le système de détection d'intrusion consiste en un ensemble d'autoencoders, chacun étant entrainé pour un type d’objet IoT différent. Les autoencoders apprennent le profil du comportement réseau légitime et détectent tout écart par rapport à celui-ci. Les résultats expérimentaux en utilisant des données réseau produites par une maison connectée montrent que les modèles proposés atteignent des performances élevées. Malgré des résultats préliminaires prometteurs, l’entraînement et l'évaluation des modèles basés sur le machine learning nécessitent une quantité importante de données réseau IoT. Or, très peu de jeux de données de trafic réseau IoT sont accessibles au public. Le déploiement physique de milliers d’objets IoT réels peut être très coûteux et peut poser problème quant au respect de la vie privée. Ainsi, dans la deuxième partie de cette thèse, nous proposons d'exploiter des GAN (Generative Adversarial Networks) pour générer des flux bidirectionnels qui ressemblent à ceux produits par un véritable objet IoT. Un flux bidirectionnel est représenté par la séquence des tailles de paquets ainsi que de la durée du flux. Par conséquent, en plus de générer des caractéristiques au niveau des paquets, tel que la taille de chaque paquet, notre générateur apprend implicitement à se conformer aux caractéristiques au niveau du flux, comme le nombre total de paquets et d'octets dans un flux ou sa durée totale. Des résultats expérimentaux utilisant des données produites par un haut-parleur intelligent montrent que notre méthode permet de générer des flux bidirectionnels synthétiques réalistes et de haute qualité
The growing Internet of Things (IoT) introduces new security challenges for network activity monitoring. Most IoT devices are vulnerable because of a lack of security awareness from device manufacturers and end users. As a consequence, they have become prime targets for malware developers who want to turn them into bots. Contrary to general-purpose devices, an IoT device is designed to perform very specific tasks. Hence, its networking behavior is very stable and predictable making it well suited for data analysis techniques. Therefore, the first part of this thesis focuses on leveraging recent advances in the field of deep learning to develop network monitoring tools for the IoT. Two types of network monitoring tools are explored: IoT device type recognition systems and IoT network Intrusion Detection Systems (NIDS). For IoT device type recognition, supervised machine learning algorithms are trained to perform network traffic classification and determine what IoT device the traffic belongs to. The IoT NIDS consists of a set of autoencoders, each trained for a different IoT device type. The autoencoders learn the legitimate networking behavior profile and detect any deviation from it. Experiments using network traffic data produced by a smart home show that the proposed models achieve high performance.Despite yielding promising results, training and testing machine learning based network monitoring systems requires tremendous amount of IoT network traffic data. But, very few IoT network traffic datasets are publicly available. Physically operating thousands of real IoT devices can be very costly and can rise privacy concerns. In the second part of this thesis, we propose to leverage Generative Adversarial Networks (GAN) to generate bidirectional flows that look like they were produced by a real IoT device. A bidirectional flow consists of the sequence of the sizes of individual packets along with a duration. Hence, in addition to generating packet-level features which are the sizes of individual packets, our developed generator implicitly learns to comply with flow-level characteristics, such as the total number of packets and bytes in a bidirectional flow or the total duration of the flow. Experimental results using data produced by a smart speaker show that our method allows us to generate high quality and realistic looking synthetic bidirectional flows

APA, Harvard, Vancouver, ISO, and other styles

26

Denize, Julien. "Self-supervised representation learning and applications to image and video analysis." Electronic Thesis or Diss., Normandie, 2023. http://www.theses.fr/2023NORMIR37.

Full text

Abstract:

Dans cette thèse, nous développons des approches d'apprentissage auto-supervisé pour l'analyse d'images et de vidéos. L'apprentissage de représentation auto-supervisé permet de pré-entraîner les réseaux neuronaux à apprendre des concepts généraux sans annotations avant de les spécialiser plus rapidement à effectuer des tâches, et avec peu d'annotations. Nous présentons trois contributions à l'apprentissage auto-supervisé de représentations d'images et de vidéos. Premièrement, nous introduisons le paradigme théorique de l'apprentissage contrastif doux et sa mise en œuvre pratique appelée Estimation Contrastive de Similarité (SCE) qui relie l'apprentissage contrastif et relationnel pour la représentation d'images. Ensuite, SCE est étendue à l'apprentissage de représentation vidéo temporelle globale. Enfin, nous proposons COMEDIAN, un pipeline pour l'apprentissage de représentation vidéo locale-temporelle pour l'architecture transformer. Ces contributions ont conduit à des résultats de pointe sur de nombreux benchmarks et ont donné lieu à de multiples contributions académiques et techniques publiées
In this thesis, we develop approaches to perform self-supervised learning for image and video analysis. Self-supervised representation learning allows to pretrain neural networks to learn general concepts without labels before specializing in downstream tasks faster and with few annotations. We present three contributions to self-supervised image and video representation learning. First, we introduce the theoretical paradigm of soft contrastive learning and its practical implementation called Similarity Contrastive Estimation (SCE) connecting contrastive and relational learning for image representation. Second, SCE is extended to global temporal video representation learning. Lastly, we propose COMEDIAN a pipeline for local-temporal video representation learning for transformers. These contributions achieved state-of-the-art results on multiple benchmarks and led to several academic and technical published contributions

APA, Harvard, Vancouver, ISO, and other styles

27

Martinroche, Guillaume. "Quantification et caractérisation des maladies auto-immunes et allergiques à l'aide de méthodes d'apprentissage profond." Electronic Thesis or Diss., Bordeaux, 2024. http://www.theses.fr/2024BORD0154.

Full text

Abstract:

Les outils d’aide au diagnostic utilisant l’intelligence artificielle (IA) aideront très prochainement les praticiens à proposer une médecine plus personnalisée et de précision pour les patients. Les maladies auto-immunes et allergiques (MAIA) sont le parfait exemple de maladies au diagnostic complexe pouvant bénéficier de ces outils. Les anticorps antinucléaires (ANA) sur les cellules épithéliales humaines (HEp-2) sont la référence pour le dépistage et le diagnostic des maladies auto-immunes (MAI). Pour une harmonisation des pratiques de laboratoires et cliniques, une lecture et une classification automatiques des aspects d’ANA observés sur cellules HEp-2 par immunofluorescence indirecte (IIF) respectant la classification recommandée par l’International Consensus on Antinuclear Antibody Patterns (ICAP) sont des exigences croissantes. A partir d’une collection complète d’images de cellules HEp-2 du CHU de Bordeaux et en utilisant une méthodologie d’apprentissage supervisé, un système de classification automatique des aspects d’IFI pour les images de cellules HEp-2 a été développé à partir des recommandations de l’ICAP et adaptées aux pratiques locales. Il repose sur un classificateur pour les aspects du noyau seulement (16 aspects et jusqu’à 2 aspects par image) et un second classificateur pour les aspects du cytoplasme seulement. Fort de résultats prometteurs, le système proposé devrait contribuer à la reconnaissance automatique des aspects d’ANA permettant des tests quantitatifs réflexes ciblés sur quelques auto-anticorps afin de faciliter in fine un diagnostic efficace et précis des MAI. Les puces à allergènes, permettent de rechercher simultanément jusqu’à 300 IgE spécifiques et s’intègrent dans une démarche diagnostique ascendante des allergies où, à partir d’une analyse la plus large possible, nous cherchons ensuite à déterminer quel(s) allergène(s) est (sont) susceptible(s) d’expliquer les symptômes du patient. Néanmoins, la masse de données produites dépasse la capacité d’analyse de l’utilisateur moyen et le grand nombre de résultats obtenus peut masquer ceux qui sont réellement pertinents cliniquement. Une base de données a été constituée à partir de 4271 résultats de puces (Société Française d’Allergologie), et de vingt-cinq données démographiques et cliniques. Un data challenge international a permis l’obtention de premiers modèles capables de prédire les profils allergiques des patients. Un outil plus complet et adapté à la pratique quotidienne est en cours de développement. L’outil pourra procurer au clinicien une probabilité d’allergie moléculaire par famille de protéines à partir de la puce à allergènes et un nombre très restreint de données cliniques ou démographiques, limitant ainsi les délais diagnostiques et le recours aux tests de provocation orale. Les outils d’aide aux diagnostics utilisant les technologies dites d’IA participent notamment à l’amélioration de l’efficience des techniques actuelles pour libérer du temps vis-à-vis de tâches répétitives et à faible valeur ajoutée. Ils sont généralement mal perçus par les praticiens considérant perdre leur expertise, voire être remplacés par les algorithmes. Particulièrement forte en Biologie Médicale, cette amélioration touche directement à la fonction de Biologiste Médical. Pour tenter de mieux comprendre, nous nous sommes intéressés au lien de confiance, s’il peut en être un, entre le praticien et l’outil d’aide au diagnostic. Les notions de fiabilité et de véracité ont pu être discutées. Une enquête nationale auprès des biologistes médicaux pratiquant l’IFI sur cellules HEp-2 a permis de révéler une réticence avec des raisons liées aux performances et à une méconnaissance des systèmes. Le déploiement et l’adhésion faisant l’unanimité de stratégies similaires dans le domaine de la cytologie une fois les performances constatées, montre un réel intérêt. [...]
Diagnostic tools based on artificial intelligence (AI) and capable of integrating several types of data, will be crucial in the next coming years in helping practitioners provide more personalized, precision medicine for patients. Autoimmune and allergic diseases are perfect examples of complex, multi-parametric diagnostics that could benefit from such tools. Antinuclear antibodies (ANA) on human epithelial cells (HEp-2) are important biomarkers for the screening and diagnosis of autoimmune diseases. For harmonization of biological practices and clinical management, automatic reading and classification of ANA immunofluorescence patterns for HEp-2 images according to the nomenclature recommended by the International Consensus on Antinuclear Antibody Patterns (ICAP) seems to be a growing requirement. In our study, an automatic classification system for Indirect Immunofluorescence (IIF) patterns of HEp-2 cells images was developed using a supervised learning methodology, based on a complete collection of HEp-2 cell images from Bordeaux University Hospital labelled accordingly to ICAP recommendations and local practices. The system consists of a classifier for nucleus patterns only (16 patterns and allowing recognition of up to two aspects per image) and a second classifier for cytoplasm aspects only. With this contribution to the automation of ANA in medical biology laboratories, it will enable reflex quantitative tests targeted on a few autoantibodies, ultimately facilitating efficient and accurate diagnosis of autoimmune diseases. Allergen microarrays, enable the simultaneous detection of up to 300 specific IgE antibodies and are part of a bottom-up diagnostic approach in which, on the basis of the broadest possible analysis, we then seek to determine which allergen(s) is (are) likely to explain the patient's symptoms. However, the mass of data produced by this single analysis is beyond the analytical capacity of the average user and the large number of results obtained simultaneously can mask those that are truly clinically relevant. A database of 4271 patients (Société Française d'Allergologie) was created, including allergen microarrays data and twenty-five demographic and clinical data. This database allowed the development of the first models capable of predicting patients' allergic profiles thanks to an international data challenge. The best F1-scores were around 80%. A more comprehensive tool adapted to daily practice is currently under development. Based essentially on microarrays data and a very few clinical and demographic data, it will be able to provide clinicians with a probability of molecular allergy by protein family, thus limiting diagnostic delays and the need for oral provocation tests. Diagnostic tools using so-called AI technologies are helping to improve the efficiency of current techniques, leveraging locks for repetitive, low-value-added tasks. These tools are generally poorly perceived by practitioners, who feel that they are losing their expertise, and even that they are being replaced by algorithms. This impression is particularly strong in Medical Biology, where this improvement directly affects the function of the Medical Biologist. In an attempt to better understand this, we took a closer look at the relationship of trust, if there can be one, between the practitioner and the diagnostic tool. The concepts of reliability and veracity were discussed. Thanks to a survey of medical biologists working on the analysis of aspects of HEp-2 cells, a certain reticence can be highlighted, with reasons linked to performance scores and unfamiliarity with the systems. The deployment and commitment to similar strategies in the field of biological hematology shows real interest once performance has been established. The development of two diagnostic tools for autoimmune and allergic diseases is laying the foundations for improved results and lasting integration into a more personalized, precision medicine

APA, Harvard, Vancouver, ISO, and other styles

28

Douzon, Thibault. "Language models for document understanding." Electronic Thesis or Diss., Lyon, INSA, 2023. http://www.theses.fr/2023ISAL0075.

Full text

Abstract:

Chaque jour, les entreprises du monde entier reçoivent et traitent d'énormes volumes de documents, entraînant des coûts considérables. Pour réduire ces coûts, de grandes entreprises automatisent le traitement documentaire, visant une automatisation complète. Cette thèse se concentre sur l'utilisation de modèles d'apprentissage machine pour extraire des informations de documents. Les progrès récents en matière d'architecture de modèle, en particulier les transformeurs, ont révolutionné le domaine grâce à leur utilisation généralisée de l'attention et à l'amélioration des pré-entraînements auto-supervisés. Nous montrons que les transformeurs, pré-entraînés sur des documents, effectuent des tâches de compréhension de documents avec précision et surpassent les modèles à base de réseaux récurrents pour l'extraction d'informations par classification de mots. Les transformeurs nécessitent également moins de données d'entraînement pour atteindre des performances élevées, soulignant l'importance du pré-entraînement auto-supervisé. Dans la suite, nous introduisons des tâches de pré-entraînement spécifiquement adaptées aux documents d'entreprise, améliorant les performances même avec des modèles plus petits. Cela permet d'atteindre des niveaux de performance similaires à ceux de modèles plus gros, ouvrant la voie à des modèles plus petits et plus économiques. Enfin, nous abordons le défi du coût d'évaluation des transformeurs sur de longues séquences. Nous montrons que des architectures plus efficaces dérivées des transformeurs nécessitent moins de ressources et donnent de meilleurs résultats sur de longues séquences. Cependant, elles peuvent perdre légèrement en performance sur de courtes séquences par rapport aux transformeurs classiques. Cela suggère l'avantage d'utiliser plusieurs modèles en fonction de la longueur des séquences à traiter, ouvrant la possibilité de concaténer des séquences de différentes modalités
Every day, an uncountable amount of documents are received and processed by companies worldwide. In an effort to reduce the cost of processing each document, the largest companies have resorted to document automation technologies. In an ideal world, a document can be automatically processed without any human intervention: its content is read, and information is extracted and forwarded to the relevant service. The state-of-the-art techniques have quickly evolved in the last decades, from rule-based algorithms to statistical models. This thesis focuses on machine learning models for document information extraction. Recent advances in model architecture for natural language processing have shown the importance of the attention mechanism. Transformers have revolutionized the field by generalizing the use of attention and by pushing self-supervised pre-training to the next level. In the first part, we confirm that transformers with appropriate pre-training were able to perform document understanding tasks with high performance. We show that, when used as a token classifier for information extraction, transformers are able to exceptionally efficiently learn the task compared to recurrent networks. Transformers only need a small proportion of the training data to reach close to maximum performance. This highlights the importance of self-supervised pre-training for future fine-tuning. In the following part, we design specialized pre-training tasks, to better prepare the model for specific data distributions such as business documents. By acknowledging the specificities of business documents such as their table structure and their over-representation of numeric figures, we are able to target specific skills useful for the model in its future tasks. We show that those new tasks improve the model's downstream performances, even with small models. Using this pre-training approach, we are able to reach the performances of significantly bigger models without any additional cost during finetuning or inference. Finally, in the last part, we address one drawback of the transformer architecture which is its computational cost when used on long sequences. We show that efficient architectures derived from the classic transformer require fewer resources and perform better on long sequences. However, due to how they approximate the attention computation, efficient models suffer from a small but significant performance drop on short sequences compared to classical architectures. This incentivizes the use of different models depending on the input length and enables concatenating multimodal inputs into a single sequence

APA, Harvard, Vancouver, ISO, and other styles

29

Gotab, Pierre. "Classification automatique pour la compréhension de la parole : vers des systèmes semi-supervisés et auto-évolutifs." Phd thesis, Université d'Avignon, 2012. http://tel.archives-ouvertes.fr/tel-00858980.

Full text

Abstract:

La compréhension automatique de la parole est au confluent des deux grands domaines que sont la reconnaissance automatique de la parole et l'apprentissage automatique. Un des problèmes majeurs dans ce domaine est l'obtention d'un corpus de données conséquent afin d'obtenir des modèles statistiques performants. Les corpus de parole pour entraîner des modèles de compréhension nécessitent une intervention humaine importante, notamment dans les tâches de transcription et d'annotation sémantique. Leur coût de production est élevé et c'est la raison pour laquelle ils sont disponibles en quantité limitée.Cette thèse vise principalement à réduire ce besoin d'intervention humaine de deux façons : d'une part en réduisant la quantité de corpus annoté nécessaire à l'obtention d'un modèle grâce à des techniques d'apprentissage semi-supervisé (Self-Training, Co-Training et Active-Learning) ; et d'autre part en tirant parti des réponses de l'utilisateur du système pour améliorer le modèle de compréhension.Ce dernier point touche à un second problème rencontré par les systèmes de compréhension automatique de la parole et adressé par cette thèse : le besoin d'adapter régulièrement leurs modèles aux variations de comportement des utilisateurs ou aux modifications de l'offre de services du système

APA, Harvard, Vancouver, ISO, and other styles

30

Guillaumin, Matthieu. "Données multimodales pour l'analyse d'image." Phd thesis, Grenoble, 2010. http://www.theses.fr/2010GRENM048.

Full text

Abstract:

La présente thèse s'intéresse à l'utilisation de méta-données textuelles pour l'analyse d'image. Nous cherchons à utiliser ces informations additionelles comme supervision faible pour l'apprentissage de modèles de reconnaissance visuelle. Nous avons observé un récent et grandissant intérêt pour les méthodes capables d'exploiter ce type de données car celles-ci peuvent potentiellement supprimer le besoin d'annotations manuelles, qui sont coûteuses en temps et en ressources. Nous concentrons nos efforts sur deux types de données visuelles associées à des informations textuelles. Tout d'abord, nous utilisons des images de dépêches qui sont accompagnées de légendes descriptives pour s'attaquer à plusieurs problèmes liés à la reconnaissance de visages. Parmi ces problèmes, la vérification de visages est la tâche consistant à décider si deux images représentent la même personne, et le nommage de visages cherche à associer les visages d'une base de données à leur noms corrects. Ensuite, nous explorons des modèles pour prédire automatiquement les labels pertinents pour des images, un problème connu sous le nom d'annotation automatique d'image. Ces modèles peuvent aussi être utilisés pour effectuer des recherches d'images à partir de mots-clés. Nous étudions enfin un scénario d'apprentissage multimodal semi-supervisé pour la catégorisation d'image. Dans ce cadre de travail, les labels sont supposés présents pour les données d'apprentissage, qu'elles soient manuellement annotées ou non, et absentes des données de test. Nos travaux se basent sur l'observation que la plupart de ces problèmes peuvent être résolus si des mesures de similarité parfaitement adaptées sont utilisées. Nous proposons donc de nouvelles approches qui combinent apprentissage de distance, modèles par plus proches voisins et méthodes par graphes pour apprendre, à partir de données visuelles et textuelles, des similarités visuelles spécifiques à chaque problème. Dans le cas des visages, nos similarités se concentrent sur l'identité des individus tandis que, pour les images, elles concernent des concepts sémantiques plus généraux. Expérimentalement, nos approches obtiennent des performances à l'état de l'art sur plusieurs bases de données complexes. Pour les deux types de données considérés, nous montrons clairement que l'apprentissage bénéficie de l'information textuelle supplémentaire résultant en l'amélioration de la performance des systèmes de reconnaissance visuelle
This dissertation delves into the use of textual metadata for image understanding. We seek to exploit this additional textual information as weak supervision to improve the learning of recognition models. There is a recent and growing interest for methods that exploit such data because they can potentially alleviate the need for manual annotation, which is a costly and time-consuming process. We focus on two types of visual data with associated textual information. First, we exploit news images that come with descriptive captions to address several face related tasks, including face verification, which is the task of deciding whether two images depict the same individual, and face naming, the problem of associating faces in a data set to their correct names. Second, we consider data consisting of images with user tags. We explore models for automatically predicting tags for new images, i. E. Image auto-annotation, which can also used for keyword-based image search. We also study a multimodal semi-supervised learning scenario for image categorisation. In this setting, the tags are assumed to be present in both labelled and unlabelled training data, while they are absent from the test data. Our work builds on the observation that most of these tasks can be solved if perfectly adequate similarity measures are used. We therefore introduce novel approaches that involve metric learning, nearest neighbour models and graph-based methods to learn, from the visual and textual data, task-specific similarities. For faces, our similarities focus on the identities of the individuals while, for images, they address more general semantic visual concepts. Experimentally, our approaches achieve state-of-the-art results on several standard and challenging data sets. On both types of data, we clearly show that learning using additional textual information improves the performance of visual recognition systems

APA, Harvard, Vancouver, ISO, and other styles

31

Guillaumin, Matthieu. "Données multimodales pour l'analyse d'image." Phd thesis, Grenoble, 2010. http://tel.archives-ouvertes.fr/tel-00522278/en/.

Full text

Abstract:

La présente thèse s'intéresse à l'utilisation de méta-données textuelles pour l'analyse d'image. Nous cherchons à utiliser ces informations additionelles comme supervision faible pour l'apprentissage de modèles de reconnaissance visuelle. Nous avons observé un récent et grandissant intérêt pour les méthodes capables d'exploiter ce type de données car celles-ci peuvent potentiellement supprimer le besoin d'annotations manuelles, qui sont coûteuses en temps et en ressources. Nous concentrons nos efforts sur deux types de données visuelles associées à des informations textuelles. Tout d'abord, nous utilisons des images de dépêches qui sont accompagnées de légendes descriptives pour s'attaquer à plusieurs problèmes liés à la reconnaissance de visages. Parmi ces problèmes, la vérification de visages est la tâche consistant à décider si deux images représentent la même personne, et le nommage de visages cherche à associer les visages d'une base de données à leur noms corrects. Ensuite, nous explorons des modèles pour prédire automatiquement les labels pertinents pour des images, un problème connu sous le nom d'annotation automatique d'image. Ces modèles peuvent aussi être utilisés pour effectuer des recherches d'images à partir de mots-clés. Nous étudions enfin un scénario d'apprentissage multimodal semi-supervisé pour la catégorisation d'image. Dans ce cadre de travail, les labels sont supposés présents pour les données d'apprentissage, qu'elles soient manuellement annotées ou non, et absentes des données de test. Nos travaux se basent sur l'observation que la plupart de ces problèmes peuvent être résolus si des mesures de similarité parfaitement adaptées sont utilisées. Nous proposons donc de nouvelles approches qui combinent apprentissage de distance, modèles par plus proches voisins et méthodes par graphes pour apprendre, à partir de données visuelles et textuelles, des similarités visuelles spécifiques à chaque problème. Dans le cas des visages, nos similarités se concentrent sur l'identité des individus tandis que, pour les images, elles concernent des concepts sémantiques plus généraux. Expérimentalement, nos approches obtiennent des performances à l'état de l'art sur plusieurs bases de données complexes. Pour les deux types de données considérés, nous montrons clairement que l'apprentissage bénéficie de l'information textuelle supplémentaire résultant en l'amélioration de la performance des systèmes de reconnaissance visuelle.

APA, Harvard, Vancouver, ISO, and other styles

32

Ghemmogne, Fossi Leopold. "Gestion des règles basée sur l'indice de puissance pour la détection de fraude : Approches supervisées et semi-supervisées." Thesis, Lyon, 2019. http://www.theses.fr/2019LYSEI079.

Full text

Abstract:

Cette thèse traite de la détection de fraude par carte de crédit. Selon la Banque Centrale Européenne, la valeur des fraudes utilisant des cartes en 2016 s'élevait à 1,8 milliard d'euros. Le défis pour les institutions est de réduire ces fraudes. En règle générale, les systèmes de détection de la fraude sont consistués d'un système automatique construit à base de règles "si-alors" qui contrôlent toutes les transactions en entrée et déclenchent une alerte si la transaction est considérée suspecte. Un groupe expert vérifie l'alerte et décide si cette dernière est vrai ou pas. Les critères utilisés dans la sélection des règles maintenues opérationnelles sont principalement basés sur la performance individuelle des règles. Cette approche ignore en effet la non-additivité des règles. Nous proposons une nouvelle approche utilisant des indices de puissance. Cette approche attribue aux règles un score normalisé qui quantifie l'influence de la règle sur les performances globales du groupe de règles. Les indice utilisés sont le "Shapley Value" et le "Banzhaf Value". Leurs applications sont: 1) Aide à la décision de conserver ou supprimer une règle; 2) Sélection du nombre k de règles les mieux classées, afin de travailler avec un ensemble plus compact. En utilisant des données réelles de fraude par carte de crédit, nous montrons que: 1) Cette approche permet de mieux évaluer les performances du groupe plutot que de les évaluer isolément. 2) La performance de l'ensemble des règles peut être atteinte en conservant le dixième des règles. Nous observons que cette application peut être comsidérée comme une tâche de sélection de caractéristiques:ainsi nous montrons que notre approche est comparable aux algorithmes courants de sélection des caractéristiques. Il présente un avantage dans la gestion des règles, car attribue un score normalisé à chaque règle. Ce qui n'est pas le cas pour la plupart des algorithmes, qui se concentrent uniquement sur une solution d'ensemble. Nous proposons une nouvelle version du Banzhaf Value, à savoir le k-Banzhaf; qui surclasse la précedente en terme de temps de calcul et possède des performances comparables. Enfin, nous mettons en œuvre un processus d’auto-apprentissage afin de renforcer l’apprentissage dans un algorithme. Nous comparons ces derniers avec nos trois indices de puissance pour effectuer une classification sur les données de fraude par carte de crédit. En conclusion, nous observons que la sélection de caractéristiques basée sur les indices de puissance a des résultats comparables avec les autres algorithmes dans le processus d'auto-apprentissage
This thesis deals with the detection of credit card fraud. According to the European Central Bank, the value of frauds using cards in 2016 amounted to 1.8 billion euros. The challenge for institutions is to reduce these frauds. In general, fraud detection systems consist of an automatic system built with "if-then" rules that control all incoming transactions and trigger an alert if the transaction is considered suspicious. An expert group checks the alert and decides whether it is true or not. The criteria used in the selection of the rules that are kept operational are mainly based on the individual performance of the rules. This approach ignores the non-additivity of the rules. We propose a new approach using power indices. This approach assigns to the rules a normalized score that quantifies the influence of the rule on the overall performance of the group. The indexes we use are the Shapley Value and Banzhaf Value. Their applications are 1) Decision support to keep or delete a rule; 2) Selection of the number k of best-ranked rules, in order to work with a more compact set. Using real credit card fraud data, we show that: 1) This approach performs better than the one that evaluates the rules in isolation. 2) The performance of the set of rules can be achieved by keeping one-tenth of the rules. We observe that this application can be considered as a task of selection of characteristics: We show that our approach is comparable to the current algorithms of the selection of characteristics. It has an advantage in rule management because it assigns a standard score to each rule. This is not the case for most algorithms, which focus only on an overall solution. We propose a new version of Banzhaf Value, namely k-Banzhaf; which outperforms the previous in terms of computing time and has comparable performance. Finally, we implement a self-learning process to reinforce the learning in an automatic learning algorithm. We compare these with our power indices to rank credit card fraud data. In conclusion, we observe that the selection of characteristics based on the power indices has comparable results with the other algorithms in the self-learning process

APA, Harvard, Vancouver, ISO, and other styles

33

Wandeto, John Mwangi. "Self-organizing map quantization error approach for detecting temporal variations in image sets." Thesis, Strasbourg, 2018. http://www.theses.fr/2018STRAD025/document.

Full text

Abstract:

Une nouvelle approche du traitement de l'image, appelée SOM-QE, qui exploite quantization error (QE) des self-organizing maps (SOM) est proposée dans cette thèse. Les SOM produisent des représentations discrètes de faible dimension des données d'entrée de haute dimension. QE est déterminée à partir des résultats du processus d'apprentissage non supervisé du SOM et des données d'entrée. SOM-QE d'une série chronologique d'images peut être utilisé comme indicateur de changements dans la série chronologique. Pour configurer SOM, on détermine la taille de la carte, la distance du voisinage, le rythme d'apprentissage et le nombre d'itérations dans le processus d'apprentissage. La combinaison de ces paramètres, qui donne la valeur la plus faible de QE, est considérée comme le jeu de paramètres optimal et est utilisée pour transformer l'ensemble de données. C'est l'utilisation de l'assouplissement quantitatif. La nouveauté de la technique SOM-QE est quadruple : d'abord dans l'usage. SOM-QE utilise un SOM pour déterminer la QE de différentes images - typiquement, dans un ensemble de données de séries temporelles - contrairement à l'utilisation traditionnelle où différents SOMs sont appliqués sur un ensemble de données. Deuxièmement, la valeur SOM-QE est introduite pour mesurer l'uniformité de l'image. Troisièmement, la valeur SOM-QE devient une étiquette spéciale et unique pour l'image dans l'ensemble de données et quatrièmement, cette étiquette est utilisée pour suivre les changements qui se produisent dans les images suivantes de la même scène. Ainsi, SOM-QE fournit une mesure des variations à l'intérieur de l'image à une instance dans le temps, et lorsqu'il est comparé aux valeurs des images subséquentes de la même scène, il révèle une visualisation transitoire des changements dans la scène à l'étude. Dans cette recherche, l'approche a été appliquée à l'imagerie artificielle, médicale et géographique pour démontrer sa performance. Les scientifiques et les ingénieurs s'intéressent aux changements qui se produisent dans les scènes géographiques d'intérêt, comme la construction de nouveaux bâtiments dans une ville ou le recul des lésions dans les images médicales. La technique SOM-QE offre un nouveau moyen de détection automatique de la croissance dans les espaces urbains ou de la progression des maladies, fournissant des informations opportunes pour une planification ou un traitement approprié. Dans ce travail, il est démontré que SOM-QE peut capturer de très petits changements dans les images. Les résultats confirment également qu'il est rapide et moins coûteux de faire la distinction entre le contenu modifié et le contenu inchangé dans les grands ensembles de données d'images. La corrélation de Pearson a confirmé qu'il y avait des corrélations statistiquement significatives entre les valeurs SOM-QE et les données réelles de vérité de terrain. Sur le plan de l'évaluation, cette technique a donné de meilleurs résultats que les autres approches existantes. Ce travail est important car il introduit une nouvelle façon d'envisager la détection rapide et automatique des changements, même lorsqu'il s'agit de petits changements locaux dans les images. Il introduit également une nouvelle méthode de détermination de QE, et les données qu'il génère peuvent être utilisées pour prédire les changements dans un ensemble de données de séries chronologiques
A new approach for image processing, dubbed SOM-QE, that exploits the quantization error (QE) from self-organizing maps (SOM) is proposed in this thesis. SOM produce low-dimensional discrete representations of high-dimensional input data. QE is determined from the results of the unsupervised learning process of SOM and the input data. SOM-QE from a time-series of images can be used as an indicator of changes in the time series. To set-up SOM, a map size, the neighbourhood distance, the learning rate and the number of iterations in the learning process are determined. The combination of these parameters that gives the lowest value of QE, is taken to be the optimal parameter set and it is used to transform the dataset. This has been the use of QE. The novelty in SOM-QE technique is fourfold: first, in the usage. SOM-QE employs a SOM to determine QE for different images - typically, in a time series dataset - unlike the traditional usage where different SOMs are applied on one dataset. Secondly, the SOM-QE value is introduced as a measure of uniformity within the image. Thirdly, the SOM-QE value becomes a special, unique label for the image within the dataset and fourthly, this label is used to track changes that occur in subsequent images of the same scene. Thus, SOM-QE provides a measure of variations within the image at an instance in time, and when compared with the values from subsequent images of the same scene, it reveals a transient visualization of changes in the scene of study. In this research the approach was applied to artificial, medical and geographic imagery to demonstrate its performance. Changes that occur in geographic scenes of interest, such as new buildings being put up in a city or lesions receding in medical images are of interest to scientists and engineers. The SOM-QE technique provides a new way for automatic detection of growth in urban spaces or the progressions of diseases, giving timely information for appropriate planning or treatment. In this work, it is demonstrated that SOM-QE can capture very small changes in images. Results also confirm it to be fast and less computationally expensive in discriminating between changed and unchanged contents in large image datasets. Pearson's correlation confirmed that there was statistically significant correlations between SOM-QE values and the actual ground truth data. On evaluation, this technique performed better compared to other existing approaches. This work is important as it introduces a new way of looking at fast, automatic change detection even when dealing with small local changes within images. It also introduces a new method of determining QE, and the data it generates can be used to predict changes in a time series dataset

APA, Harvard, Vancouver, ISO, and other styles

34

Racah, Evan. "Unsupervised representation learning in interactive environments." Thèse, 2019. http://hdl.handle.net/1866/23788.

Full text

Abstract:

Extraire une représentation de tous les facteurs de haut niveau de l'état d'un agent à partir d'informations sensorielles de bas niveau est une tâche importante, mais difficile, dans l'apprentissage automatique. Dans ce memoire, nous explorerons plusieurs approches non supervisées pour apprendre ces représentations. Nous appliquons et analysons des méthodes d'apprentissage de représentations non supervisées existantes dans des environnements d'apprentissage par renforcement, et nous apportons notre propre suite d'évaluations et notre propre méthode novatrice d'apprentissage de représentations d'état. Dans le premier chapitre de ce travail, nous passerons en revue et motiverons l'apprentissage non supervisé de représentations pour l'apprentissage automatique en général et pour l'apprentissage par renforcement. Nous introduirons ensuite un sous-domaine relativement nouveau de l'apprentissage de représentations : l'apprentissage auto-supervisé. Nous aborderons ensuite deux approches fondamentales de l'apprentissage de représentations, les méthodes génératives et les méthodes discriminatives. Plus précisément, nous nous concentrerons sur une collection de méthodes discriminantes d'apprentissage de représentations, appelées méthodes contrastives d'apprentissage de représentations non supervisées (CURL). Nous terminerons le premier chapitre en détaillant diverses approches pour évaluer l'utilité des représentations. Dans le deuxième chapitre, nous présenterons un article de workshop dans lequel nous évaluons un ensemble de méthodes d'auto-supervision standards pour les problèmes d'apprentissage par renforcement. Nous découvrons que la performance de ces représentations dépend fortement de la dynamique et de la structure de l'environnement. À ce titre, nous déterminons qu'une étude plus systématique des environnements et des méthodes est nécessaire. Notre troisième chapitre couvre notre deuxième article, Unsupervised State Representation Learning in Atari, où nous essayons d'effectuer une étude plus approfondie des méthodes d'apprentissage de représentations en apprentissage par renforcement, comme expliqué dans le deuxième chapitre. Pour faciliter une évaluation plus approfondie des représentations en apprentissage par renforcement, nous introduisons une suite de 22 jeux Atari entièrement labellisés. De plus, nous choisissons de comparer les méthodes d'apprentissage de représentations de façon plus systématique, en nous concentrant sur une comparaison entre méthodes génératives et méthodes contrastives, plutôt que les méthodes générales du deuxième chapitre choisies de façon moins systématique. Enfin, nous introduisons une nouvelle méthode contrastive, ST-DIM, qui excelle sur ces 22 jeux Atari.
Extracting a representation of all the high-level factors of an agent’s state from level-level sensory information is an important, but challenging task in machine learning. In this thesis, we will explore several unsupervised approaches for learning these state representations. We apply and analyze existing unsupervised representation learning methods in reinforcement learning environments, as well as contribute our own evaluation benchmark and our own novel state representation learning method. In the first chapter, we will overview and motivate unsupervised representation learning for machine learning in general and for reinforcement learning. We will then introduce a relatively new subfield of representation learning: self-supervised learning. We will then cover two core representation learning approaches, generative methods and discriminative methods. Specifically, we will focus on a collection of discriminative representation learning methods called contrastive unsupervised representation learning (CURL) methods. We will close the first chapter by detailing various approaches for evaluating the usefulness of representations. In the second chapter, we will present a workshop paper, where we evaluate a handful of off-the-shelf self-supervised methods in reinforcement learning problems. We discover that the performance of these representations depends heavily on the dynamics and visual structure of the environment. As such, we determine that a more systematic study of environments and methods is required. Our third chapter covers our second article, Unsupervised State Representation Learning in Atari, where we try to execute a more thorough study of representation learning methods in RL as motivated by the second chapter. To facilitate a more thorough evaluation of representations in RL we introduce a benchmark of 22 fully labelled Atari games. In addition, we choose the representation learning methods for comparison in a more systematic way by focusing on comparing generative methods with contrastive methods, instead of the less systematically chosen off-the-shelf methods from the second chapter. Finally, we introduce a new contrastive method, ST-DIM, which excels at the 22 Atari games.

APA, Harvard, Vancouver, ISO, and other styles

35

Schwarzer, Max. "Data-efficient reinforcement learning with self-predictive representations." Thesis, 2020. http://hdl.handle.net/1866/25105.

Full text

Abstract:

L'efficacité des données reste un défi majeur dans l'apprentissage par renforcement profond. Bien que les techniques modernes soient capables d'atteindre des performances élevées dans des tâches extrêmement complexes, y compris les jeux de stratégie comme le StarCraft, les échecs, le shogi et le go, ainsi que dans des domaines visuels exigeants comme les jeux Atari, cela nécessite généralement d'énormes quantités de données interactives, limitant ainsi l'application pratique de l'apprentissage par renforcement. Dans ce mémoire, nous proposons la SPR, une méthode inspirée des récentes avancées en apprentissage auto-supervisé de représentations, conçue pour améliorer l'efficacité des données des agents d'apprentissage par renforcement profond. Nous évaluons cette méthode sur l'environement d'apprentissage Atari, et nous montrons qu'elle améliore considérablement les performances des agents avec un surcroît de calcul modéré. Lorsqu'on lui accorde à peu près le même temps d'apprentissage qu'aux testeurs humains, un agent d'apprentissage par renforcement augmenté de SPR atteint des performances surhumaines dans 7 des 26 jeux, une augmentation de 350% par rapport à l'état de l'art précédent, tout en améliorant fortement les performances moyennes et médianes. Nous évaluons également cette méthode sur un ensemble de tâches de contrôle continu, montrant des améliorations substantielles par rapport aux méthodes précédentes. Le chapitre 1 présente les concepts nécessaires à la compréhension du travail présenté, y compris des aperçus de l'apprentissage par renforcement profond et de l'apprentissage auto-supervisé de représentations. Le chapitre 2 contient une description détaillée de nos contributions à l'exploitation de l'apprentissage de représentation auto-supervisé pour améliorer l'efficacité des données dans l'apprentissage par renforcement. Le chapitre 3 présente quelques conclusions tirées de ces travaux, y compris des propositions pour les travaux futurs.
Data efficiency remains a key challenge in deep reinforcement learning. Although modern techniques have been shown to be capable of attaining high performance in extremely complex tasks, including strategy games such as StarCraft, Chess, Shogi, and Go as well as in challenging visual domains such as Atari games, doing so generally requires enormous amounts of interactional data, limiting how broadly reinforcement learning can be applied. In this thesis, we propose SPR, a method drawing from recent advances in self-supervised representation learning designed to enhance the data efficiency of deep reinforcement learning agents. We evaluate this method on the Atari Learning Environment, and show that it dramatically improves performance with limited computational overhead. When given roughly the same amount of learning time as human testers, a reinforcement learning agent augmented with SPR achieves super-human performance on 7 out of 26 games, an increase of 350% over the previous state of the art, while also strongly improving mean and median performance. We also evaluate this method on a set of continuous control tasks, showing substantial improvements over previous methods. Chapter 1 introduces concepts necessary to understand the work presented, including overviews of Deep Reinforcement Learning and Self-Supervised Representation learning. Chapter 2 contains a detailed description of our contributions towards leveraging self-supervised representation learning to improve data-efficiency in reinforcement learning. Chapter 3 provides some conclusions drawn from this work, including a number of proposals for future work.

APA, Harvard, Vancouver, ISO, and other styles

36

Lajoie, Isabelle. "Apprentissage de représentations sur-complètes par entraînement d’auto-encodeurs." Thèse, 2009. http://hdl.handle.net/1866/3768.

Full text

Abstract:

Les avancés dans le domaine de l’intelligence artificielle, permettent à des systèmes informatiques de résoudre des tâches de plus en plus complexes liées par exemple à la vision, à la compréhension de signaux sonores ou au traitement de la langue. Parmi les modèles existants, on retrouve les Réseaux de Neurones Artificiels (RNA), dont la popularité a fait un grand bond en avant avec la découverte de Hinton et al. [22], soit l’utilisation de Machines de Boltzmann Restreintes (RBM) pour un pré-entraînement non-supervisé couche après couche, facilitant grandement l’entraînement supervisé du réseau à plusieurs couches cachées (DBN), entraînement qui s’avérait jusqu’alors très difficile à réussir. Depuis cette découverte, des chercheurs ont étudié l’efficacité de nouvelles stratégies de pré-entraînement, telles que l’empilement d’auto-encodeurs traditionnels(SAE) [5, 38], et l’empilement d’auto-encodeur débruiteur (SDAE) [44]. C’est dans ce contexte qu’a débuté la présente étude. Après un bref passage en revue des notions de base du domaine de l’apprentissage machine et des méthodes de pré-entraînement employées jusqu’à présent avec les modules RBM, AE et DAE, nous avons approfondi notre compréhension du pré-entraînement de type SDAE, exploré ses différentes propriétés et étudié des variantes de SDAE comme stratégie d’initialisation d’architecture profonde. Nous avons ainsi pu, entre autres choses, mettre en lumière l’influence du niveau de bruit, du nombre de couches et du nombre d’unités cachées sur l’erreur de généralisation du SDAE. Nous avons constaté une amélioration de la performance sur la tâche supervisée avec l’utilisation des bruits poivre et sel (PS) et gaussien (GS), bruits s’avérant mieux justifiés que celui utilisé jusqu’à présent, soit le masque à zéro (MN). De plus, nous avons démontré que la performance profitait d’une emphase imposée sur la reconstruction des données corrompues durant l’entraînement des différents DAE. Nos travaux ont aussi permis de révéler que le DAE était en mesure d’apprendre, sur des images naturelles, des filtres semblables à ceux retrouvés dans les cellules V1 du cortex visuel, soit des filtres détecteurs de bordures. Nous aurons par ailleurs pu montrer que les représentations apprises du SDAE, composées des caractéristiques ainsi extraites, s’avéraient fort utiles à l’apprentissage d’une machine à vecteurs de support (SVM) linéaire ou à noyau gaussien, améliorant grandement sa performance de généralisation. Aussi, nous aurons observé que similairement au DBN, et contrairement au SAE, le SDAE possédait une bonne capacité en tant que modèle générateur. Nous avons également ouvert la porte à de nouvelles stratégies de pré-entraînement et découvert le potentiel de l’une d’entre elles, soit l’empilement d’auto-encodeurs rebruiteurs (SRAE).
Progress in the machine learning domain allows computational system to address more and more complex tasks associated with vision, audio signal or natural language processing. Among the existing models, we find the Artificial Neural Network (ANN), whose popularity increased suddenly with the recent breakthrough of Hinton et al. [22], that consists in using Restricted Boltzmann Machines (RBM) for performing an unsupervised, layer by layer, pre-training initialization, of a Deep Belief Network (DBN), which enables the subsequent successful supervised training of such architecture. Since this discovery, researchers studied the efficiency of other similar pre-training strategies such as the stacking of traditional auto-encoder (SAE) [5, 38] and the stacking of denoising auto-encoder (SDAE) [44]. This is the context in which the present study started. After a brief introduction of the basic machine learning principles and of the pre-training methods used until now with RBM, AE and DAE modules, we performed a series of experiments to deepen our understanding of pre-training with SDAE, explored its different proprieties and explored variations on the DAE algorithm as alternative strategies to initialize deep networks. We evaluated the sensitivity to the noise level, and influence of number of layers and number of hidden units on the generalization error obtained with SDAE. We experimented with other noise types and saw improved performance on the supervised task with the use of pepper and salt noise (PS) or gaussian noise (GS), noise types that are more justified then the one used until now which is masking noise (MN). Moreover, modifying the algorithm by imposing an emphasis on the corrupted components reconstruction during the unsupervised training of each different DAE showed encouraging performance improvements. Our work also allowed to reveal that DAE was capable of learning, on naturals images, filters similar to those found in V1 cells of the visual cortex, that are in essence edges detectors. In addition, we were able to verify that the learned representations of SDAE, are very good characteristics to be fed to a linear or gaussian support vector machine (SVM), considerably enhancing its generalization performance. Also, we observed that, alike DBN, and unlike SAE, the SDAE had the potential to be used as a good generative model. As well, we opened the door to novel pre-training strategies and discovered the potential of one of them : the stacking of renoising auto-encoders (SRAE).

APA, Harvard, Vancouver, ISO, and other styles

We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!