Conecte-se

Bibliografias temáticas / Auto-supervisé

Índice

Artigos de revistas
Teses / dissertações

Literatura científica selecionada sobre o tema "Auto-supervisé"

Autor: Grafiati

Publicado: 21 de setembro de 2024

Crie uma referência precisa em APA, MLA, Chicago, Harvard, e outros estilos

Selecione um tipo de fonte:

Consulte a lista de atuais artigos, livros, teses, anais de congressos e outras fontes científicas relevantes para o tema "Auto-supervisé".

Ao lado de cada fonte na lista de referências, há um botão "Adicionar à bibliografia". Clique e geraremos automaticamente a citação bibliográfica do trabalho escolhido no estilo de citação de que você precisa: APA, MLA, Harvard, Chicago, Vancouver, etc.

Você também pode baixar o texto completo da publicação científica em formato .pdf e ler o resumo do trabalho online se estiver presente nos metadados.

Artigos de revistas sobre o assunto "Auto-supervisé"

1

Desplanche, Elodie, Gilles Thöni, Peig Harnett, Alain Varray, Aline Herbinet, Raphaël Chiron e Brian Casserly. "Un programme franco-irlandais d’APA supervisé par visioconférence, chez des adultes ayant la mucoviscidose : effets sur le niveau d’AP auto-renseignée et la condition physique". Science & Sports 33 (maio de 2018): S27—S28. http://dx.doi.org/10.1016/j.scispo.2018.03.039.

Texto completo da fonte

Estilos ABNT, Harvard, Vancouver, APA, etc.

Teses / dissertações sobre o assunto "Auto-supervisé"

1

Decoux, Benoît. "Un modèle connexionniste de vision 3-D : imagettes rétiniennes, convergence stéréoscopique, et apprentissage auto-supervisé de la fusion". Rouen, 1995. http://www.theses.fr/1995ROUES056.

Texto completo da fonte

Resumo:

Les études destinées à apporter l'apprentissage non-supervisé à la vision stéréoscopique artificielle s'inscrivent dans la recherche en auto-organisation des systèmes, et constituent une avancée dans la modélisation de la vision stéréo naturelle. Le principal objectif de cette thèse est de participer à cette recherche. Après quelques données sur la vision naturelle, des propriétés importantes des réseaux neuronaux sont présentées. L'accent est mis ensuite sur les propriétés d'auto-organisation de ces derniers, ainsi que sur leurs capacités sensorimotrices. Un passage en revue non-exhaustif des modèles connexionnistes de vision stéréo existant, est alors effectué. Enfin, un modèle connexionniste de vision stéréo est proposé. Ce modèle comporte deux processus complémentaires : 1) la convergence stéréo met en correspondance des régions, par minimisation d'une disparité globale. Elle simule un processus de convergence visio-motrice; 2) la fusion stéréo recherche alors la correspondance entre des éléments caractéristiques. La fusion est obtenue après une phase d'apprentissage auto-supervisé. Le type de l'apprentissage est ainsi dénommé parce que la règle utilisée est une règle d'apprentissage supervisé, mais dans laquelle l'information de supervision est extraite automatiquement des entrées visuelles par le modèle. Les scènes visuelles sont perçues au moyen d'un ensemble d'imagettes rétiniennes : il s'agit de petites images de différents champs visuels et résolutions.

Estilos ABNT, Harvard, Vancouver, APA, etc.

2

Lefort, Mathieu. "Apprentissage spatial de corrélations multimodales par des mécanismes d'inspiration corticale". Phd thesis, Université Nancy II, 2012. http://tel.archives-ouvertes.fr/tel-00756687.

Texto completo da fonte

Resumo:

Cette thèse traite de la problématique de l'unification de différents flux d'informations modales qui peuvent provenir des senseurs d'un agent. Cette unification, inspirée des expériences psychologiques comme l'effet ventriloque, s'appuie sur la détection de corrélations, définies comme des motifs spatiaux qui apparaissent régulièrement dans les flux d'entrée. L'apprentissage de l'espace des corrélations du flux d'entrée échantillonne cet espace et généralise les échantillons appris. Cette thèse propose des principes fonctionnels pour le traitement multimodal de l'information qui ont aboutit à l'architecture connexionniste, générique, modulaire et cortico-inspirée SOMMA (Self-Organizing Maps for Multimodal Association). Dans ce modèle, le traitement de chaque modalité s'effectue au sein d'une carte corticale. L'unification multimodale de l'information est obtenue par la mise en relation réciproque de ces cartes. L'échantillonnage et la généralisation des corrélations reposent sur une auto-organisation contrainte des cartes. Ce modèle est caractérisé par un apprentissage progressif de ces propriétés fonctionnelles: les propriétés monomodales amorcent l'émergence des propriétés multimodales et, dans le même temps, l'apprentissage de certaines corrélations par chaque carte est un préalable à l'auto-organisation de ces cartes. Par ailleurs, l'utilisation d'une architecture connexionniste et d'un apprentissage continu et non supervisé fournit au modèle des propriétés de robustesse et d'adaptabilité qui sont généralement absentes des approches informatiques classiques.

Estilos ABNT, Harvard, Vancouver, APA, etc.

3

Lefort, Mathieu. "Apprentissage spatial de corrélations multimodales par des mécanismes d'inspiration corticale". Electronic Thesis or Diss., Université de Lorraine, 2012. http://www.theses.fr/2012LORR0106.

Texto completo da fonte

Resumo:

Cette thèse traite de la problématique de l'unification de différents flux d'informations modales qui peuvent provenir des senseurs d'un agent. Cette unification, inspirée des expériences psychologiques comme l'effet ventriloque, s'appuie sur la détection de corrélations, définies comme des motifs spatiauxqui apparaissent régulièrement dans les flux d'entrée. L'apprentissage de l'espace des corrélations du flux d'entrée échantillonne cet espace et généralise les échantillons appris. Cette thèse propose des principes fonctionnels pour le traitement multimodal de l'information qui ont aboutit à l'architectureconnexionniste, générique, modulaire et cortico-inspirée SOMMA (Self-Organizing Maps for Multimodal Association). Dans ce modèle, le traitement de chaque modalité s'effectue au sein d'une carte corticale. L'unification multimodale de l'information est obtenue par la mise en relation réciproque de ces cartes.L'échantillonnage et la généralisation des corrélations reposent sur une auto-organisation contrainte des cartes. Ce modèle est caractérisé par un apprentissage progressif de ces propriétés fonctionnelles : les propriétés monomodales amorcent l'émergence des propriétés multimodales et, dans le même temps, l'apprentissagede certaines corrélations par chaque carte est un préalable à l'auto-organisation de ces cartes. Par ailleurs, l'utilisation d'une architecture connexionniste et d'un apprentissage continu et non supervisé fournit au modèle des propriétés de robustesse et d'adaptabilité qui sont généralement absentes des approches informatiques classiques
This thesis focuses on unifying multiple modal data flows that may be provided by sensors of an agent. This unification, inspired by psychological experiments like the ventriloquist effect, is based on detecting correlations which are defined as temporally recurrent spatial patterns that appear in the input flows. Learning of the input flow correlations space consists on sampling this space and generalizing theselearned samples. This thesis proposed some functional paradigms for multimodal data processing, leading to the connectionist, generic, modular and cortically inspired architecture SOMMA (Self-Organizing Maps for Multimodal Association). In this model, each modal stimulus is processed in a cortical map. Interconnectionof these maps provides an unifying multimodal data processing. Sampling and generalization of correlations are based on the constrained self-organization of each map. The model is characterised by a gradual emergence of these functional properties : monomodal properties lead to the emergence of multimodal ones and learning of correlations in each map precedes self-organization of these maps.Furthermore, the use of a connectionist architecture and of on-line and unsupervised learning provides plasticity and robustness properties to the data processing in SOMMA. Classical artificial intelligence models usually miss such properties

Estilos ABNT, Harvard, Vancouver, APA, etc.

4

Geiler, Louis. "Deep learning for churn prediction". Electronic Thesis or Diss., Université Paris Cité, 2022. http://www.theses.fr/2022UNIP7333.

Texto completo da fonte

Resumo:

Le problème de la prédiction de l’attrition est généralement réservé aux équipes de marketing. Cependant,grâce aux avancées technologiques, de plus en plus de données peuvent être collectés afin d’analyser le comportement des clients. C’est dans ce cadre que cette thèse s’inscrit, plus particulièrement par l’exploitation des méthodes d’apprentissages automatiques. Ainsi, nous avons commencés par étudier ce problème dans le cadre de l’apprentissage supervisé. Nous avons montré que la combinaison en ensemble de la régression logistique, des forêt aléatoire et de XGBoost offraient les meilleurs résultats en terme d’Aire sous la courbe (Are Under the Curve, AUC). Nous avons également montré que les méthodes du type ré-échantillonage jouent uniquement un rôle local et non pas global.Ensuite, nous avons enrichi nos prédictions en prenant en compte la segmentation des clients. En effet, certains clients peuvent quitter le service à cause d’un coût qu’ils jugent trop élevés ou suite à des difficultés rencontrés avec le service client. Notre approche a été réalisée avec une nouvelle architecture de réseaux de neurones profonds qui exploite à la fois les autoencodeur et l’approche desk-means. De plus, nous nous sommes intéressés à l’apprentissage auto-supervisé dans le cadre tabulaire. Plus précisément, notre architecture s’inspire des travaux autour de l’approche SimCLR en modificant l’architecture mean-teacher du domaine du semi-supervisé. Nous avons montré via la win matrix la supériorité de notre approche par rapport à l’état de l’art. Enfin, nous avons proposé d’appliquer les connaissances acquises au cours de ce travail de thèse dans un cadre industriel, celui de Brigad. Nous avons atténué le problème de l’attrition à l’aide des prédictions issues de l’approche de forêt aléatoire que nous avons optimisés via un grid search et l’optimisation des seuils. Nous avons également proposé une interprétation des résultats avec les méthodes SHAP (SHapley Additive exPlanations)
The problem of churn prediction has been traditionally a field of study for marketing. However, in the wake of the technological advancements, more and more data can be collected to analyze the customers behaviors. This manuscript has been built in this frame, with a particular focus on machine learning. Thus, we first looked at the supervised learning problem. We have demonstrated that logistic regression, random forest and XGBoost taken as an ensemble offer the best results in terms of Area Under the Curve (AUC) among a wide range of traditional machine learning approaches. We also have showcased that the re-sampling approaches are solely efficient in a local setting and not a global one. Subsequently, we aimed at fine-tuning our prediction by relying on customer segmentation. Indeed,some customers can leave a service because of a cost that they deem to high, and other customers due to a problem with the customer’s service. Our approach was enriched with a novel deep neural network architecture, which operates with both the auto-encoders and the k-means approach. Going further, we focused on self-supervised learning in the tabular domain. More precisely, the proposed architecture was inspired by the work on the SimCLR approach, where we altered the architecture with the Mean-Teacher model from semi-supervised learning. We showcased through the win matrix the superiority of our approach with respect to the state of the art. Ultimately, we have proposed to apply what we have built in this manuscript in an industrial setting, the one of Brigad. We have alleviated the company churn problem with a random forest that we optimized through grid-search and threshold optimization. We also proposed to interpret the results with SHAP (SHapley Additive exPlanations)

Estilos ABNT, Harvard, Vancouver, APA, etc.

5

Zaiem, Mohamed Salah. "Informed Speech Self-supervised Representation Learning". Electronic Thesis or Diss., Institut polytechnique de Paris, 2024. http://www.theses.fr/2024IPPAT009.

Texto completo da fonte

Resumo:

L'apprentissage des caractéristiques a été un des principaux moteurs des progrès de l'apprentissage automatique. L'apprentissage auto-supervisé est apparu dans ce contexte, permettant le traitement de données non étiquetées en vue d'une meilleure performance sur des tâches faiblement étiquetées. La première partie de mon travail de doctorat vise à motiver les choix dans les pipelines d'apprentissage auto-supervisé de la parole qui apprennent les représentations non supervisées. Dans cette thèse, je montre d'abord comment une fonction basée sur l'indépendance conditionnelle peut être utilisée pour sélectionner efficacement et de manière optimale des tâches de pré-entraînement adaptées à la meilleure performance sur une tâche cible. La deuxième partie de mon travail de doctorat étudie l'évaluation et l'utilisation de représentations auto-supervisées pré-entraînées. J'y explore d'abord la robustesse des benchmarks actuels d'auto-supervision de la parole aux changements dans les choix de modélisation en aval. Je propose, ensuite, de nouvelles approches d'entraînement en aval favorisant l'efficacité et la généralisation
Feature learning has been driving machine learning advancement with the recently proposed methods getting progressively rid of handcrafted parts within the transformations from inputs to desired labels. Self-supervised learning has emerged within this context, allowing the processing of unlabeled data towards better performance on low-labeled tasks. The first part of my doctoral work is aimed towards motivating the choices in the speech selfsupervised pipelines learning the unsupervised representations. In this thesis, I first show how conditional-independence-based scoring can be used to efficiently and optimally select pretraining tasks tailored for the best performance on a target task. The second part of my doctoral work studies the evaluation and usage of pretrained self-supervised representations. I explore, first, the robustness of current speech self-supervision benchmarks to changes in the downstream modeling choices. I propose, second, fine-tuning approaches for better efficicency and generalization

Estilos ABNT, Harvard, Vancouver, APA, etc.

6

Jouffroy, Emma. "Développement de modèles non supervisés pour l'obtention de représentations latentes interprétables d'images". Electronic Thesis or Diss., Bordeaux, 2024. http://www.theses.fr/2024BORD0050.

Texto completo da fonte

Resumo:

Le Laser Mégajoule (LMJ) est un instrument d’envergure qui simule des conditions de pression et de température similaires à celles des étoiles. Lors d’expérimentations, plusieurs diagnostics sont guidés dans la chambre d’expériences et il est essentiel qu’ils soient positionnés de manière précise. Afin de minimiser les risques liés à l’erreur humaine dans un tel contexte expérimental, la mise en place d'un système anti-collision automatisé est envisagée. Cela passe par la conception d’outils d’apprentissage automatique offrant des niveaux de décision fiables à partir de l’interprétation d’images issues de caméras positionnées dans la chambre. Nos travaux de recherche se concentrent sur des méthodes neuronales génératives probabilistes, en particulier les auto-encodeurs variationnels (VAEs). Le choix de cette classe de modèles est lié au fait qu’elle rende possible l’accès à un espace latent lié directement aux propriétés des objets constituant la scène observée. L’enjeu majeur est d’étudier la conception de modèles de réseaux profonds permettant effectivement d’accéder à une telle représentation pleinement informative et interprétable dans un objectif de fiabilité du système. Le formalisme probabiliste intrinsèque du VAE nous permet, si nous pouvons remonter à une telle représentation, d’accéder à une analyse d’incertitudes des informations encodées
The Laser Megajoule (LMJ) is a large research device that simulates pressure and temperature conditions similar to those found in stars. During experiments, diagnostics are guided into an experimental chamber for precise positioning. To minimize the risks associated with human error in such an experimental context, the automation of an anti-collision system is envisaged. This involves the design of machine learning tools offering reliable decision levels based on the interpretation of images from cameras positioned in the chamber. Our research focuses on probabilistic generative neural methods, in particular variational auto-encoders (VAEs). The choice of this class of models is linked to the fact that it potentially enables access to a latent space directly linked to the properties of the objects making up the observed scene. The major challenge is to study the design of deep network models that effectively enable access to such a fully informative and interpretable representation, with a view to system reliability. The probabilistic formalism intrinsic to VAE allows us, if we can trace back to such a representation, to access an analysis of the uncertainties of the encoded information

Estilos ABNT, Harvard, Vancouver, APA, etc.

7

Roger, Vincent. "Modélisation de l'indice de sévérité du trouble de la parole à l'aide de méthodes d'apprentissage profond : d'une modélisation à partir de quelques exemples à un apprentissage auto-supervisé via une mesure entropique". Thesis, Toulouse 3, 2022. http://www.theses.fr/2022TOU30180.

Texto completo da fonte

Resumo:

Les personnes atteintes de cancers des voies aérodigestives supérieures présentent des difficultés de prononciation après des chirurgies ou des radiothérapies. Il est important pour le praticien de pouvoir disposer d'une mesure reflétant la sévérité de la parole. Pour produire cette mesure, il est communément pratiqué une étude perceptive qui rassemble un groupe de cinq à six experts cliniques. Ce procédé limite l'usage de cette évaluation en pratique. Ainsi, la création d'une mesure automatique, semblable à l'indice de sévérité, permettrait un meilleur suivi des patients en facilitant son obtention. Pour réaliser une telle mesure, nous nous sommes appuyés sur une tâche de lecture, classiquement réalisée. Nous avons utilisé les enregistrements du corpus C2SI-RUGBI qui rassemble plus de 100 personnes. Ce corpus représente environ une heure d'enregistrement pour modéliser l'indice de sévérité. Dans ce travail de doctorat, une revue des méthodes de l'état de l'art sur la reconnaissance de la parole, des émotions et du locuteur utilisant peu de données a été entreprise. Nous avons ensuite essayé de modéliser la sévérité à l'aide d'apprentissage par transfert et par apprentissage profond. Les résultats étant non utilisables, nous nous sommes tourné sur les techniques dites "few shot" (apprentissage à partir de quelques exemples seulement). Ainsi, après de premiers essais prometteurs sur la reconnaissance de phonèmes, nous avons obtenu des résultats prometteurs pour catégoriser la sévérité des patients. Néanmoins, l'exploitation de ces résultats pour une application médicale demanderait des améliorations. Nous avons donc réalisé des projections des données de notre corpus. Comme certaines tranches de scores étaient séparables à l'aide de paramètres acoustiques, nous avons proposé une nouvelle méthode de mesure entropique. Celle-ci est fondée sur des représentations de la parole autoapprise sur le corpus Librispeech : le modèle PASE+, qui est inspiré de l'Inception Score (généralement utilisé en image pour évaluer la qualité des images générées par les modèles). Notre méthode nous permet de produire un score semblable à l'indice de sévérité avec une corrélation de Spearman de 0,87 sur la tâche de lecture du corpus cancer. L'avantage de notre approche est qu'elle ne nécessite pas des données du corpus C2SI-RUGBI pour l'apprentissage. Ainsi, nous pouvons utiliser l'entièreté du corpus pour l'évaluation de notre système. La qualité de nos résultats nous a permis d'envisager une utilisation en milieu clinique à travers une application sur tablette : des tests sont d'ailleurs en cours à l'hôpital Larrey de Toulouse
People with head and neck cancers have speech difficulties after surgery or radiation therapy. It is important for health practitioners to have a measure that reflects the severity of speech. To produce this measure, a perceptual study is commonly performed with a group of five to six clinical experts. This process limits the use of this assessment in practice. Thus, the creation of an automatic measure, similar to the severity index, would allow a better follow-up of the patients by facilitating its obtaining. To realise such a measure, we relied on a reading task, classically performed. We used the recordings of the C2SI-RUGBI corpus, which includes more than 100 people. This corpus represents about one hour of recording to model the severity index. In this PhD work, a review of state-of-the-art methods on speech, emotion and speaker recognition using little data was undertaken. We then attempted to model severity using transfer learning and deep learning. Since the results were not usable, we turned to the so-called "few shot" techniques (learning from only a few examples). Thus, after promising first attempts at phoneme recognition, we obtained promising results for categorising the severity of patients. Nevertheless, the exploitation of these results for a medical application would require improvements. We therefore performed projections of the data from our corpus. As some score slices were separable using acoustic parameters, we proposed a new entropic measurement method. This one is based on self-supervised speech representations on the Librispeech corpus: the PASE+ model, which is inspired by the Inception Score (generally used in image processing to evaluate the quality of images generated by models). Our method allows us to produce a score similar to the severity index with a Spearman correlation of 0.87 on the reading task of the cancer corpus. The advantage of our approach is that it does not require data from the C2SI-RUGBI corpus for training. Thus, we can use the whole corpus for the evaluation of our system. The quality of our results has allowed us to consider a use in a clinical environment through an application on a tablet: tests are underway at the Larrey Hospital in Toulouse

Estilos ABNT, Harvard, Vancouver, APA, etc.

8

Sarazin, Tugdual. "Apprentissage massivement distribué dans un environnement Big Data". Thesis, Sorbonne Paris Cité, 2018. http://www.theses.fr/2018USPCD050.

Texto completo da fonte

Resumo:

Lors de ces dernières années les volumes de données analysées par les entreprises et les laboratoires de recherches ont fortement augment´es ouvrant ainsi l’`ere du BigData. Cependant ces données brutes sont fréquemment non catégorisées et difficilement exploitables. Cette thèse vise à améliorer et faciliter le pré-traitement et la comprehension de grands volumes de données en fournissant des algorithmes d’apprentissage non supervisés. La première partie de cette thèse est consacrée à un état de l’art des algorithmes de partitionnement et bi-partitionnement ainsi qu’une présentation des technologies du Big Data. La première contribution de cette thèse est dédiée à la conception de l’algorithme de clustering Self-Organizing Map ou carte auto-organisatrice [Kohonen,2001] dans un environnement Big data. Notre algorithme (SOM-MR) fournit les mêmes avantages que l’algorithme de base, à savoir la création de partition de données et leur visualisation sous la forme de carte. De plus il utilise la plateforme Spark, ce qui lui permet à la fois de traiter de grands volumes de données en peu de temps. De part la popularité de cette plateforme il s’intègre facilement dans dans de nombreux environnements de traitement de données. C’est ce que nous avons démontré dans notre projet “Square Predict” réalisé en partenariat avec l’assurance Axa. Ce projet avait pour objectif de fournir une plateforme d’analyse de données en temps r´eel afin d’évaluer la sévérité d’une catastrophe naturelle ou d’améliorer la connaissance des risques résidentiels. Durant ce projet nous avons démontré l’efficacité de notre algorithme pour analyser et fournir des visualisations à partir de grands volumes de données provenant des réseaux sociaux et d’Open data. La deuxième contribution de cette thèse est consacrée à un nouvel algorithme de BiClustering. Le BiClustering consiste `a réaliser un clustering simultanément sur les observations et les variables. Dans cette contribution nous proposons une nouvelle approche de biclustering bas´e sur l’algorithme self-organizing maps capable de passer `a l’échelle sur de grands volumes de données (BiTM-MR). Pour ce faire il est également basé sur la plateforme des technologies Big data. Mais il apporte davantage d’informations que notre algorithme SOM-MR car en plus de produire des groupes d’observations il associe des variables à ces groupes, formant ainsi des bi-groupes d’observations et variables
In recent years, the amount of data analysed by companies and research laboratories increased strongly, opening the era of BigData. However, these raw data are frequently non-categorized and uneasy to use. This thesis aims to improve and ease the pre-treatment and comprehension of these big amount of data by using unsupervised machine learning algorithms.The first part of this thesis is dedicated to a state-of-the-art of clustering and biclustering algorithms and to an introduction to big data technologies. The first part introduces the conception of clustering Self-Organizing Map algorithm [Kohonen,2001] in big data environment. Our algorithm (SOM-MR) provides the same advantages as the original algorithm, namely the creation of data visualisation map based on data clusters. Moreover, it uses the Spark platform that makes it able to treat a big amount of data in a short time. Thanks to the popularity of this platform, it easily fits in many data mining environments. This is what we demonstrated it in our project \Square Predict" carried out in partnership with Axa insurance. The aim of this project was to provide a real-time data analysing platform in order to estimate the severity of natural disasters or improve residential risks knowledge. Throughout this project, we proved the efficiency of our algorithm through its capacity to analyse and create visualisation out of a big volume of data coming from social networks and open data.The second part of this work is dedicated to a new bi-clustering algorithm. BiClustering consists in making a cluster of observations and variables at the same time. In this contribution we put forward a new approach of bi-clustering based on the self-organizing maps algorithm that can scale on big amounts of data (BiTM-MR). To reach this goal, this algorithm is also based on a the Spark platform. It brings out more information than the SOM-MR algorithm because besides producing observation groups, it also associates variables to these groups,thus creating bi-clusters of variables and observations

Estilos ABNT, Harvard, Vancouver, APA, etc.

9

Luce-Vayrac, Pierre. "Open-Ended Affordance Discovery in Robotics Using Pertinent Visual Features". Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS670.

Texto completo da fonte

Resumo:

L'analyse de scène est un problème difficile en vision par ordinateur et en robotique. Il s'agit généralement d'un processus d'observation seul, dans lequel le robot acquiert des données sur son environnement par le biais de ses capteurs extéroceptifs puis les traite avec des algorithmes spécifiques (par exemple les réseaux de neurones profonds dans les approches modernes), afin de produire une interprétation de la scène: 'Ceci est une chaise parce que cela ressemble à une chaise'. Pour qu'un robot opère correctement dans son environnement, il doit le comprendre. Il doit lui donner du sens en lien avec ses motivations et ses capacités d'action. Nous pensons que l'analyse de scène requiert une interaction avec l'environnement, dans lequel la perception, l'action et la proprioception sont intégrées. Le travail décrit dans cette thèse explore cette perspective, qui s’inspire des travaux en psychologie et neuroscience montrant le lien étroit qui existe entre action et perception. James J. Gibson a introduit le concept d'affordance en 1977. Il y propose que les animaux ont tendance à percevoir leur environnement en fonction de ce qu'ils peuvent accomplir avec (ce qu'il leur afforde), plutôt qu'en fonction de ses propriétés intrinsèques: 'Ceci est une chaise parce que je peux m'asseoir dessus'. Il existe une variété d'approches qui étudient les affordances en robotique, beaucoup s'accordent pour représenter une affordance comme un triplet (effet, (action, entité)), tel qu'un certain effet soit généré lorsque une certaine action est exercée sur une certaine entité. Cependant, la plupart des auteurs utilisent des descripteurs prédéfinies pour décrire l'environnement. Nous pensons que l'apprentissage d'affordance sur des descripteurs prédéfinies va à l’encontre de leur objectif, en les limitant au sous-espace perceptuel défini par ces descripteurs. De plus, nous affirmons qu'il est impossible de prédéfinir un ensemble de descripteurs suffisamment général pour des environnements ouverts. Dans cette thèse, nous proposons et développons une approche permettant à un robot d’apprendre des affordances en construisant simultanément les descripteurs pertinents de l’environnement. Pour amorcer la découverte d'affordance, nous utilisons une boucle d’interaction classique. Le robot exécute une séquence de commandes motrices (action a) sur une partie de l'environnement ('objet' o) décrit à l'aide d'un ensemble prédéfini de descripteurs initiaux (couleur et taille) et observe le résultat (effet e). En itérant ce processus, un jeu de données d'instances (e, (a, o)) est créé. Cet ensemble de données est ensuite utilisé pour apprendre un modèle prédictif d'affordance. Pour apprendre un nouveau descripteur, la même boucle est employée pour entraîner un réseau de neurones convolutifs (CNN). Les données brutes (images 2D) de l'objet o sont utilisées en tant qu'entrée et l'effet e en tant que sortie attendue. L'action est implicite, un CNN différent est instancié pour chaque action. L'entraînement est auto-supervisée car les données d'interaction sont produites par le robot lui-même. Pour pouvoir prédire correctement les affordances, le réseau doit extraire des caractéristiques visuelles pertinentes dans cet environnement et pour les capacités motrices du robot. Les caractéristiques apprisent par la méthode sont ensuite ajoutées au jeu de descripteurs initial. Pour que l'apprentissage fonctionne en milieu ouvert, nous ajoutons un critère de d'ambiguïté. Si l'agent exécute une même action sur deux objets apparemment similaires (selon l'ensemble de descripteurs actuel), mais n'observe pas le même effet, alors il doit supposer qu'il ne possède pas les descripteurs requis pour distinguer ces objets selon cette action, il doit donc découvrir et apprendre ces nouveaux descripteurs pour réduire cette ambiguïté. Plusieurs expériences sur robot réel ont montré que nous pouvons atteindre des performances prédictives similaires aux approches classiques [...]
Scene understanding is a challenging problem in computer vision and robotics. It is traditionally addressed as an observation only process, in which the robot acquires data on its environment through its exteroceptive sensors, and processes it with specific algorithms (using for example Deep Neural Nets in modern approaches), to produce an interpretation: 'This is a chair because this looks like a chair'. For a robot to properly operate in its environment it needs to understand it. It needs to make sense of it in relation to its motivations and to its action capacities. We believe that scene understanding requires interaction with the environment, wherein perception, action and proprioception are integrated. The work described in this thesis explores this avenue which is inspired by work in Psychology and Neuroscience showing the strong link between action and perception. The concept of affordance has been introduced by James J. Gibson in 1977. It states that animals tend to perceive their environment through what they can accomplish with it (what it affords them), rather than solely through its intrinsic properties: 'This is a chair because I can sit on it.'. There is a variety of approaches studying affordances in robotics, largely agreeing on representing an affordance as a triplet (effect, (action, entity)), such that the effect effect is generated when action action is exerted on entity entity. However most authors use predefined features to describe the environment. We argue that building affordances on predefined features is actually defeating their purpose, by limiting them to the perceptual subspace generated by these features. Furthermore we affirm the impracticability of predefining a set of features general enough to describe entities in open-ended environments. In this thesis, we propose and develop an approach to enable a robot to learn affordances while simultaneously building relevant features describing the environment. To bootstrap affordance discovery we use a classical interaction loop. The robot executes a sequence of motor controls (action a) on a part of the environment ('object' o) described using a predefined set of initial features (color and size) and observes the result (effect e). By repeating this process, a dataset of (e, (a, o)) instances is built. This dataset is then used to train a predictive model of the affordance. To learn a new feature, the same loop is used, but instead of using a predefined set of descriptors of o we use a deep convolutional neural network (CNN). The raw data (2D images) of o is used as input and the effect e as expected output. The action is implicit as a different CNN is trained for each specific action. The training is self-supervised as the interaction data is produced by the robot itself. In order to correctly predict the affordance, the network must extract features which are directly relevant to the environment and the motor capabilities of the robot. Any feature learned by the method can then be added to the initial descriptors set. To achieve open-ended learning, whenever the agent executes the same action on two apparently similar objects (regarding a currently used set of features), but does not observe the same effect, it has to assume that it does not possess the relevant features to distinguish those objects in regard to this action, hence it needs to discover and learn these new features to reduce ambiguity. The robot will use the same approach to enrich its descriptor set. Several experiments on a real robotic setup showed that we can reach predictive performance similar to classical approaches which use predefined descriptors, while avoiding their limitation

Estilos ABNT, Harvard, Vancouver, APA, etc.

10

Chareyre, Maxime. "Apprentissage non-supervisé pour la découverte de propriétés d'objets par découplage entre interaction et interprétation". Electronic Thesis or Diss., Université Clermont Auvergne (2021-...), 2023. http://www.theses.fr/2023UCFA0122.

Texto completo da fonte

Resumo:

Les robots sont de plus en plus utilisés pour réaliser des tâches dans des environnements contrôlés. Leur utilisation en milieu ouvert est cependant encore confrontée à des difficultés. L'agent robotique est en effet susceptible de rencontrer des objets dont il ignore le comportement et la fonction. Dans certains cas, il doit interagir avec ces éléments pour réaliser sa mission en les collectant ou en les déplaçant mais, sans la connaissance de leurs propriétés dynamiques il n'est pas possible de mettre en place une stratégie de résolution de la mission efficace.Dans cette thèse, nous présentons une méthode visant à apprendre à un robot autonome une stratégie d'interaction physique avec des objets inconnus, sans aucune connaissance a priori, l'objectif étant d'extraire de l'information sur un maximum de propriétés physiques de l'objet à partir des interactions observées par ses capteurs. Les méthodes existantes pour la caractérisation d'objets par interactions physiques ne répondent pas entièrement à ces critères. En effet, les interactions établies ne permettent qu'une représentation implicite de la dynamique des objets, nécessitant une supervision pour identifier leurs propriétés. D'autre part, la solution proposée s'appuie sur des scénarios peu réalistes sans agent. Notre approche se distingue de l'état de l'art en proposant une méthode générique pour l'apprentissage de l'interaction, indépendante de l'objet et de ses propriétés, et pouvant donc être découplée de la phase de leurs prédictions. Cela permet notamment de mener à un pipeline global totalement non-supervisé.Dans une première phase, nous proposons d'apprendre une stratégie d'interaction avec l'objet via une méthode d'apprentissage par renforcement non-supervisée, en utilisant un signal de motivation intrinsèque qui repose sur l'idée de maximisation des variations d'un vecteur d'état de l'objet. Le but est d'obtenir une série d'interactions contenant des informations fortement corrélées aux propriétés physiques de l'objet. Cette méthode a été testée sur un robot simulé interagissant par poussée et a permis d'identifier avec précision des propriétés telles que la masse, la forme de l'objet et les frottements.Dans une seconde phase, nous réalisons l'hypothèse que les vraies propriétés physiques définissent un espace latent explicatif des comportements de l'objet et que cet espace peut être identifié à partir des observations recueillies grâce aux interactions de l'agent. Nous mettons en place une tâche de prédiction auto-supervisée dans laquelle nous adaptons une architecture de l'état de l'art pour construire cet espace latent. Nos simulations confirment que la combinaison du modèle comportemental avec cette architecture permet de faire émerger une représentation des propriétés de l'objet dont les composantes principales s'avèrent fortement corrélées avec les propriétés physiques de l'objet.Les propriétés des objets étant extraites, l'agent peut les exploiter pour améliorer son efficacité dans des tâches impliquant ces objets. Nous concluons cette étude par une mise en avant du gain de performance de l'agent au travers d'un entraînement via l'apprentissage par renforcement sur une tâche simplifiée de repositionnement d'objet où les propriétés sont parfaitement connues.L'intégralité du travail effectué en simulation confirme l'efficacité d'une méthode novatrice visant à découvrir en autonomie les propriétés physiques d'un objet au travers d'interactions physiques d'un robot. Les perspectives d'extension de ces travaux concernent le transfert vers un robot réel en milieu encombré
Robots are increasingly used to achieve tasks in controlled environments. However, their use in open environments is still fraught with difficulties. Robotic agents are likely to encounter objects whose behaviour and function they are unaware of. In some cases, it must interact with these elements to carry out its mission by collecting or moving them, but without knowledge of their dynamic properties it is not possible to implement an effective strategy for resolving the mission.In this thesis, we present a method for teaching an autonomous robot a physical interaction strategy with unknown objects, without any a priori knowledge, the aim being to extract information about as many of the object's physical properties as possible from the interactions observed by its sensors. Existing methods for characterising objects through physical interactions do not fully satisfy these criteria. Indeed, the interactions established only provide an implicit representation of the object's dynamics, requiring supervision to identify their properties. Furthermore, the proposed solution is based on unrealistic scenarios without an agent. Our approach differs from the state of the art by proposing a generic method for learning interaction that is independent of the object and its properties, and can therefore be decoupled from the prediction phase. In particular, this leads to a completely unsupervised global pipeline.In the first phase, we propose to learn an interaction strategy with the object via an unsupervised reinforcement learning method, using an intrinsic motivation signal based on the idea of maximising variations in a state vector of the object. The aim is to obtain a set of interactions containing information that is highly correlated with the object's physical properties. This method has been tested on a simulated robot interacting by pushing and has enabled properties such as the object's mass, shape and friction to be accurately identified.In a second phase, we make the assumption that the true physical properties define a latent space that explains the object's behaviours and that this space can be identified from observations collected through the agent's interactions. We set up a self-supervised prediction task in which we adapt a state-of-the-art architecture to create this latent space. Our simulations confirm that combining the behavioural model with this architecture leads to the emergence of a representation of the object's properties whose principal components are shown to be strongly correlated with the object's physical properties.Once the properties of the objects have been extracted, the agent can use them to improve its efficiency in tasks involving these objects. We conclude this study by highlighting the performance gains achieved by the agent through training via reinforcement learning on a simplified object repositioning task where the properties are perfectly known.All the work carried out in simulation confirms the effectiveness of an innovative method aimed at autonomously discovering the physical properties of an object through the physical interactions of a robot. The prospects for extending this work involve transferring it to a real robot in a cluttered environment

Estilos ABNT, Harvard, Vancouver, APA, etc.

Mais fontes

Oferecemos descontos em todos os planos premium para autores cujas obras estão incluídas em seleções literárias temáticas. Contate-nos para obter um código promocional único!