Littérature scientifique sur le sujet « Apprentissage par renforcement conditionné par des buts »

Créez une référence correcte selon les styles APA, MLA, Chicago, Harvard et plusieurs autres

Choisissez une source :

Sommaire

Consultez les listes thématiques d’articles de revues, de livres, de thèses, de rapports de conférences et d’autres sources académiques sur le sujet « Apprentissage par renforcement conditionné par des buts ».

À côté de chaque source dans la liste de références il y a un bouton « Ajouter à la bibliographie ». Cliquez sur ce bouton, et nous générerons automatiquement la référence bibliographique pour la source choisie selon votre style de citation préféré : APA, MLA, Harvard, Vancouver, Chicago, etc.

Vous pouvez aussi télécharger le texte intégral de la publication scolaire au format pdf et consulter son résumé en ligne lorsque ces informations sont inclues dans les métadonnées.

Thèses sur le sujet "Apprentissage par renforcement conditionné par des buts"

1

Fournier, Pierre. « Intrinsically Motivated and Interactive Reinforcement Learning : a Developmental Approach ». Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS634.

Texte intégral
Résumé :
L'apprentissage par renforcement est aujourd'hui plus populaire que jamais, mais plusieurs compétences simples lui restent hors de portée: manipulation d'objets, contrôle sensorimoteur, interaction naturelle avec d'autres agents. Une approche possible pour aborder ces défis consiste à s'inspirer du développement humain, voire de tenter de le reproduire. Dans cette thèse, nous étudions l'intersection de deux sujets cruciaux en sciences du développement, et leur application à l'apprentissage par renforcement dans le but d'aborder ces défis: l'apprentissage social et la motivation intrinsèque. L'interaction et la motivation intrinsèque ont déjà été étudiées, séparément, en combinaison avec l'apprentissage par renforcement, mais avec l'objectif d'améliorer les performances d'agents existants plutôt que d'apprendre de manière développementale. Nous concentrons donc à l'inverse notre étude sur l'aspect développemental de ces deux sujets. Nos travaux de thèse abordent en particulier l'auto-organisation de l'apprentissage en trajectoires développementale par recherche intrinsèquement motivée du progrès d'apprentissage, et l'interaction de cette organisation avec l'apprentissage dirigé vers des buts et l'apprentissage par imitation. Nous montrons que ces différents mécanismes, lorsqu'ils sont mis en place dans des environnements ouverts sans tâche prédéfinie, peuvent interagir pour produire des comportements d'apprentissage satisfaisants d'un point de vue développemental, et plus riches que ceux produits par chaque mécanisme séparément: génération automatique de curriculum, imitation sélective, suivi non-supervisé de démonstrations
Reinforcement learning (RL) is today more popular than ever, but certain basic skills are still out of reach of this paradigm: object manipulation, sensorimotor control, natural interaction with other agents. A possible approach to address these challenges consist in taking inspiration from human development, or even trying to reproduce it. In this thesis, we study the intersection of two crucial topics in developmental sciences and how to apply them to RL in order to tackle the aforementioned challenges: interactive learning and intrinsic motivation. Interactive learning and intrinsic motivation have already been studied, separately, in combination with RL, but in order to improve quantitatively existing agents performances, rather than to learn in a developmental fashion. We thus focus our efforts on the developmental aspect of these subjects. Our work touches the self-organisation of learning in developmental trajectories through an intrinsically motivated for learning progress, and the interaction of this organisation with goal-directed learning and imitation learning. We show that these mechanisms, when implemented in open-ended environments with no task predefined, can interact to produce learning behaviors that are sound from a developmental standpoint, and richer than those produced by each mechanism separately
Styles APA, Harvard, Vancouver, ISO, etc.
2

Chenu, Alexandre. « Leveraging sequentiality in Robot Learning : Application of the Divide & ; Conquer paradigm to Neuro-Evolution and Deep Reinforcement Learning ». Electronic Thesis or Diss., Sorbonne université, 2023. http://www.theses.fr/2023SORUS342.

Texte intégral
Résumé :
"Pour réussir, il ne suffit pas de prévoir, il faut aussi savoir improviser." Cette citation d’Isaac Asimov, père fondateur de la robotique et auteur des Trois lois de la robotique, souligne toute l’importance d’être capable de s’adapter et d’agir dans l’instant présent pour réussir. Même si, aujourd’hui, les robots peuvent résoudre des tâches d’une complexité qui était inimaginable il y a encore quelques années, ces capacités d’adaptation leur font encore défaut, ce qui les empêche d’être déployé à une plus grande échelle. Pour remédier à ce manque d’adaptabilité, les roboticiens utilisent des algorithmes d’apprentissage afin de permettre aux robots de résoudre des tâches complexes de manière autonome. Deux types d’algorithmes d’apprentissage sont particulièrement adaptés à l’apprentissage autonome de contrôleurs par les robots : l’apprentissage profond par renforcement et la neuro-évolution. Cependant, ces deux classes d’algorithmes ne sont capables de résoudre des problèmes d’exploration difficiles, c’est-à- dire des problèmes avec un horizon long et un signal de récompense rare, que s’ils sont guidés dans leur processus d’apprentissage. Différentes approches peuvent être envisagées pour permettre à un robot de résoudre un tel problème sans être guidé. Une première approche consiste à rechercher une diversité de comportements plutôt qu’un comportement spécifique. L’idée étant que parmi cette diversité, certains comportements seront probablement capables de résoudre la tâche qui nous intéresse. Nous les appelons les algorithmes de recherche de diversité. Une deuxième approche consiste à guider le processus d’apprentissage en utilisant des démonstrations fournies par un expert. C’est ce qu’on appelle l’apprentissage par démonstration. Cependant, chercher des comportements divers ou apprendre par démonstration peut être inefficace dans certains contextes. En effet, la recherche de comportements divers peut être fastidieuse si l’environnement est complexe. D’autre part, l’apprentissage à partir d’une seule et unique démonstration peut être très difficile. Dans cette thèse, nous tentons d’améliorer l’efficacité des approches de recherche par diversité et d’apprentissage à partir d’une seule démonstration dans des problèmes d’exploration difficiles. Pour ce faire, nous supposons que les comportements robotiques complexes peuvent être décomposés en sous-comportements plus simples. Sur la base de ce biais séquentiel, nous adoptons une stratégie dite de "diviser-pour-régner", qui est bien connue pour être efficace lorsque le problème est composable. Nous proposons deux approches en particulier. Premièrement, après avoir identifié certaines limites des algorithmes de recherche de diversité basés sur la l’évolution de réseaux de neurones artificiels, nous proposons Novelty Search Skill Chaining. Cet algorithme combine la recherche de diversité avec l’enchaînement de compétences pour naviguer efficacement dans des labyrinthes qui sont difficiles à explorer pour des algorithmes de l’état-de-l’art. Dans une deuxième série de contributions, nous proposons les algorithmes Divide & Conquer Imitation Learning. L’intuition derrière ces méthodes est de décomposer la tâche complexe d’apprentissage à partir d’une seule démonstration en plusieurs sous-tâches plus simples consistant à atteindre des sous-buts successifs. DCIL-II, la variante la plus avancée, est capable d’apprendre des comportements de marche pour des robots humanoïdes sous-actionnés avec une efficacité sans précédent. Au-delà de souligner l’efficacité du paradigme de diviser-pour-régner dans l’apprentissage des robots, cette thèse met également en évidence les difficultés qui peuvent survenir lorsqu’on compose de comportements, même dans des environnements élémentaires. Il faudra inévitablement résoudre ces difficultés avant d’appliquer ces algorithmes directement à des robots réels. C’est peut-être une condition nécessaire pour le succès des prochaines générations [...]
“To succeed, planning alone is insufficient. One must improvise as well.” This quote from Isaac Asimov, founding father of robotics and author of the Three Laws of Robotics, emphasizes the importance of being able to adapt and think on one’s feet to achieve success. Although robots can nowadays resolve highly complex tasks, they still need to gain those crucial adaptability skills to be deployed on a larger scale. Robot Learning uses learning algorithms to tackle this lack of adaptability and to enable robots to solve complex tasks autonomously. Two types of learning algorithms are particularly suitable for robots to learn controllers autonomously: Deep Reinforcement Learning and Neuro-Evolution. However, both classes of algorithms often cannot solve Hard Exploration Problems, that is problems with a long horizon and a sparse reward signal, unless they are guided in their learning process. One can consider different approaches to tackle those problems. An option is to search for a diversity of behaviors rather than a specific one. The idea is that among this diversity, some behaviors will be able to solve the task. We call these algorithms Diversity Search algorithms. A second option consists in guiding the learning process using demonstrations provided by an expert. This is called Learning from Demonstration. However, searching for diverse behaviors or learning from demonstration can be inefficient in some contexts. Indeed, finding diverse behaviors can be tedious if the environment is complex. On the other hand, learning from demonstration can be very difficult if only one demonstration is available. This thesis attempts to improve the effectiveness of Diversity Search and Learning from Demonstration when applied to Hard Exploration Problems. To do so, we assume that complex robotics behaviors can be decomposed into reaching simpler sub-goals. Based on this sequential bias, we try to improve the sample efficiency of Diversity Search and Learning from Demonstration algorithms by adopting Divide & Conquer strategies, which are well-known for their efficiency when the problem is composable. Throughout the thesis, we propose two main strategies. First, after identifying some limitations of Diversity Search algorithms based on Neuro-Evolution, we propose Novelty Search Skill Chaining. This algorithm combines Diversity Search with Skill- Chaining to efficiently navigate maze environments that are difficult to explore for state-of-the-art Diversity Search. In a second set of contributions, we propose the Divide & Conquer Imitation Learning algorithms. The key intuition behind those methods is to decompose the complex task of learning from a single demonstration into several simpler goal-reaching sub-tasks. DCIL-II, the most advanced variant, can learn walking behaviors for under-actuated humanoid robots with unprecedented efficiency. Beyond underlining the effectiveness of the Divide & Conquer paradigm in Robot Learning, this work also highlights the difficulties that can arise when composing behaviors, even in elementary environments. One will inevitably have to address these difficulties before applying these algorithms directly to real robots. It may be necessary for the success of the next generations of robots, as outlined by Asimov
Styles APA, Harvard, Vancouver, ISO, etc.
3

Gueguen, Maëlle. « Dynamique intracérébrale de l'apprentissage par renforcement chez l'humain ». Thesis, Université Grenoble Alpes (ComUE), 2017. http://www.theses.fr/2017GREAS042/document.

Texte intégral
Résumé :
Chaque jour, nous prenons des décisions impliquant de choisir les options qui nous semblent les plus avantageuses, en nous basant sur nos expériences passées. Toutefois, les mécanismes et les bases neurales de l’apprentissage par renforcement restent débattus. D’une part, certains travaux suggèrent l’existence de deux systèmes opposés impliquant des aires cérébrales corticales et sous-corticales distinctes lorsque l’on apprend par la carotte ou par le bâton. D’autres part, des études ont montré une ségrégation au sein même de ces régions cérébrales ou entre des neurones traitant l’apprentissage par récompenses et celui par évitement des punitions. Le but de cette thèse était d’étudier la dynamique cérébrale de l’apprentissage par renforcement chez l’homme. Pour ce faire, nous avons utilisé des enregistrements intracérébraux réalisés chez des patients épileptiques pharmaco-résistants pendant qu’ils réalisaient une tâche d’apprentissage probabiliste. Dans les deux premières études, nous avons d’investigué la dynamique de l’encodage des signaux de renforcement, et en particulier à celui des erreurs de prédiction des récompenses et des punitions. L’enregistrement de potentiels de champs locaux dans le cortex a mis en évidence le rôle central de l’activité à haute-fréquence gamma (50-150Hz). Les résultats suggèrent que le cortex préfrontal ventro-médian est impliqué dans l’encodage des erreurs de prédiction des récompenses alors que pour l’insula antérieure, le cortex préfrontal dorsolatéral sont impliqués dans l’encodage des erreurs de prédiction des punitions. De plus, l’activité neurale de l’insula antérieure permet de prédire la performance des patients lors de l’apprentissage. Ces résultats sont cohérents avec l’existence d’une dissociation au niveau cortical pour le traitement des renforcements appétitifs et aversifs lors de la prise de décision. La seconde étude a permis d’étudier l’implication de deux noyaux limbiques du thalamus au cours du même protocole cognitif. L’enregistrement de potentiels de champs locaux a mis en évidence le rôle des activités basse fréquence thêta dans la détection des renforcements, en particulier dans leur dimension aversive. Dans une troisième étude, nous avons testé l’influence du risque sur l’apprentissage par renforcement. Nous rapportons une aversion spécifique au risque lors de l’apprentissage par évitement des punitions ainsi qu’une diminution du temps de réaction lors de choix risqués permettant l’obtention de récompenses. Cela laisse supposer un comportement global tendant vers une aversion au risque lors de l’apprentissage par évitement des punitions et au contraire une attirance pour le risque lors de l’apprentissage par récompenses, suggérant que les mécanismes d’encodage du risque et de la valence pourraient être indépendants. L’amélioration de la compréhension des mécanismes cérébraux sous-tendant la prise de décision est importante, à la fois pour mieux comprendre les déficits motivationnels caractérisant plusieurs pathologies neuropsychiatriques, mais aussi pour mieux comprendre les biais décisionnels que nous pouvons exhiber
We make decisions every waking day of our life. Facing our options, we tend to pick the most likely to get our expected outcome. Taking into account our past experiences and their outcome is mandatory to identify the best option. This cognitive process is called reinforcement learning. To date, the underlying neural mechanisms are debated. Despite a consensus on the role of dopaminergic neurons in reward processing, several hypotheses on the neural bases of reinforcement learning coexist: either two distinct opposite systems covering cortical and subcortical areas, or a segregation of neurons within brain regions to process reward-based and punishment-avoidance learning.This PhD work aimed to identify the brain dynamics of human reinforcement learning. To unravel the neural mechanisms involved, we used intracerebral recordings in refractory epileptic patients during a probabilistic learning task. In the first study, we used a computational model to tackle the brain dynamics of reinforcement signal encoding, especially the encoding of reward and punishment prediction errors. Local field potentials exhibited the central role of high frequency gamma activity (50-150Hz) in these encodings. We report a role of the ventromedial prefrontal cortex in reward prediction error encoding while the anterior insula and the dorsolateral prefrontal cortex encoded punishment prediction errors. In addition, the magnitude of the neural response in the insula predicted behavioral learning and trial-to-trial behavioral adaptations. These results are consistent with the existence of two distinct opposite cortical systems processing reward and punishments during reinforcement learning. In a second study, we recorded the neural activity of the anterior and dorsomedial nuclei of the thalamus during the same cognitive task. Local field potentials recordings highlighted the role of low frequency theta activity in punishment processing, supporting an implication of these nuclei during punishment-avoidance learning. In a third behavioral study, we investigated the influence of risk on reinforcement learning. We observed a risk-aversion during punishment-avoidance, affecting the performance, as well as a risk-seeking behavior during reward-seeking, revealed by an increased reaction time towards appetitive risky choices. Taken together, these results suggest we are risk-seeking when we have something to gain and risk-averse when we have something to lose, in contrast to the prediction of the prospect theory.Improving our common knowledge of the brain dynamics of human reinforcement learning could improve the understanding of cognitive deficits of neurological patients, but also the decision bias all human beings can exhibit
Styles APA, Harvard, Vancouver, ISO, etc.
4

Tarbouriech, Jean. « Goal-oriented exploration for reinforcement learning ». Electronic Thesis or Diss., Université de Lille (2022-....), 2022. http://www.theses.fr/2022ULILB014.

Texte intégral
Résumé :
Apprendre à atteindre des buts est une compétence à acquérir à grande pertinence pratique pour des agents intelligents. Par exemple, ceci englobe de nombreux problèmes de navigation (se diriger vers telle destination), de manipulation robotique (atteindre telle position du bras robotique) ou encore certains jeux (gagner en accomplissant tel objectif). En tant qu'être vivant interagissant avec le monde, je suis constamment motivé par l'atteinte de buts, qui varient en portée et difficulté.L'Apprentissage par Renforcement (AR) est un paradigme prometteur pour formaliser et apprendre des comportements d'atteinte de buts. Un but peut être modélisé comme une configuration spécifique d'états de l'environnement qui doit être atteinte par interaction séquentielle et exploration de l'environnement inconnu. Bien que divers algorithmes en AR dit "profond" aient été proposés pour ce modèle d'apprentissage conditionné par des états buts, les méthodes existantes manquent de compréhension rigoureuse, d'efficacité d'échantillonnage et de capacités polyvalentes. Il s'avère que l'analyse théorique de l'AR conditionné par des états buts demeurait très limitée, même dans le scénario basique d'un nombre fini d'états et d'actions.Premièrement, nous nous concentrons sur le scénario supervisé, où un état but qui doit être atteint en minimisant l'espérance des coûts cumulés est fourni dans la définition du problème. Après avoir formalisé le problème d'apprentissage incrémental (ou ``online'') de ce modèle souvent appelé Plus Court Chemin Stochastique, nous introduisons deux algorithmes au regret sous-linéaire (l'un est le premier disponible dans la littérature, l'autre est quasi-optimal).Au delà d'entraîner l'agent d'AR à résoudre une seule tâche, nous aspirons ensuite qu'il apprenne de manière autonome à résoudre une grande variété de tâches, dans l'absence de toute forme de supervision en matière de récompense. Dans ce scénario non-supervisé, nous préconisons que l'agent sélectionne lui-même et cherche à atteindre ses propres états buts. Nous dérivons des garanties non-asymptotiques de cette heuristique populaire dans plusieurs cadres, chacun avec son propre objectif d'exploration et ses propres difficultés techniques. En guise d'illustration, nous proposons une analyse rigoureuse du principe algorithmique de viser des états buts "incertains", que nous ancrons également dans le cadre de l'AR profond.L'objectif et les contributions de cette thèse sont d'améliorer notre compréhension formelle de l'exploration d'états buts pour l'AR, dans les scénarios supervisés et non-supervisés. Nous espérons qu'elle peut aider à suggérer de nouvelles directions de recherche pour améliorer l'efficacité d'échantillonnage et l'interprétabilité d'algorithmes d'AR basés sur la sélection et/ou l'atteinte d'états buts dans des applications pratiques
Learning to reach goals is a competence of high practical relevance to acquire for intelligent agents. For instance, this encompasses many navigation tasks ("go to target X"), robotic manipulation ("attain position Y of the robotic arm"), or game-playing scenarios ("win the game by fulfilling objective Z"). As a living being interacting with the world, I am constantly driven by goals to reach, varying in scope and difficulty.Reinforcement Learning (RL) holds the promise to frame and learn goal-oriented behavior. Goals can be modeled as specific configurations of the environment that must be attained via sequential interaction and exploration of the unknown environment. Although various deep RL algorithms have been proposed for goal-oriented RL, existing methods often lack principled understanding, sample efficiency and general-purpose effectiveness. In fact, very limited theoretical analysis of goal-oriented RL was available, even in the basic scenario of finitely many states and actions.We first focus on a supervised scenario of goal-oriented RL, where a goal state to be reached in minimum total expected cost is provided as part of the problem definition. After formalizing the online learning problem in this setting often known as Stochastic Shortest Path (SSP), we introduce two no-regret algorithms (one is the first available in the literature, the other attains nearly optimal guarantees).Beyond training our RL agent to solve only one task, we then aspire that it learns to autonomously solve a wide variety of tasks, in the absence of any reward supervision. In this challenging unsupervised RL scenario, we advocate to "Set Your Own Goals" (SYOG), which suggests the agent to learn the ability to intrinsically select and reach its own goal states. We derive finite-time guarantees of this popular heuristic in various settings, each with its specific learning objective and technical challenges. As an illustration, we propose a rigorous analysis of the algorithmic principle of targeting "uncertain" goals which we also anchor in deep RL.The main focus and contribution of this thesis are to instigate a principled analysis of goal-oriented exploration in RL, both in the supervised and unsupervised scenarios. We hope that it helps suggest promising research directions to improve the interpretability and sample efficiency of goal-oriented RL algorithms in practical applications
Styles APA, Harvard, Vancouver, ISO, etc.
5

Roussel, Edith. « Bases comportementales et neurobiologiques du conditionnement olfactif aversif chez l'abeille Apis mellifera ». Toulouse 3, 2009. http://thesesups.ups-tlse.fr//.

Texte intégral
Résumé :
Ce travail avait pour but de comprendre comment le cerveau différencie, traite et stocke des informations provenant d'expériences positives et négatives. Nous avons travaillé sur l'abeille Apis mellifera. L'étude de l'apprentissage et de la mémoire chez l'abeille a été auparavant essentiellement réalisée grâce à un conditionnement olfactif appétitif. Nous avons donc développé un conditionnement olfactif aversif qui consiste à associer une odeur et un choc électrique induisant le réflexe d'extension du dard. Les abeilles apprennent à étendre leur dard à l'odeur (I). Ce conditionnement est aversif car il produit un évitement de l'odeur renforcée quand l'animal est placé dans un labyrinthe suite au conditionnement (II). La voie de renforcement aversive dépend de la dopamine, alors que le conditionnement appétitif dépend de l'octopamine. Les abeilles peuvent ainsi gérer simultanément des associations appétitives et aversives au cours du même conditionnement (I). La sensibilité des abeilles aux stimuli inconditionnels appétitifs et aversifs est indépendante chez les mêmes abeilles. Plus une abeille est sensible au choc, mieux elle apprend l'association aversive, de même les butineuses, plus sensibles au choc que les gardiennes, apprennent mieux l'association aversive (III). Nous avons montré l'existence d'un codage olfactif dans la corne latérale (IV). Dans le lobe antennaire et la corne latérale, nous n'avons pas vu de modification induite par l'apprentissage de la représentation des odeurs pendant un conditionnement olfactif aversif (V). Notre étude contribue à une meilleure compréhension des capacités du cerveau à différencier et traiter des expériences positives et négatives
This work aimed at understanding how the brain differentiates, processes and stores information acquired from positive and negative experiences. We have worked on the honeybee Apis mellifera. Learning and memory studies in the honeybee mostly rely on an appetitive conditioning protocol. We have thus developed an olfactory aversive conditioning, which consists in pairing odorant and electric shock eliciting the sting extension reflex. Bees learn to extend their sting to the odorant (I). This conditioning is indeed aversive because it produces an avoidance of the odorant previously punished when the animal is placed in a Y-maze after conditioning (II). The aversive reinforcement pathway depends on dopaminergic signalling, whereas appetitive conditioning depends on octopaminergic signalling. Bees could master simultaneously appetitive and aversive associations during the same conditioning experiment (I). Responsiveness of bees towards unconditioned appetitive and aversive stimuli are independent in the same bees. The more sensitive to shocks is a bee, the better it learns the aversive association as seen for the foragers, more sensitive to shocks than guards, learn better aversive associations (III). We described an olfactory coding in the lateral horn (IV). In the antennal lobe and lateral horn, we did not found any learning-induced modifications of odour-induced activation during olfactory aversive conditioning (V). Our study contributes to a better understanding of how the brain differentiates and processes positive and negative experiences
Styles APA, Harvard, Vancouver, ISO, etc.
6

Forestier, Sébastien. « Intrinsically Motivated Goal Exploration in Child Development and Artificial Intelligence : Learning and Development of Speech and Tool Use ». Thesis, Bordeaux, 2019. http://www.theses.fr/2019BORD0247.

Texte intégral
Résumé :
Les bébés et enfants humains sont curieux, ils explorent activement leur monde. Un de leurs défis est l'apprentissage des relations de causalité entre leurs actions, telles que l'utilisation d'outils ou de leur voix, et les changements dans l'environnement. Les motivations intrinsèques ont été peu étudiées en psychologie du développement, si bien que leurs mécanismes sont méconnus. D'autre part, la plupart des agents artificiels et robots apprennent d'une manière très différente de celle des enfants humains. Cette thèse présente deux objectifs complémentaires : d'une part la compréhension du rôle des motivations intrinsèques dans le développement de la parole et de l'utilisation des outils chez l'enfant à travers la modélisation robotique, et d'autre part l'amélioration des capacités des robots à apprendre à parler et à utiliser des outils grâce à une inspiration par les mécanismes d'exploration et d'apprentissage humains. La première partie de ce travail concerne donc la compréhension et modélisation des motivations intrinsèques chez l'humain. Nous réanalysons une expérience d'évaluation des capacités d'utilisation des outils par les enfants, et montrons que les motivations intrinsèques semblent jouer un rôle important dans les comportements observés et même interférer avec les mesures de succès dans la tâche. Avec un modèle robotique, nous montrons qu'une motivation intrinsèque basée sur le progrès à atteindre ses propres buts, couplée à une représentation modulaire de ces buts peut auto-organiser des phases de comportements dans le développement des précurseurs de l'utilisation d'outils qui ont des propriétés en commun avec le développement des outils chez les enfants. Nous présentons le premier modèle robotique de l'apprentissage de la parole et de l'utilisation des outils à partir de zéro, qui permet de prédire que l'exploration des objets physiques dans un scénario d'interaction sociale accélère l'apprentissage de la vocalisation de sons particuliers pour le nom de ces objets en conséquence d'une exploration des objets dirigée par les buts. Dans la seconde partie de cette thèse, nous développement, formalisons et évaluons les algorithmes définis pour la modélisation du développement de l'enfant, avec pour but d'obtenir un apprentissage robotique efficace. Nous formalisons ensuite une approche algorithmique appelée Intrinsically Motivated Goal Exploration Processes (IMGEP), qui permet la découverte et l'acquisition d'un vaste répertoire de compétences. Nous démontrons dans différents environnements robotiques dont un avec un robot humanoïde que l'apprentissage de divers espaces de buts avec des motivations intrinsèques est plus efficace pour l'apprentissage de compétences complexes que de seulement s'intéresser directement à l'apprentissage de ces compétences
Babies and children are curious, active explorers of their world. One of their challenges is to learn of the relations between their actions such as the use of tools or speech, and the changes in their environment. Intrinsic motivations have been little studied in psychology, such that its mechanisms are mostly unknown. On the other hand, most artificial agents and robots have been learning in a way very different from humans. The objective of this thesis is twofold: understanding the role of intrinsic motivations in human development of speech and tool use through robotic modeling, and improving the abilities of artificial agents inspired by the mechanisms of human exploration and learning. A first part of this work concerns the understanding and modeling of intrinsic motivations. We reanalyze a typical tool-use experiment, showing that intrinsically motivated exploration seems to play an important role in the observed behaviors and to interfere with the measured success rates. With a robotic model, we show that an intrinsic motivation based on the learning progress to reach goals with a modular representation can self-organize phases of behaviors in the development of tool-use precursors that share properties with child tool-use development. We present the first robotic model learning both speech and tool use from scratch, which predicts that the grounded exploration of objects in a social interaction scenario should accelerate infant vocal learning of accurate sounds for these objects' names as a result of a goal-directed exploration of the objects. In the second part of this thesis, we extend, formalize and evaluate the algorithms designed to model child development, with the aim to obtain an efficient learning robot. We formalize an approach called Intrinsically Motivated Goal Exploration Processes (IMGEP) that enables the discovery and acquisition of large repertoires of skills. We show within several experimental setups including a real humanoid robot that learning diverse spaces of goals with intrinsic motivations is more efficient for learning complex skills than only trying to directly learn these complex skills
Styles APA, Harvard, Vancouver, ISO, etc.
Nous offrons des réductions sur tous les plans premium pour les auteurs dont les œuvres sont incluses dans des sélections littéraires thématiques. Contactez-nous pour obtenir un code promo unique!

Vers la bibliographie