Tesi: "Apprentissage de representation d'etats"

1

Hautot, Julien. "Représentation à base radiale pour l'apprentissage par renforcement visuel". Electronic Thesis or Diss., Université Clermont Auvergne (2021-...), 2024. http://www.theses.fr/2024UCFA0093.

Testo completo

Abstract (sommario):

Ce travail de thèse s'inscrit dans le contexte de l'apprentissage par renforcement (Renforcement Learning - RL) à partir de données image. Contrairement à l'apprentissage supervisé qui permet d'effectuer différentes tâches telles que la classification, la régression ou encore la segmentation à partir d'une base de données annotée, le RL permet d'apprendre, sans base de données, via des interactions avec un environnement. En effet, dans ces méthodes, un agent tel qu'un robot va effectuer différentes actions afin d'explorer son environnement et de récupérer les données d'entraînement. L'entraînement de ce type d'agent s'effectue par essais et erreurs ;lorsque l'agent échoue dans sa tâche, il est pénalisé, tandis que lorsqu'il réussit, il est récompensé. Le but pour l'agent est d'améliorer son comportement pour obtenir le plus de récompenses à long terme. Nous nous intéressons aux extractions visuelles dans des scénarios de RL utilisant des images vues à la première personne. L'utilisation de données visuelles fait souvent appel à des réseaux de convolution profonds permettant de travailler directement sur des images. Cependant, ces réseaux présentent une complexité calculatoire importante, manquent d'explicabilité et souffrent parfois d'instabilité. Pour surmonter ces difficultés, nous avons investigué le développement d'un réseau basé sur des fonctions à base radiales qui permettent des activations éparses et localisées dans l'espace d'entrée. Les réseaux à base radiale (RBFN ) ont connu leur apogée dans les années 90, puis ont été supplantés par les réseaux de convolution car ils étaient jugés difficilement utilisables sur des images en raison de leur coût en calcul. Dans cette thèse, nous avons développé un extracteur de caractéristiques visuelles inspiré des RBFN en simplifiant le coût calculatoire sur les images. Nous avons utilisé notre réseau pour la résolution de tâches visuelles à la première personne et nous avons comparé ses résultats avec différentes méthodes de l'état de l'art; en particulier, des méthodes d'apprentissage de bout-en-bout, des méthodes utilisant l'apprentissage de représentation d'état et des méthodes d'apprentissage machine extrême. Différents scénarios ont été testés issus du simulateur VizDoom, ainsi que du simulateur physique de robotique Pybullet. Outre la comparaison des récompenses obtenues après l'apprentissage, nous avons aussi effectué différents tests sur la robustesse au bruit, la génération des paramètres de notre réseau et le transfert d'une tâche dans la réalité.Le réseau proposé obtient les meilleures performances lors d'apprentissage par renforcement sur les scénarios testés, tout en étant plus simple d'utilisation et d'interprétation. De plus, notre réseau est robuste face à différents bruits, ce qui ouvre la voie à un transfert efficace des connaissances acquises en simulation à la réalité
This thesis work falls within the context of Reinforcement Learning (RL) from image data. Unlike supervised learning, which enables performing various tasks such as classification, regression, or segmentation from an annotated database, RL allows learning without a database through interactions with an environment. In these methods, an agent, such as a robot, performs different actions to explore its environment and gather training data. Training such an agent involves trial and error; the agent is penalized when it fails at its task and rewarded when it succeeds. The goal for the agent is to improve its behavior to obtain the most long-term rewards.We focus on visual extractions in RL scenarios using first-person view images. The use of visual data often involves deep convolutional networks that work directly on images. However, these networks have significant computational complexity, lack interpretability, and sometimes suffer from instability. To overcome these difficulties, we investigated the development of a network based on radial basis functions, which enable sparse and localized activations in the input space. Radial basis function networks (RBFNs) peaked in the 1990s but were later supplanted by convolutional networks due to their high computational cost on images. In this thesis, we developed a visual feature extractor inspired by RBFNs, simplifying the computational cost on images. We used our network for solving first-person visual tasks and compared its results with various state-of-the-art methods, including end-to-end learning methods, state representation learning methods, and extreme machine learning methods. Different scenarios were tested from the VizDoom simulator and the Pybullet robotics physics simulator. In addition to comparing the rewards obtained after learning, we conducted various tests on noise robustness, parameter generation of our network, and task transfer to reality.The proposed network achieves the best performance in reinforcement learning on the tested scenarios while being easier to use and interpret. Additionally, our network is robust to various noise types, paving the way for the effective transfer of knowledge acquired in simulation to reality