Dissertations / Theses on the topic 'Apprentissage par renforcement factorisé'

To see the other types of publications on this topic, follow the link: Apprentissage par renforcement factorisé.

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Apprentissage par renforcement factorisé.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Kozlova, Olga. "Apprentissage par renforcement hiérarchique et factorisé." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2010. http://tel.archives-ouvertes.fr/tel-00632968.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse a été réalisée dans un contexte de simulation industrielle qui s'intéresse aux problèmes de la modélisation du comportement humain dans les simulateurs d'entraînement militaire ou de sécurité civile. Nous avons abordé cette problématique sous l'angle de l'apprentissage et de la planification dans l'incertain, en modélisant les problèmes que nous traitons comme des problèmes stochastiques de grande taille dans le cadre des Processus de Décision Markoviens (MDP). Les MDP factorisés (FMDP) sont un cadre standard de représentation des problèmes séquentiels dans l'incertain, où l'état du système est décomposé en un ensemble de variables aléatoires. L'apprentissage par renforcement factorisé (FRL) est une approche d'apprentissage indirecte dans les FMDP où les fonctions de transition et de récompense sont inconnues a priori et doivent être apprises sous une forme factorisée. Par ailleurs, dans les problèmes où certaines combinaisons de variables n'existent pas, la représentation factorisée n'empêche pas la représentation de ces états que nous appelons impossibles. Dans la première contribution de cette thèse, nous montrons comment modéliser ce type de problèmes de manière théoriquement bien fondée. De plus, nous proposons une heuristique qui considère chaque état comme impossible tant qu'il n'a pas été visité. Nous en dérivons un algorithme dont les performances sont démontrées sur des problèmes jouet classiques dans la littérature, MAZE6 et BLOCKS WORLD, en comparaison avec l'approche standard. Pour traiter les MDP de grande taille, les MDP hiérarchiques (HMDP) sont aussi basés sur l'idée de la factorisation mais portent cette idée à un niveau supérieur. D'une factorisation d'état des FMDP, les HMDP passent à une factorisation de tâche, où un ensemble de situations similaires (définies par leurs buts) est représenté par un ensemble de sous-tâches partiellement définies. Autrement dit, il est possible de simplifier le problème en le décomposant en sous-problèmes plus petits et donc plus faciles à résoudre individuellement, mais aussi de réutiliser les sous-tâches afin d'accélérer la recherche de la solution globale. Le formalisme des options qui inclut des actions abstraites à durée étendue, permet de modéliser efficacement ce type d'architecture. La deuxième contribution de cette thèse est la proposition de TeXDYNA, un algorithme pour la résolution de MDP de grande taille dont la structure est inconnue. TeXDYNA combine les techniques d'abstraction hiérarchique de l'apprentissage par renforcement hiérarchique (HRL) et les techniques de factorisation de FRL pour décomposer hiérarchiquement le FMDP sur la base de la découverte automatique des sous-tâches directement à partir de la structure du problème qui est elle même apprise en interaction avec l'environnement. Nous évaluons TeXDYNA sur deux benchmarks, à savoir les problèmes TAXI et LIGHT BOX, et nous montrons que combiner l'abstraction d'information contextuelle dans le cadre des FMDP et la construction d'une hiérarchie dans le cadre des HMDP permet une compression très efficace des structures à apprendre, des calculs plus rapides et une meilleure vitesse de convergence. Finalement, nous estimons le potentiel et les limitations de TeXDYNA sur un problème jouet plus représentatif du domaine de la simulation industrielle.
2

Degris, Thomas. "Apprentissage par renforcement dans les processus de décision Markoviens factorisés." Paris 6, 2007. http://www.theses.fr/2007PA066594.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les méthodes classiques d'apprentissage par renforcement ne sont pas applicables aux problèmes de grande taille. Les Processus de Décision Markovien Factorisés (FMDPs) permettent de représenter de tels problèmes de façon compacte en spécifiant leur structure. Des méthodes de planification adaptées aux FMDPs obtiennent de bons résultats mais nécessitent que cette structure soit spécifiée manuellement. Cette thèse étudie l'apprentissage de la structure d'un problème représenté par un FMDP en utilisant l'induction d'arbres de décision et propose une adaptation des méthodes de planification dans les FMDPs pour obtenir une solution efficace au problème. Nous étudions cette approche sur plusieurs problèmes de grande taille et montrons qu'elle possède des capacités de généralisation et d'agrégation nécessaires pour la résolution de tels problèmes. En l'appliquant à un problème de jeu vidéo, nous montrons également que les représentations construites sont lisibles par un opérateur humain.
3

Tournaire, Thomas. "Model-based reinforcement learning for dynamic resource allocation in cloud environments." Electronic Thesis or Diss., Institut polytechnique de Paris, 2022. http://www.theses.fr/2022IPPAS004.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'émergence de nouvelles technologies nécessite une allocation efficace des ressources pour satisfaire la demande. Cependant, ces nouveaux besoins nécessitent une puissance de calcul élevée impliquant une plus grande consommation d'énergie notamment dans les infrastructures cloud et data centers. Il est donc essentiel de trouver de nouvelles solutions qui peuvent satisfaire ces besoins tout en réduisant la consommation d'énergie des ressources. Dans cette thèse, nous proposons et comparons de nouvelles solutions d'IA (apprentissage par renforcement RL) pour orchestrer les ressources virtuelles dans les environnements de réseaux virtuels de manière à garantir les performances et minimiser les coûts opérationnels. Nous considérons les systèmes de file d'attente comme un modèle pour les infrastructures cloud IaaS et apportons des méthodes d'apprentissage pour allouer efficacement le bon nombre de ressources.Notre objectif est de minimiser une fonction de coût en tenant compte des coûts de performance et opérationnels. Nous utilisons différents types d'algorithmes de RL (du « sans-modèle » au modèle relationnel) pour apprendre la meilleure politique. L'apprentissage par renforcement s'intéresse à la manière dont un agent doit agir dans un environnement pour maximiser une récompense cumulative. Nous développons d'abord un modèle de files d'attente d'un système cloud avec un nœud physique hébergeant plusieurs ressources virtuelles. Dans cette première partie, nous supposons que l'agent connaît le modèle (dynamiques de l'environnement et coût), ce qui lui donne la possibilité d'utiliser des méthodes de programmation dynamique pour le calcul de la politique optimale. Puisque le modèle est connu dans cette partie, nous nous concentrons également sur les propriétés des politiques optimales, qui sont des règles basées sur les seuils et l'hystérésis. Cela nous permet d'intégrer la propriété structurelle des politiques dans les algorithmes MDP. Après avoir fourni un modèle de cloud concret avec des arrivées exponentielles avec des intensités réelles et des données d'énergie pour le fournisseur de cloud, nous comparons dans cette première approche l'efficacité et le temps de calcul des algorithmes MDP par rapport aux heuristiques construites sur les distributions stationnaires de la chaîne de Markov des files d'attente.Dans une deuxième partie, nous considérons que l'agent n'a pas accès au modèle de l'environnement et nous concentrons notre travail sur les techniques de RL. Nous évaluons d'abord des méthodes basées sur un modèle où l'agent peut réutiliser son expérience pour mettre à jour sa fonction de valeur. Nous considérons également des techniques de MDP en ligne où l'agent autonome approxime le modèle pour effectuer une programmation dynamique. Cette partie est évaluée dans un environnement plus large avec deux nœuds physiques en tandem et nous évaluons le temps de convergence et la précision des différentes méthodes, principalement les techniques basées sur un modèle par rapport aux méthodes sans modèle de l'état de l'art.La dernière partie se concentre sur les techniques de RL basées sur des modèles avec une structure relationnelle entre les variables d’état. Comme ces réseaux en tandem ont des propriétés structurelles dues à la forme de l’infrastructure, nous intégrons les approches factorisées et causales aux méthodes de RL pour inclure cette connaissance. Nous fournissons à l'agent une connaissance relationnelle de l'environnement qui lui permet de comprendre comment les variables sont reliées. L'objectif principal est d'accélérer la convergence: d'abord avec une représentation plus compacte avec la factorisation où nous concevons un algorithme en ligne de MDP factorisé que nous comparons avec des algorithmes de RL sans modèle et basés sur un modèle ; ensuite en intégrant le raisonnement causal et contrefactuel qui peut traiter les environnements avec des observations partielles et des facteurs de confusion non observés
The emergence of new technologies (Internet of Things, smart cities, autonomous vehicles, health, industrial automation, ...) requires efficient resource allocation to satisfy the demand. These new offers are compatible with new 5G network infrastructure since it can provide low latency and reliability. However, these new needs require high computational power to fulfill the demand, implying more energy consumption in particular in cloud infrastructures and more particularly in data centers. Therefore, it is critical to find new solutions that can satisfy these needs still reducing the power usage of resources in cloud environments. In this thesis we propose and compare new AI solutions (Reinforcement Learning) to orchestrate virtual resources in virtual network environments such that performances are guaranteed and operational costs are minimised. We consider queuing systems as a model for clouds IaaS infrastructures and bring learning methodologies to efficiently allocate the right number of resources for the users.Our objective is to minimise a cost function considering performance costs and operational costs. We go through different types of reinforcement learning algorithms (from model-free to relational model-based) to learn the best policy. Reinforcement learning is concerned with how a software agent ought to take actions in an environment to maximise some cumulative reward. We first develop queuing model of a cloud system with one physical node hosting several virtual resources. On this first part we assume the agent perfectly knows the model (dynamics of the environment and the cost function), giving him the opportunity to perform dynamic programming methods for optimal policy computation. Since the model is known in this part, we also concentrate on the properties of the optimal policies, which are threshold-based and hysteresis-based rules. This allows us to integrate the structural property of the policies into MDP algorithms. After providing a concrete cloud model with exponential arrivals with real intensities and energy data for cloud provider, we compare in this first approach efficiency and time computation of MDP algorithms against heuristics built on top of the queuing Markov Chain stationary distributions.In a second part we consider that the agent does not have access to the model of the environment and concentrate our work with reinforcement learning techniques, especially model-based reinforcement learning. We first develop model-based reinforcement learning methods where the agent can re-use its experience replay to update its value function. We also consider MDP online techniques where the autonomous agent approximates environment model to perform dynamic programming. This part is evaluated in a larger network environment with two physical nodes in tandem and we assess convergence time and accuracy of different reinforcement learning methods, mainly model-based techniques versus the state-of-the-art model-free methods (e.g. Q-Learning).The last part focuses on model-based reinforcement learning techniques with relational structure between environment variables. As these tandem networks have structural properties due to their infrastructure shape, we investigate factored and causal approaches built-in reinforcement learning methods to integrate this information. We provide the autonomous agent with a relational knowledge of the environment where it can understand how variables are related to each other. The main goal is to accelerate convergence by: first having a more compact representation with factorisation where we devise a factored MDP online algorithm that we evaluate and compare with model-free and model-based reinforcement learning algorithms; second integrating causal and counterfactual reasoning that can tackle environments with partial observations and unobserved confounders
4

Lesaint, Florian. "Modélisation du conditionnement animal par représentations factorisées dans un système d'apprentissage dual : explication des différences inter-individuelles aux niveaux comportemental et neurophysiologique." Electronic Thesis or Diss., Paris 6, 2014. https://accesdistant.sorbonne-universite.fr/login?url=https://theses-intra.sorbonne-universite.fr/2014PA066287.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le conditionnement Pavlovien, l'acquisition de réponses vers des stimuli neutres associés à des récompenses, et le conditionnement instrumental, l'expression de comportements pour atteindre des buts, sont au cœur de nos capacités d'apprentissage. Ils sont souvent étudiés séparément malgré les preuves de leur enchevêtrement. Les modèles de conditionnement instrumental reposent sur le formalisme de l'apprentissage par renforcement (RL), alors que les modèles du conditionnement Pavlovien reposent surtout sur des architectures dédiées souvent incompatibles avec ce formalisme, compliquant l'étude de leurs interactions.Notre objectif est de trouver des concepts, qui combinés à des modèles RL puissent offrir une architecture unifiée permettant une telle étude. Nous développons un modèle qui combine un système RL classique, qui apprend une valeur par état, avec un système RL révisé, évaluant les stimuli séparément et biaisant le comportement vers ceux associés aux récompenses. Le modèle explique certaines réponses inadaptées par l'interaction néfaste des systèmes, ainsi que certaines différences inter-individuelles par une simple variation au niveau de la population de la contribution de chaque système dans le comportement global.Il explique une activité inattendue de la dopamine, vis-à-vis de l'hypothèse qu'elle encode un signal d'erreur, par son calcul sur les stimuli et non les états. Il est aussi compatible avec une hypothèse alternative que la dopamine contribue aussi à rendre certains stimuli recherchés pour eux-mêmes. Le modèle présente des propriétés prometteuses pour l'étude du conditionnement Pavlovien,du conditionnement instrumental et de leurs interactions
Pavlovian conditioning, the acquisition of responses to neutral stimuli previously paired with rewards, and instrumental conditioning, the acquisition of goal-oriented responses, are central to our learning capacities. However, despite some evidences of entanglement, they are mainly studied separately. Reinforcement learning (RL), learning by trials and errors to reach goals, is central to models of instrumental conditioning, while models of Pavlovian conditioning rely on more dedicated and often incompatible architectures. This complicates the study of their interactions. We aim at finding concepts which combined with RL models may provide a unifying architecture to allow such a study. We develop a model that combines a classical RL system, learning values over states, with a revised RL system, learning values over individual stimuli and biasing the behaviour towards reward-related ones. It explains maladaptive behaviours in pigeons by the detrimental interaction of systems, and inter-individual differences in rats by a simple variation at the population level in the contribution of each system to the overall behaviour. It explains unexpected dopaminergic patterns with regard to the dominant hypothesis that dopamine parallels a reward prediction error signal by computing such signal over features rather than states, and makes it compatible with an alternative hypothesis that dopamine also contributes to the acquisition of incentive salience, making reward-related stimuli wanted for themselves. The present model shows promising properties for the investigation of Pavlovian conditioning, instrumental conditioning and their interactions
5

Lesaint, Florian. "Modélisation du conditionnement animal par représentations factorisées dans un système d'apprentissage dual : explication des différences inter-individuelles aux niveaux comportemental et neurophysiologique." Thesis, Paris 6, 2014. http://www.theses.fr/2014PA066287/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le conditionnement Pavlovien, l'acquisition de réponses vers des stimuli neutres associés à des récompenses, et le conditionnement instrumental, l'expression de comportements pour atteindre des buts, sont au cœur de nos capacités d'apprentissage. Ils sont souvent étudiés séparément malgré les preuves de leur enchevêtrement. Les modèles de conditionnement instrumental reposent sur le formalisme de l'apprentissage par renforcement (RL), alors que les modèles du conditionnement Pavlovien reposent surtout sur des architectures dédiées souvent incompatibles avec ce formalisme, compliquant l'étude de leurs interactions.Notre objectif est de trouver des concepts, qui combinés à des modèles RL puissent offrir une architecture unifiée permettant une telle étude. Nous développons un modèle qui combine un système RL classique, qui apprend une valeur par état, avec un système RL révisé, évaluant les stimuli séparément et biaisant le comportement vers ceux associés aux récompenses. Le modèle explique certaines réponses inadaptées par l'interaction néfaste des systèmes, ainsi que certaines différences inter-individuelles par une simple variation au niveau de la population de la contribution de chaque système dans le comportement global.Il explique une activité inattendue de la dopamine, vis-à-vis de l'hypothèse qu'elle encode un signal d'erreur, par son calcul sur les stimuli et non les états. Il est aussi compatible avec une hypothèse alternative que la dopamine contribue aussi à rendre certains stimuli recherchés pour eux-mêmes. Le modèle présente des propriétés prometteuses pour l'étude du conditionnement Pavlovien,du conditionnement instrumental et de leurs interactions
Pavlovian conditioning, the acquisition of responses to neutral stimuli previously paired with rewards, and instrumental conditioning, the acquisition of goal-oriented responses, are central to our learning capacities. However, despite some evidences of entanglement, they are mainly studied separately. Reinforcement learning (RL), learning by trials and errors to reach goals, is central to models of instrumental conditioning, while models of Pavlovian conditioning rely on more dedicated and often incompatible architectures. This complicates the study of their interactions. We aim at finding concepts which combined with RL models may provide a unifying architecture to allow such a study. We develop a model that combines a classical RL system, learning values over states, with a revised RL system, learning values over individual stimuli and biasing the behaviour towards reward-related ones. It explains maladaptive behaviours in pigeons by the detrimental interaction of systems, and inter-individual differences in rats by a simple variation at the population level in the contribution of each system to the overall behaviour. It explains unexpected dopaminergic patterns with regard to the dominant hypothesis that dopamine parallels a reward prediction error signal by computing such signal over features rather than states, and makes it compatible with an alternative hypothesis that dopamine also contributes to the acquisition of incentive salience, making reward-related stimuli wanted for themselves. The present model shows promising properties for the investigation of Pavlovian conditioning, instrumental conditioning and their interactions
6

Magnan, Jean-Christophe. "Représentations graphiques de fonctions et processus décisionnels Markoviens factorisés." Thesis, Paris 6, 2016. http://www.theses.fr/2016PA066042/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
En planification théorique de la décision, le cadre des Processus Décisionnels Markoviens Factorisés (Factored Markov Decision Process, FMDP) a produit des algorithmes efficaces de résolution des problèmes de décisions séquentielles dans l'incertain. L'efficacité de ces algorithmes repose sur des structures de données telles que les Arbres de Décision ou les Diagrammes de Décision Algébriques (ADDs). Ces techniques de planification sont utilisées en Apprentissage par Renforcement par l'architecture SDYNA afin de résoudre des problèmes inconnus de grandes tailles. Toutefois, l'état-de-l'art des algorithmes d'apprentissage, de programmation dynamique et d'apprentissage par renforcement utilisés par SDYNA, requière que le problème soit spécifié uniquement à l'aide de variables binaires et/ou utilise des structures améliorables en termes de compacité. Dans ce manuscrit, nous présentons nos travaux de recherche visant à élaborer et à utiliser une structure de donnée plus efficace et moins contraignante, et à l'intégrer dans une nouvelle instance de l'architecture SDYNA. Dans une première partie, nous présentons l'état-de-l'art de la modélisation de problèmes de décisions séquentielles dans l'incertain à l'aide de FMDP. Nous abordons en détail la modélisation à l'aide d'DT et d'ADDs.Puis nous présentons les ORFGs, nouvelle structure de données que nous proposons dans cette thèse pour résoudre les problèmes inhérents aux ADDs. Nous démontrons ainsi que les ORFGs s'avèrent plus efficaces que les ADDs pour modéliser les problèmes de grandes tailles. Dans une seconde partie, nous nous intéressons à la résolution des problèmes de décision dans l'incertain par Programmation Dynamique. Après avoir introduit les principaux algorithmes de résolution, nous nous attardons sur leurs variantes dans le domaine factorisé. Nous précisons les points de ces variantes factorisées qui sont améliorables. Nous décrivons alors une nouvelle version de ces algorithmes qui améliore ces aspects et utilise les ORFGs précédemment introduits. Dans une dernière partie, nous abordons l'utilisation des FMDPs en Apprentissage par Renforcement. Puis nous présentons un nouvel algorithme d'apprentissage dédié à la nouvelle structure que nous proposons. Grâce à ce nouvel algorithme, une nouvelle instance de l'architecture SDYNA est proposée, se basant sur les ORFGs ~:~l'instance SPIMDDI. Nous testons son efficacité sur quelques problèmes standards de la littérature. Enfin nous présentons quelques travaux de recherche autour de cette nouvelle instance. Nous évoquons d'abord un nouvel algorithme de gestion du compromis exploration-exploitation destiné à simplifier l'algorithme F-RMax. Puis nous détaillons une application de l'instance SPIMDDI à la gestion d'unités dans un jeu vidéo de stratégie en temps réel
In decision theoretic planning, the factored framework (Factored Markovian Decision Process, FMDP) has produced several efficient algorithms in order to resolve large sequential decision making under uncertainty problems. The efficiency of this algorithms relies on data structures such as decision trees or algebraïc decision diagrams (ADDs). These planification technics are exploited in Reinforcement Learning by the architecture SDyna in order to resolve large and unknown problems. However, state-of-the-art learning and planning algorithms used in SDyna require the problem to be specified uniquely using binary variables and/or to use improvable data structure in term of compactness. In this book, we present our research works that seek to elaborate and to use a new data structure more efficient and less restrictive, and to integrate it in a new instance of the SDyna architecture. In a first part, we present the state-of-the-art modeling tools used in the algorithms that tackle large sequential decision making under uncertainty problems. We detail the modeling using decision trees and ADDs. Then we introduce the Ordered and Reduced Graphical Representation of Function, a new data structure that we propose in this thesis to deal with the various problems concerning the ADDs. We demonstrate that ORGRFs improve on ADDs to model large problems. In a second part, we go over the resolution of large sequential decision under uncertainty problems using Dynamic Programming. After the introduction of the main algorithms, we see in details the factored alternative. We indicate the improvable points of these factored versions. We describe our new algorithm that improve on these points and exploit the ORGRFs previously introduced. In a last part, we speak about the use of FMDPs in Reinforcement Learning. Then we introduce a new algorithm to learn the new datastrcture we propose. Thanks to this new algorithm, a new instance of the SDyna architecture is proposed, based on the ORGRFs : the SPIMDDI instance. We test its efficiency on several standard problems from the litterature. Finally, we present some works around this new instance. We detail a new algorithm for efficient exploration-exploitation compromise management, aiming to simplify F-RMax. Then we speak about an application of SPIMDDI to the managements of units in a strategic real time video game
7

Magnan, Jean-Christophe. "Représentations graphiques de fonctions et processus décisionnels Markoviens factorisés." Electronic Thesis or Diss., Paris 6, 2016. http://www.theses.fr/2016PA066042.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
En planification théorique de la décision, le cadre des Processus Décisionnels Markoviens Factorisés (Factored Markov Decision Process, FMDP) a produit des algorithmes efficaces de résolution des problèmes de décisions séquentielles dans l'incertain. L'efficacité de ces algorithmes repose sur des structures de données telles que les Arbres de Décision ou les Diagrammes de Décision Algébriques (ADDs). Ces techniques de planification sont utilisées en Apprentissage par Renforcement par l'architecture SDYNA afin de résoudre des problèmes inconnus de grandes tailles. Toutefois, l'état-de-l'art des algorithmes d'apprentissage, de programmation dynamique et d'apprentissage par renforcement utilisés par SDYNA, requière que le problème soit spécifié uniquement à l'aide de variables binaires et/ou utilise des structures améliorables en termes de compacité. Dans ce manuscrit, nous présentons nos travaux de recherche visant à élaborer et à utiliser une structure de donnée plus efficace et moins contraignante, et à l'intégrer dans une nouvelle instance de l'architecture SDYNA. Dans une première partie, nous présentons l'état-de-l'art de la modélisation de problèmes de décisions séquentielles dans l'incertain à l'aide de FMDP. Nous abordons en détail la modélisation à l'aide d'DT et d'ADDs.Puis nous présentons les ORFGs, nouvelle structure de données que nous proposons dans cette thèse pour résoudre les problèmes inhérents aux ADDs. Nous démontrons ainsi que les ORFGs s'avèrent plus efficaces que les ADDs pour modéliser les problèmes de grandes tailles. Dans une seconde partie, nous nous intéressons à la résolution des problèmes de décision dans l'incertain par Programmation Dynamique. Après avoir introduit les principaux algorithmes de résolution, nous nous attardons sur leurs variantes dans le domaine factorisé. Nous précisons les points de ces variantes factorisées qui sont améliorables. Nous décrivons alors une nouvelle version de ces algorithmes qui améliore ces aspects et utilise les ORFGs précédemment introduits. Dans une dernière partie, nous abordons l'utilisation des FMDPs en Apprentissage par Renforcement. Puis nous présentons un nouvel algorithme d'apprentissage dédié à la nouvelle structure que nous proposons. Grâce à ce nouvel algorithme, une nouvelle instance de l'architecture SDYNA est proposée, se basant sur les ORFGs ~:~l'instance SPIMDDI. Nous testons son efficacité sur quelques problèmes standards de la littérature. Enfin nous présentons quelques travaux de recherche autour de cette nouvelle instance. Nous évoquons d'abord un nouvel algorithme de gestion du compromis exploration-exploitation destiné à simplifier l'algorithme F-RMax. Puis nous détaillons une application de l'instance SPIMDDI à la gestion d'unités dans un jeu vidéo de stratégie en temps réel
In decision theoretic planning, the factored framework (Factored Markovian Decision Process, FMDP) has produced several efficient algorithms in order to resolve large sequential decision making under uncertainty problems. The efficiency of this algorithms relies on data structures such as decision trees or algebraïc decision diagrams (ADDs). These planification technics are exploited in Reinforcement Learning by the architecture SDyna in order to resolve large and unknown problems. However, state-of-the-art learning and planning algorithms used in SDyna require the problem to be specified uniquely using binary variables and/or to use improvable data structure in term of compactness. In this book, we present our research works that seek to elaborate and to use a new data structure more efficient and less restrictive, and to integrate it in a new instance of the SDyna architecture. In a first part, we present the state-of-the-art modeling tools used in the algorithms that tackle large sequential decision making under uncertainty problems. We detail the modeling using decision trees and ADDs. Then we introduce the Ordered and Reduced Graphical Representation of Function, a new data structure that we propose in this thesis to deal with the various problems concerning the ADDs. We demonstrate that ORGRFs improve on ADDs to model large problems. In a second part, we go over the resolution of large sequential decision under uncertainty problems using Dynamic Programming. After the introduction of the main algorithms, we see in details the factored alternative. We indicate the improvable points of these factored versions. We describe our new algorithm that improve on these points and exploit the ORGRFs previously introduced. In a last part, we speak about the use of FMDPs in Reinforcement Learning. Then we introduce a new algorithm to learn the new datastrcture we propose. Thanks to this new algorithm, a new instance of the SDyna architecture is proposed, based on the ORGRFs : the SPIMDDI instance. We test its efficiency on several standard problems from the litterature. Finally, we present some works around this new instance. We detail a new algorithm for efficient exploration-exploitation compromise management, aiming to simplify F-RMax. Then we speak about an application of SPIMDDI to the managements of units in a strategic real time video game
8

Zimmer, Matthieu. "Apprentissage par renforcement développemental." Thesis, Université de Lorraine, 2018. http://www.theses.fr/2018LORR0008/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'apprentissage par renforcement permet à un agent d'apprendre un comportement qui n'a jamais été préalablement défini par l'homme. L'agent découvre l'environnement et les différentes conséquences de ses actions à travers des interactions avec celui-ci : il apprend de sa propre expérience, sans avoir de connaissances préétablies des buts ni des effets de ses actions. Cette thèse s'intéresse à la façon dont l'apprentissage profond peut aider l'apprentissage par renforcement à gérer des espaces continus et des environnements ayant de nombreux degrés de liberté dans l'optique de résoudre des problèmes plus proches de la réalité. En effet, les réseaux de neurones ont une bonne capacité de mise à l'échelle et un large pouvoir de représentation. Ils rendent possible l'approximation de fonctions sur un espace continu et permettent de s'inscrire dans une approche développementale nécessitant peu de connaissances a priori sur le domaine. Nous cherchons comment réduire l'expérience nécessaire à l'agent pour atteindre un comportement acceptable. Pour ce faire, nous avons proposé le cadre Neural Fitted Actor-Critic qui définit plusieurs algorithmes acteur-critique efficaces en données. Nous examinons par quels moyens l'agent peut exploiter pleinement les transitions générées par des comportements précédents en intégrant des données off-policy dans le cadre proposé. Finalement, nous étudions de quelle manière l'agent peut apprendre plus rapidement en tirant parti du développement de son corps, en particulier, en procédant par une augmentation progressive de la dimensionnalité de son espace sensorimoteur
Reinforcement learning allows an agent to learn a behavior that has never been previously defined by humans. The agent discovers the environment and the different consequences of its actions through its interaction: it learns from its own experience, without having pre-established knowledge of the goals or effects of its actions. This thesis tackles how deep learning can help reinforcement learning to handle continuous spaces and environments with many degrees of freedom in order to solve problems closer to reality. Indeed, neural networks have a good scalability and representativeness. They make possible to approximate functions on continuous spaces and allow a developmental approach, because they require little a priori knowledge on the domain. We seek to reduce the amount of necessary interaction of the agent to achieve acceptable behavior. To do so, we proposed the Neural Fitted Actor-Critic framework that defines several data efficient actor-critic algorithms. We examine how the agent can fully exploit the transitions generated by previous behaviors by integrating off-policy data into the proposed framework. Finally, we study how the agent can learn faster by taking advantage of the development of his body, in particular, by proceeding with a gradual increase in the dimensionality of its sensorimotor space
9

Mangin, Olivier. "Emergence de concepts multimodaux : de la perception de mouvements primitifs à l'ancrage de mots acoustiques." Thesis, Bordeaux, 2014. http://www.theses.fr/2014BORD0002/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse considère l'apprentissage de motifs récurrents dans la perception multimodale. Elle s'attache à développer des modèles robotiques de ces facultés telles qu'observées chez l'enfant, et elle s'inscrit en cela dans le domaine de la robotique développementale.Elle s'articule plus précisément autour de deux thèmes principaux qui sont d'une part la capacité d'enfants ou de robots à imiter et à comprendre le comportement d'humains, et d'autre part l'acquisition du langage. A leur intersection, nous examinons la question de la découverte par un agent en développement d'un répertoire de motifs primitifs dans son flux perceptuel. Nous spécifions ce problème et établissons son lien avec ceux de l'indétermination de la traduction décrit par Quine et de la séparation aveugle de source tels qu'étudiés en acoustique.Nous en étudions successivement quatre sous-problèmes et formulons une définition expérimentale de chacun. Des modèles d'agents résolvant ces problèmes sont également décrits et testés. Ils s'appuient particulièrement sur des techniques dites de sacs de mots, de factorisation de matrices et d'apprentissage par renforcement inverse. Nous approfondissons séparément les trois problèmes de l'apprentissage de sons élémentaires tels les phonèmes ou les mots, de mouvements basiques de danse et d'objectifs primaires composant des tâches motrices complexes. Pour finir nous étudions le problème de l'apprentissage d'éléments primitifs multimodaux, ce qui revient à résoudre simultanément plusieurs des problèmes précédents. Nous expliquons notamment en quoi cela fournit un modèle de l'ancrage de mots acoustiques
This thesis focuses on learning recurring patterns in multimodal perception. For that purpose it develops cognitive systems that model the mechanisms providing such capabilities to infants; a methodology that fits into thefield of developmental robotics.More precisely, this thesis revolves around two main topics that are, on the one hand the ability of infants or robots to imitate and understand human behaviors, and on the other the acquisition of language. At the crossing of these topics, we study the question of the how a developmental cognitive agent can discover a dictionary of primitive patterns from its multimodal perceptual flow. We specify this problem and formulate its links with Quine's indetermination of translation and blind source separation, as studied in acoustics.We sequentially study four sub-problems and provide an experimental formulation of each of them. We then describe and test computational models of agents solving these problems. They are particularly based on bag-of-words techniques, matrix factorization algorithms, and inverse reinforcement learning approaches. We first go in depth into the three separate problems of learning primitive sounds, such as phonemes or words, learning primitive dance motions, and learning primitive objective that compose complex tasks. Finally we study the problem of learning multimodal primitive patterns, which corresponds to solve simultaneously several of the aforementioned problems. We also details how the last problems models acoustic words grounding
10

Filippi, Sarah. "Stratégies optimistes en apprentissage par renforcement." Phd thesis, Ecole nationale supérieure des telecommunications - ENST, 2010. http://tel.archives-ouvertes.fr/tel-00551401.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse traite de méthodes « model-based » pour résoudre des problèmes d'apprentissage par renforcement. On considère un agent confronté à une suite de décisions et un environnement dont l'état varie selon les décisions prises par l'agent. Ce dernier reçoit tout au long de l'interaction des récompenses qui dépendent à la fois de l'action prise et de l'état de l'environnement. L'agent ne connaît pas le modèle d'interaction et a pour but de maximiser la somme des récompenses reçues à long terme. Nous considérons différents modèles d'interactions : les processus de décisions markoviens, les processus de décisions markoviens partiellement observés et les modèles de bandits. Pour ces différents modèles, nous proposons des algorithmes qui consistent à construire à chaque instant un ensemble de modèles permettant d'expliquer au mieux l'interaction entre l'agent et l'environnement. Les méthodes dites « model-based » que nous élaborons se veulent performantes tant en pratique que d'un point de vue théorique. La performance théorique des algorithmes est calculée en terme de regret qui mesure la différence entre la somme des récompenses reçues par un agent qui connaîtrait à l'avance le modèle d'interaction et celle des récompenses cumulées par l'algorithme. En particulier, ces algorithmes garantissent un bon équilibre entre l'acquisition de nouvelles connaissances sur la réaction de l'environnement (exploration) et le choix d'actions qui semblent mener à de fortes récompenses (exploitation). Nous proposons deux types de méthodes différentes pour contrôler ce compromis entre exploration et exploitation. Le premier algorithme proposé dans cette thèse consiste à suivre successivement une stratégie d'exploration, durant laquelle le modèle d'interaction est estimé, puis une stratégie d'exploitation. La durée de la phase d'exploration est contrôlée de manière adaptative ce qui permet d'obtenir un regret logarithmique dans un processus de décision markovien paramétrique même si l'état de l'environnement n'est que partiellement observé. Ce type de modèle est motivé par une application d'intérêt en radio cognitive qu'est l'accès opportuniste à un réseau de communication par un utilisateur secondaire. Les deux autres algorithmes proposés suivent des stratégies optimistes : l'agent choisit les actions optimales pour le meilleur des modèles possibles parmi l'ensemble des modèles vraisemblables. Nous construisons et analysons un tel algorithme pour un modèle de bandit paramétrique dans un cas de modèles linéaires généralisés permettant ainsi de considérer des applications telles que la gestion de publicité sur internet. Nous proposons également d'utiliser la divergence de Kullback-Leibler pour la construction de l'ensemble des modèles vraisemblables dans des algorithmes optimistes pour des processus de décision markoviens à espaces d'états et d'actions finis. L'utilisation de cette métrique améliore significativement le comportement de des algorithmes optimistes en pratique. De plus, une analyse du regret de chacun des algorithmes permet de garantir des performances théoriques similaires aux meilleurs algorithmes de l'état de l'art.
11

Théro, Héloïse. "Contrôle, agentivité et apprentissage par renforcement." Thesis, Paris Sciences et Lettres (ComUE), 2018. http://www.theses.fr/2018PSLEE028/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le sentiment d’agentivité est défini comme le sentiment de contrôler nos actions, et à travers elles, les évènements du monde extérieur. Cet ensemble phénoménologique dépend de notre capacité d’apprendre les contingences entre nos actions et leurs résultats, et un algorithme classique pour modéliser cela vient du domaine de l’apprentissage par renforcement. Dans cette thèse, nous avons utilisé l’approche de modélisation cognitive pour étudier l’interaction entre agentivité et apprentissage par renforcement. Tout d’abord, les participants réalisant une tâche d’apprentissage par renforcement tendent à avoir plus d’agentivité. Cet effet est logique, étant donné que l’apprentissage par renforcement consiste à associer une action volontaire et sa conséquence. Mais nous avons aussi découvert que l’agentivité influence l’apprentissage de deux manières. Le mode par défaut pour apprendre des contingences action-conséquence est que nos actions ont toujours un pouvoir causal. De plus, simplement choisir une action change l’apprentissage de sa conséquence. En conclusion, l’agentivité et l’apprentissage par renforcement, deux piliers de la psychologie humaine, sont fortement liés. Contrairement à des ordinateurs, les humains veulent être en contrôle, et faire les bons choix, ce qui biaise notre aquisition d’information
Sense of agency or subjective control can be defined by the feeling that we control our actions, and through them effects in the outside world. This cluster of experiences depend on the ability to learn action-outcome contingencies and a more classical algorithm to model this originates in the field of human reinforcementlearning. In this PhD thesis, we used the cognitive modeling approach to investigate further the interaction between perceived control and reinforcement learning. First, we saw that participants undergoing a reinforcement-learning task experienced higher agency; this influence of reinforcement learning on agency comes as no surprise, because reinforcement learning relies on linking a voluntary action and its outcome. But our results also suggest that agency influences reinforcement learning in two ways. We found that people learn actionoutcome contingencies based on a default assumption: their actions make a difference to the world. Finally, we also found that the mere fact of choosing freely shapes the learning processes following that decision. Our general conclusion is that agency and reinforcement learning, two fundamental fields of human psychology, are deeply intertwined. Contrary to machines, humans do care about being in control, or about making the right choice, and this results in integrating information in a one-sided way
12

Munos, Rémi. "Apprentissage par renforcement, étude du cas continu." Paris, EHESS, 1997. http://www.theses.fr/1997EHESA021.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le probleme aborde est comment concevoir des methodes permettant a des systemes artificiels d' << apprendre par l'experience >>, c'est a dire de resoudre une tache sans etre explicitement programme pour cela, mais seulement a partir du schema d'apprentissage : essais -> erreur ou succes ii s'agit de definir des methodes, sous forme d'algorithmes, permettant la modification des parametres internes du systeme afin de definir des prises de decisions pertinentes. L'approche developpee est celle de << l'apprentissage par renforcement >> qui se definit naturellement sous la forme d'un probleme de controle optimal pour lequel les donnees de la dynamique d'etat sont a priori (au moins partiellement) inconnues du systeme. Cette these est une etude formelle du cas ou l'espace des etats possibles ainsi que le temps auquel les decisions sont prises sont des variable continues ; la preoccupation majeure de ce travail etant l'etude de la convergences des methodes employees. Nous decrivons le formalisme du controle optimal et presentons la methode de la programmation dynamique : definition de la fonction valeur et enonce l'equation de hamiltonjacobi-bellman associee. Nous introduisons les notions desolutions de viscosite et decrivons des methodes d'approximation numeriques a partir de schemas convergents. Puis nous donnons un theoreme de convergence d'algorithmes bases sur les schemas precedents -ce qui represente la contribution majeure de ce travail. Ce theoreme fournit une methode tres generale pour concevoir des algorithmes d'apprentissage par renforcement convergents. Enfin nous illustrons la methode avec divers exemples d'algorithmes varies portant sur des dynamiques d'etat deterministes ou stochastiques, selon des methodes dites directes ou indirectes et a partir de schemas bases sur des methodes aux differences finies ou aux elements finis.
13

Lesner, Boris. "Planification et apprentissage par renforcement avec modèles d'actions compacts." Caen, 2011. http://www.theses.fr/2011CAEN2074.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Nous étudions les Processus de Décision Markoviens représentés de manière compacte via des langages de définition d'actions basés sur le langage STRIPS Probabiliste. Une première partie de ce travail traite de la résolution de ces processus de manière compacte. Pour cela nous proposons deux algorithmes. Un premier, basé sur la manipulation de formules propositionnelles, permet de résoudre de manière approchée les problèmes dans des fragments propositionnels traitables du type Horn ou 2-CNF. Le second algorithme quant à lui résout efficacement et de manière exacte les problèmes représentés en PDDL probabiliste via l'introduction d'une notion de fonction de valeur d'action étendue. La seconde partie concerne l'apprentissage de ces modèles d'actions. Nous proposons différentes méthodes pour résoudre le problème de l'ambiguïté des observations qui à lieu de lors de l'apprentissage. Une première méthode heuristique basée sur la programmation linéaire donne de bons résultats en pratique, mais sans garanties théoriques. Par la suite nous décrivons une méthode d'apprentissage dans le cadre « Know What It Knows ». Cette approche donne quant à elle des garanties théoriques sur la qualité des modèles d'actions appris ainsi que sur le nombre d'exemples requis pour obtenir un modèle d'actions correct. Ces deux approches sont ensuite incorporées dans un cadre d'apprentissage par renforcement pour une évaluation en pratique de leurs performances
We study Markovian Decision Processes represented with Probabilistic STRIPS action models. A first part of our work is about solving those processes in a compact way. To that end we propose two algorithms. A first one based on propositional formula manipulation allows to obtain approximate solutions in tractable propositional fragments such as Horn and 2-CNF. The second algorithm solves exactly and efficiently problems represented in PPDDL using a new notion of extended value functions. The second part is about learning such action models. We propose different approaches to solve the problem of ambiguous observations occurring while learning. Firstly, a heuristic method based on Linear Programming gives good results in practice yet without theoretical guarantees. We next describe a learning algorithm in the ``Know What It Knows'' framework. This approach gives strong theoretical guarantees on the quality of the learned models as well on the sample complexity. These two approaches are then put into a Reinforcement Learning setting to allow an empirical evaluation of their respective performances
14

Maillard, Odalric-Ambrym. "APPRENTISSAGE SÉQUENTIEL : Bandits, Statistique et Renforcement." Phd thesis, Université des Sciences et Technologie de Lille - Lille I, 2011. http://tel.archives-ouvertes.fr/tel-00845410.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse traite des domaines suivant en Apprentissage Automatique: la théorie des Bandits, l'Apprentissage statistique et l'Apprentissage par renforcement. Son fil rouge est l'étude de plusieurs notions d'adaptation, d'un point de vue non asymptotique : à un environnement ou à un adversaire dans la partie I, à la structure d'un signal dans la partie II, à la structure de récompenses ou à un modèle des états du monde dans la partie III. Tout d'abord nous dérivons une analyse non asymptotique d'un algorithme de bandit à plusieurs bras utilisant la divergence de Kullback-Leibler. Celle-ci permet d'atteindre, dans le cas de distributions à support fini, la borne inférieure de performance asymptotique dépendante des distributions de probabilité connue pour ce problème. Puis, pour un bandit avec un adversaire possiblement adaptatif, nous introduisons des modèles dépendants de l'histoire et traduisant une possible faiblesse de l'adversaire et montrons comment en tirer parti pour concevoir des algorithmes adaptatifs à cette faiblesse. Nous contribuons au problème de la régression en montrant l'utilité des projections aléatoires, à la fois sur le plan théorique et pratique, lorsque l'espace d'hypothèses considéré est de dimension grande, voire infinie. Nous utilisons également des opérateurs d'échantillonnage aléatoires dans le cadre de la reconstruction parcimonieuse lorsque la base est loin d'être orthogonale. Enfin, nous combinons la partie I et II : pour fournir une analyse non-asymptotique d'algorithmes d'apprentissage par renforcement; puis, en amont du cadre des Processus Décisionnel de Markov, pour discuter du problème pratique du choix d'un bon modèle d'états.
15

Klein, Édouard. "Contributions à l'apprentissage par renforcement inverse." Thesis, Université de Lorraine, 2013. http://www.theses.fr/2013LORR0185/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse, intitulée "Contributions à l'apprentissage par renforcement inverse", fournit trois contributions majeures au domaine. La première est une méthode d'estimation de l'attribut moyen, une quantité exploitée par la grande majorité des approches constituant l'état de l'art. Elle a permis d'étendre ces approches au cadre batch et off-policy. La seconde contribution majeure est un algorithme d'apprentissage par renforcement inverse, structured classification for inverse reinforcement learning (SCIRL), qui relâche une contrainte standard du domaine, la résolution répétée d'un processus décisionnel de Markov en introduisant la structure temporelle (par le biais de l'attribut moyen) de ce processus dans un algorithme de classification structurée. Les garanties théoriques qui lui sont attachées et ses bonnes performances en pratique ont permis sa présentation dans une conférence internationale prestigieuse : NIPS. Enfin, la troisième contribution est constituée par la méthode cascaded supervised learning for inverse reinforcement learning (CSI) consistant à apprendre le comportement de l'expert par une méthode supervisée puis à introduire la structure temporelle du MDP par une régression mettant en jeu la fonction de score du classifieur utilisé. Cette méthode offre des garanties théoriques de même nature que celle de SCIRL tout en présentant l'avantage d'utiliser des composants standards pour la classification et la régression, ce qui simplifie la mise en oeuvre. Ce travail sera présenté dans une autre conférence internationale prestigieuse : ECML
This thesis, "Contributions à l'apprentissage par renforcement inverse", brings three major contributions to the community. The first one is a method for estimating the feature expectation, a quantity involved in most of state-of-the-art approaches which were thus extended to a batch off-policy setting. The second major contribution is an Inverse Reinforcement Learning algorithm, structured classification for inverse reinforcement learning (SCIRL), which relaxes a standard constraint in the field, the repeated solving of a Markov Decision Process, by introducing the temporal structure (using the feature expectation) of this process into a structured margin classification algorithm. The afferent theoritical guarantee and the good empirical performance it exhibited allowed it to be presentend in a good international conference: NIPS. Finally, the third contribution is cascaded supervised learning for inverse reinforcement learning (CSI) a method consisting in learning the expert's behavior via a supervised learning approach, and then introducing the temporal structure of the MDP via a regression involving the score function of the classifier. This method presents the same type of theoretical guarantee as SCIRL, but uses standard components for classification and regression, which makes its use simpler. This work will be presented in another good international conference: ECML
16

Gelly, Sylvain. "Une contribution à l'apprentissage par renforcement : application au Computer Go." Paris 11, 2007. http://www.theses.fr/2007PA112227.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le domaine de l'Apprentissage par Renforcement (AR) se trouve à l'interface entre la théorie du contrôle, l'apprentissage supervisé et non-supervisé, l'optimisation et les sciences cognitives, et est un domaine très actif de par ses applications et les problèmes non résolus. Cette thèse apporte quelques contributions dans ce domaine, principalement sur trois axes. Le 1er axe correspond à la modélisation de l'environnement, i. E. à l'apprentissage de la fonction de transition entre deux pas de temps. L'apprentissage et l'utilisation de ce modèle se fait efficacement dans les approches factorisées. Les Réseaux Bayesiens sont un moyen de représenter ce type de modèle, et dans ce domaine le travail présenté propose un nouveau critère d'apprentissage, à la fois pour le paramétrique (probabilités conditionnelles) et non-paramétrique (structure). Le 2ème axe est une étude du cas de l'AR en continu (espace d'état et d'action), à partir de l'algorithme de résolution par programmation dynamique. Cette analyse s'attaque à trois étapes fondamentales de cet algorithme: l'optimisation (choix de l'action à partir de la fonction de valeurs (FV)), l'apprentissage supervisé (regression) de la FV et le choix des exemples sur lesquels apprendre (apprentissage actif). Le 3ème axe de contribution correspond au domaine applicatif du jeu de Go, qui est un cas discret et de grande dimension qui reste un grand challenge pour les algorithmes d'AR. Dans ce domaine, les algorithmes utilisés et améliorés ont permis au programme résultant, MoGo de gagner de nombreuses compétitions internationales et devenant par exemple le premier programme jouant à un niveau dan amateur sur plateau 9x9
Reinforcement Learning (RL) is at the interface of control theory, supervised and unsupervised learning, optimization and cognitive sciences. While RL addresses many objectives with major economic impact, it raises deep theoretical and practical difficulties. This thesis brings some contributions to RL, mainly on three axis. The first axis corresponds to environment modeling, i. E. Learning the transition function between two time steps. Factored approaches give an efficiently framework for the learning and use of this model. The Bayesian Networks are a tool to represent such a model, and this work brings new learning criterion, either in parametric learning (conditional probabilities) and non parametric (structure). The second axis is a study in continuous space and action RL, thanks to the dynamic programming algorithm. This analysis tackles three fundamental steps: optimization (action choice from the value function), supervised learning (regression) of the value function and choice of the learning examples (active learning). The third axis tackles the applicative domain of the game of Go, as a high dimensional discrete control problem, one of the greatest challenge in Machine Learning. The presented algorithms with their improvements made the resulting program, MoGo, win numerous international competitions, becoming for example the first go program playing at an amateur dan level on 9x9
17

Zaidenberg, Sofia. "Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante." Grenoble INPG, 2009. http://www.theses.fr/2009INPG0088.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse étudie l'acquisition automatique par apprentissage d'un modèle de contexte pour un utilisateur dans un environnement ubiquitaire. Dans un tel environnement, les dispositifs peuvent communiquer et coopérer afin de former un espace informatique cohérent. Certains appareils ont des capacités de perception, utilisées par l'environnement pour détecter la situation - le contexte - de l'utilisateur. D'autres appareils sont capables d'exécuter des actions. La problématique que nous nous sommes posée est de déterminer les associations optimales pour un utilisateur donné entre les situations et les actions. L'apprentissage apparaît comme une bonne approche car il permet de personnaliser l'environnement sans spécification explicite de la part de l'usager. Un apprentissage à vie permet, par ailleurs, de toujours s'adapter aux modifications du monde et des préférences utilisateur. L'apprentissage par renforcement est un paradigme d'apprentissage qui peut être une solution à notre problème, à condition de l'adapter aux contraintes liées à notre cadre d'application
This thesis studies the automatic acquisition by machine learning of a context model for a user in a ubiquitous environment. In such an environment, devices can communicate and cooperate in order to create a consistent computerized space. Some devices possess perceptual capabilities. The environment uses them to detect the user's situation his context. Other devices are able to execute actions. Our problematics consists in determining the optimal associations, for a given user, between situations and actions. Machine learning seems to be a sound approach since it results in a customized environment without requiring an explicit specification from the user. A life long learning lets the environment adapt itself continuously to world changes and user preferences changes. Reinforcement learning can be a solution to this problem, as long as it is adapted to some particular constraints due to our application setting
18

Darwiche, Domingues Omar. "Exploration en apprentissage par renforcement : au-delà des espaces d'états finis." Thesis, Université de Lille (2022-....), 2022. http://www.theses.fr/2022ULILB002.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'apprentissage par renforcement (reinforcement learning, RL) est un paradigme de l'apprentissage automatique qui nous permet de concevoir des algorithmes qui apprennent à prendre des décisions et à interagir avec le monde. Les algorithmes de RL peuvent être classés comme hors ligne ou en ligne. Dans le cas hors ligne, l'algorithme dispose d'un ensemble de données fixe, avec lequel il doit calculer une bonne stratégie de prise de décision. Dans le cas en ligne, l'agent doit collecter efficacement des données par lui-même, en interagissant avec l'environnement : c'est le problème que l'on appelle exploration en apprentissage par renforcement. Cette thèse présente des contributions théoriques et pratiques sur le RL en ligne. Nous étudions la performance dans le pire des cas des algorithmes de RL dans des environnements finis, c'est-à-dire, ceux qui peuvent être modélisés avec un nombre fini d'états, et où l'ensemble des actions qui peuvent être prises par un agent est aussi fini. Cette performance se dégrade à mesure que le nombre d'états augmente, alors qu'en pratique, l'espace d'états peut être arbitrairement grand ou continu. Pour résoudre ce problème, nous proposons des algorithmes à noyaux qui peuvent être implémentés pour des espaces d'états généraux, et pour lesquels nous proposons des résultats théoriques sous des hypothèses faibles sur l'environnement. Ces algorithmes reposent sur une fonction noyau qui mesure la similarité entre différents états, qui peut être définie sur des espaces d'état arbitraires, y compris des ensembles discrets et des espaces euclidiens, par exemple. De plus, nous montrons que nos algorithmes à noyaux sont capables d'apprendre dans des environnements non stationnaires en utilisant des fonctions noyau dépendantes du temps, et nous proposons et analysons des versions approximatives de nos méthodes pour réduire leur complexité de calcul. Finalement, nous introduisons une autre approximation de nos méthodes à noyaux, qui peut être implémentée avec des algorithmes d'apprentissage par renforcement profond et intégrer de différentes méthodes d'apprentissage de représentation pour définir un noyau
Reinforcement learning (RL) is a powerful machine learning framework to design algorithms that learn to make decisions and to interact with the world. Algorithms for RL can be classified as offline or online. In the offline case, the algorithm is given a fixed dataset, based on which it needs to compute a good decision-making strategy. In the online case, an agent needs to efficiently collect data by itself, by interacting with the environment: that is the problem of exploration in reinforcement learning. This thesis presents theoretical and practical contributions to online RL. We investigate the worst-case performance of online RL algorithms in finite environments, that is, those that can be modeled with a finite amount of states, and where the set of actions that can be taken by an agent is also finite. Such performance degrades as the number of states increases, whereas in real-world applications the state set can be arbitrarily large or continuous. To tackle this issue, we propose kernel-based algorithms for exploration that can be implemented for general state spaces, and for which we provide theoretical results under weak assumptions on the environment. Those algorithms rely on a kernel function that measures the similarity between different states, which can be defined on arbitrary state-spaces, including discrete sets and Euclidean spaces, for instance. Additionally, we show that our kernel-based algorithms are able to handle non-stationary environments by using time-dependent kernel functions, and we propose and analyze approximate versions of our methods to reduce their computational complexity. Finally, we introduce a scalable approximation of our kernel-based methods, that can be implemented with deep reinforcement learning and integrate different representation learning methods to define a kernel function
19

Garcia, Pascal. "Exploration guidée et induction de comportements génériques en apprentissage par renforcement." Rennes, INSA, 2004. http://www.theses.fr/2004ISAR0010.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'apprentissage par renforcement est un paradigme dans lequel un agent autonome apprend quelles actionseffectuer dans différentes situations (états), de façon à optimiser les renforcements (récompenses ou punitions) qu'il recevra sur le long terme. Bien qu'un très grand nombre de tâches puisse se formuler dans ce paradigme, deux problèmes fondamentaux se posent concernant les algorithmes d'apprentissage par renforcement standards : 1. Ils ne permettent pas de résoudre en un temps raisonnable des tâches ayant un assez grand nombre d'états. 2. Pour une tâche donnée, ces algorithmes doivent apprendre à partir de zéro même si cette tâche est similaire à une autre précédemment résolue. Il serait bien plus utile d'avoir des algorithmes permettant de résoudre plusieurs tâches séquentiellement, la connaissance apprise sur une tâche pouvant être transférée vers la suivante afin de guider l'apprentissage. Nous proposons des méthodes pour aborder ces deux problèmes : 1. Nous définissons deux formalismes permettant d'ajouter de la connaissance a priori, même très succincte, que l'utilisateur possède sur une tâche donnée afin de guider l'agent. L'agent est ainsi doté d'un comportement de base qui pourra se modifier lors de la phase d'apprentissage. 2. Nous définissons une méthode permettant à l'agent, après la résolution d'une ou plusieurs tâches apparentées et à partir de briques élémentaires, d'induire un comportement générique. Il pourra l'utiliserlors de la résolution d'une nouvelle tâche en plus des actions de base associées à cette tâche
Reinforcement learning is a general framework in which an autonomous agent learns which actions to choose in particular situations (states) in order to optimize some reinforcements (rewards or punitions) in the long run. Even if a lot of tasks can be formulated in this framework, there are two problems with the standard reinforcement learning algorithms: 1. Due to the learning time of those algorithms, in practice, tasks with a moderatly large state space are not solvable in reasonable time. 2. Given several problems to solve in some domains, a standard reinforcement learning agent learns an optimal policy from scratch for each problem. It would be far more useful to have systems that can solve several problems over time, using the knowledge obtained from previous problem instances to guide in learning on new problems. We propose some methods to address those issues: 1. We define two formalisms to introduce a priori knowledge to guide the agent on a given task. The agent has an initial behaviour which can be modified during the learning process. 2. We define a method to induce generic behaviours,based on the previously solved tasks and on basicbuilding blocks. Those behaviours will be added to the primitive actions of a new related task tohelp the agent solve it
20

Vasileiadis, Athanasios. "Apprentissage par renforcement à champ moyen : une perspective de contrôle optimal." Electronic Thesis or Diss., Université Côte d'Azur, 2024. http://www.theses.fr/2024COAZ5005.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'apprentissage par renforcement est un paradigme clé de l'apprentissage machine, dont l'objectif est d'inciter les agents à tirer les leçons de leur propre expérience passée afin qu'ils s'améliorent au fil du temps, voir par exemple la monographie [14]. À cet égard, les systèmes impliquant un grand nombre d'agents sont importants pour les applications, mais restent difficiles à traiter du point de vue numérique, voir par exemple le récent post [12]. Le renforcement de l'apprentissage avec plusieurs agents est généralement appelé "apprentissage de renforcement multi-agents" (MARL). Comme démontré dans la publication antérieure [15], cela peut couvrir diverses situations avec des agents opérant individuellement ou collectivement. L'analyse de l'apprentissage par renforcement s'appuie fortement sur les outils mathématiques de la théorie du contrôle et de la théorie des jeux. Tout comme les MARL, les deux peuvent également être confrontés à des difficultés lorsque la dimension augmente. Cela a incité plusieurs auteurs à mettre en œuvre une approche champ moyen, issue de la physique statistique, afin de réduire la complexité globale, voir entre autres les travaux fondateurs de Lasry and Lions [9] et de Huang, Caines et Malhame [7] et les deux monographies [3, 4] sur les jeux à champ moyen et le contrôle champ moyen. L'objectif du doctorat sera de mettre en œuvre une approche similaire de la gestion des MARL. L'idée a été étudiée, au moins pour les agents individuels, dans plusieurs documents récents, voir [8, 10, 13, 16]. Dans ces derniers, non seulement l'approche champ moyen permet de réduire la complexité de façon significative, mais elle fournit également des solutions distribuées (ou décentralisées), qui sont d'une grande utilité pratique. La mise en œuvre numérique est principalement abordée dans [13, 16]. Le lien avec les notions d'apprentissage dans la théorie des jeux est cité dans [10], sur la base d'idées antérieures, voir [2]. La première partie de la thèse consistera à revisiter les travaux existants. Cela demandera en particulier une analyse soigneuse de la stabilité portant à la fois sur le passage d'un système fini d'agents à un système infini et sur l'utilisation de stratégies approximatives (au lieu de stratégies exactes). À la lumière de [2], on peut s'attendre à ce que la monotonie joue un rôle dans l'analyse globale ; une autre orientation, mais plus prospective, consiste à discuter de l'influence d'un environnement stochastique sur le comportement des algorithmes eux-mêmes. Une autre partie de la thèse sera consacrée au cas de la coopération, voir par exemple [5], dont l'analyse s'appuiera sur la théorie du contrôle en champ moyen. Comme mentionné dans [13], des structures potentielles peuvent permettre de faire le lien entre les cas individuel et coopératif ; comme démontré dans [11], ces liens jouent un rôle dans la construction de politiques incitatives
The goal of the PhD will be to implement a similar mean field approach to handle MARL. This idea was investigated, at least for individual agents, in several recent papers. In all of them, not only Mean field approach to MARL (Multi Agent Reinforcement Learning) does the mean field approach allow for a significant decrease of complexity, but it also provides distributed (or decentralized) solutions, which are of a very convenient use in practice. Numerical implementation using either on-or off-policy learning is discussed in the literature. The first part of the thesis will consist in revisiting the former works from a mathematical point of view. In particular, this will ask for a careful stability analysis addressing both the passage from a finite to an infinite system of agents and the use of approximated (instead of exact) policies. We may expect monotonicity to play a key role in the overall analysis; another, but more prospective, direction is to discuss the influence of a stochastic environment onto the behavior of the algorithms themselves. Another part of the thesis will be dedicated to the cooperative case the analysis of which will rely upon mean field control theory. Potential structures may allow to make the connection between individual and cooperative cases. The connection between the two may indeed play an important role for incentive design or, equivalently, for mimicking a cooperative system with individual agents. In this regard, connection with distributional reinforcement learning, may be an interesting question as well
21

Zhang, Ping. "Etudes de différents aspects de l'apprentissage par renforcement." Compiègne, 1997. http://www.theses.fr/1997COMP0993.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Dans cette thèse nous avons abordé trois aspects importants de l'apprentissage par renforcement, à savoir les différences temporelles (T D (Alpha) ), l'algorithme de Q-learning et le dilemme "exploration/exploitation". Sur chacun de ces aspects nous avons proposé des innovations qui permettent de mieux comprendre et par la même de mieux résoudre le problème d'apprentissage par renforcement. Le premier résultat de ce travail est une méthode permettant d'optimiser le choix des paramètres de l'algorithme de T D (Alpha). Nous présentons ensuite l'utilisation du principe de T D (Alpha) comme point de départ à l'élaboration de plusieurs solutions permettant de résoudre un problème réel : l'évaluation de l'aptitude d'une personne à tenir un poste de travail informatisé. Nous nous sommes ensuite intéressés à l'algorithme le plus utilisé en apprentissage par renforcement : le Q-learning. Un des inconvénients majeurs de Q-Iearning est la surestimation des Q-valeurs associées aux actions non-optimales. Afin de remédier à cet inconvénient, nous avons introduit la notion de confiance et avons proposé une nouvelle variante de Q-learning, SCIQ. Cet algorithme nous a permis de généraliser le Q-learning. SCIQ est "adaptatif" grâce à sa capacité évolutive de modification des Q-valeurs. De plus, cette alternative s'avère être robuste et peu gourmande en temps de calcul. Pour résoudre le dilemme exploration/exploitation, nous avons proposé d'introduire la notion d'entropie en tant que mesure d'information sur les états. Nous avons présenté deux méthodes permettant d'estimer une approximation de l'entropie et deux types de techniques pour réaliser l'exploration utilisant ces estimations. Soulignons que le fait d'utiliser une approximation et non l'entropie elle-même permet de définir un algorithme efficace ne nécessitant pas l'introduction de compteur ou de toute autre structure complexe
This dissertation deals with the research on three important aspects of the reinforcement learning : the temporal differences (TD(). ), the Q-learning and the exploration/ exploitation dilemma. We propose algorithms and techniques based on new concepts that allow a better understanding, and ultimately, the solution to the problem of reinforcement learning. The first part of this work deals with a method that optimizes the choice of parameter of T D(). . ) and then solves a real problem of a person's ability to evaluate utilizing the different methods based on the principle of T D(>,). In the second part, we introduce the notion "confidence" and propose a new version of Q-learning, SCIQ, which generalizes and improves the Q-learning. We point out that this algorithm can overcome the over-estimation problem of Q-values associated with non-optimal actions. Contrary to other versions of Q-learning, our algorithm is adaptive thanks to its evolving capacity to modify the Q-values. Again, it is robust and faster than the Q-learning. In the last part, in order to solve the exploration/exploitation dilemma, the notion "entropy" is introduced as the measure of information on the system state. We present two methods allowing to estimate the entropy approximation and two types of tech¬niques for exploration by means of these estimations. It is noted that aside from using entropy itself by using the entropy approximation we can define the efficient algorithm without the counter and extra structure
22

Léon, Aurélia. "Apprentissage séquentiel budgétisé pour la classification extrême et la découverte de hiérarchie en apprentissage par renforcement." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS226.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse s’intéresse à la notion de budget pour étudier des problèmes de complexité (complexité en calculs, tâche complexe pour un agent, ou complexité due à une faible quantité de données). En effet, l’objectif principal des techniques actuelles en apprentissage statistique est généralement d’obtenir les meilleures performances possibles, sans se soucier du coût de la tâche. La notion de budget permet de prendre en compte ce paramètre tout en conservant de bonnes performances. Nous nous concentrons d’abord sur des problèmes de classification en grand nombre de classes : la complexité en calcul des algorithmes peut être réduite grâce à l’utilisation d’arbres de décision (ici appris grâce à des techniques d’apprentissage par renforcement budgétisées) ou à l’association de chaque classe à un code (binaire). Nous nous intéressons ensuite aux problèmes d’apprentissage par renforcement et à la découverte d’une hiérarchie qui décompose une tâche en plusieurs tâches plus simples, afin de faciliter l’apprentissage et la généralisation. Cette découverte se fait ici en réduisant l’effort cognitif de l’agent (considéré dans ce travail comme équivalent à la récupération et à l’utilisation d’une observation supplémentaire). Enfin, nous abordons des problèmes de compréhension et de génération d’instructions en langage naturel, où les données sont disponibles en faible quantité : nous testons dans ce but l’utilisation jointe d’un agent qui comprend et d’un agent qui génère les instructions
This thesis deals with the notion of budget to study problems of complexity (it can be computational complexity, a complex task for an agent, or complexity due to a small amount of data). Indeed, the main goal of current techniques in machine learning is usually to obtain the best accuracy, without worrying about the cost of the task. The concept of budget makes it possible to take into account this parameter while maintaining good performances. We first focus on classification problems with a large number of classes: the complexity in those algorithms can be reduced thanks to the use of decision trees (here learned through budgeted reinforcement learning techniques) or the association of each class with a (binary) code. We then deal with reinforcement learning problems and the discovery of a hierarchy that breaks down a (complex) task into simpler tasks to facilitate learning and generalization. Here, this discovery is done by reducing the cognitive effort of the agent (considered in this work as equivalent to the use of an additional observation). Finally, we address problems of understanding and generating instructions in natural language, where data are available in small quantities: we test for this purpose the simultaneous use of an agent that understands and of an agent that generates the instructions
23

Martinez, Coralie. "Classification précoce de séquences temporelles par de l'apprentissage par renforcement profond." Thesis, Université Grenoble Alpes (ComUE), 2019. http://www.theses.fr/2019GREAT123.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La classification précoce (CP) de séquences temporelles est un sujet de recherche récent dans le domaine de l'analyse des données séquentielles. Le problème consiste à attribuer une étiquette à des données qui sont collectées séquentiellement avec de nouvelles mesures arrivant au cours du temps. La prédiction d’une étiquette doit être faite en utilisant le moins de mesures possible dans la séquence. Le problème de CP a une importance capitale pour de nombreuses applications, allant du contrôle des processus à la détection de fraude. Il est particulièrement intéressant pour les applications qui cherchent à minimiser les coûts d’acquisition des mesures, ou qui cherchent une prédiction rapide des étiquettes afin de pouvoir entreprendre des actions rapides. C'est par exemple le cas dans le domaine de la santé, où il est nécessaire de fournir dès que possible un diagnostic médical à partir de la séquence d'observations médicales collectées au fil du temps. Un autre exemple est la maintenance prédictive où le but est d’anticiper la panne d’une machine à partir des signaux de ses capteurs. Dans ce travail de doctorat, nous avons développé une nouvelle approche pour ce problème, basée sur la formulation d'un problème de prise de décision séquentielle. Nous considérons qu’un modèle de CP doit décider entre classer une séquence incomplète ou retarder la prédiction afin de collecter des mesures supplémentaires. Plus précisément, nous décrivons ce problème comme un processus de décision de Markov partiellement observable noté EC-POMDP. L'approche consiste à entraîner un agent pour la CP à partir d’apprentissage par renforcement profond dans un environnement caractérisé par le EC-POMDP. La principale motivation de cette approche est de proposer un modèle capable d’effectuer la CP de bout en bout, en étant capable d’apprendre simultanément les caractéristiques optimales dans les séquences pour la classification et les décisions stratégiques optimales pour le moment de la prédiction. En outre, la méthode permet de définir l’importance du temps par rapport à la précision de la prédiction dans la définition des récompenses, et ce en fonction de l’application et de sa volonté de faire un compromis. Afin de résoudre le EC-POMDP et de modéliser la politique de l'agent, nous avons appliqué un algorithme existant, le Double Deep-Q-Network, dont le principe général est de mettre à jour la politique de l'agent pendant des épisodes d'entraînement, à partir d’expériences passées stockées dans une mémoire de rejeu. Nous avons montré que l'application de l'algorithme original au problème de CP entraînait des problèmes de mémoire déséquilibrée, susceptibles de détériorer l’entrainement de l'agent. Par conséquent, pour faire face à ces problèmes et permettre un entrainement plus robuste de l'agent, nous avons adapté l'algorithme aux spécificités du EC-POMDP et nous avons introduit des stratégies de gestion de la mémoire et des épisodes. Expérimentalement, nous avons montré que ces contributions amélioraient les performances de l'agent par rapport à l'algorithme d'origine et que nous étions en mesure de former un agent à faire un compromis entre la vitesse et la précision de la classification, individuellement pour chaque séquence. Nous avons également pu former des agents sur des jeux de données publics pour lesquels nous n’avons aucune expertise, ce qui montre que la méthode est applicable à divers domaines. Enfin, nous avons proposé des stratégies pour interpréter, valider ou rejeter les décisions de l'agent. Lors d'expériences, nous avons montré comment ces solutions peuvent aider à mieux comprendre le choix des actions effectuées par l'agent
Early classification (EC) of time series is a recent research topic in the field of sequential data analysis. It consists in assigning a label to some data that is sequentially collected with new data points arriving over time, and the prediction of a label has to be made using as few data points as possible in the sequence. The EC problem is of paramount importance for supporting decision makers in many real-world applications, ranging from process control to fraud detection. It is particularly interesting for applications concerned with the costs induced by the acquisition of data points, or for applications which seek for rapid label prediction in order to take early actions. This is for example the case in the field of health, where it is necessary to provide a medical diagnosis as soon as possible from the sequence of medical observations collected over time. Another example is predictive maintenance with the objective to anticipate the breakdown of a machine from its sensor signals. In this doctoral work, we developed a new approach for this problem, based on the formulation of a sequential decision making problem, that is the EC model has to decide between classifying an incomplete sequence or delaying the prediction to collect additional data points. Specifically, we described this problem as a Partially Observable Markov Decision Process noted EC-POMDP. The approach consists in training an EC agent with Deep Reinforcement Learning (DRL) in an environment characterized by the EC-POMDP. The main motivation for this approach was to offer an end-to-end model for EC which is able to simultaneously learn optimal patterns in the sequences for classification and optimal strategic decisions for the time of prediction. Also, the method allows to set the importance of time against accuracy of the classification in the definition of rewards, according to the application and its willingness to make this compromise. In order to solve the EC-POMDP and model the policy of the EC agent, we applied an existing DRL algorithm, the Double Deep-Q-Network algorithm, whose general principle is to update the policy of the agent during training episodes, using a replay memory of past experiences. We showed that the application of the original algorithm to the EC problem lead to imbalanced memory issues which can weaken the training of the agent. Consequently, to cope with those issues and offer a more robust training of the agent, we adapted the algorithm to the EC-POMDP specificities and we introduced strategies of memory management and episode management. In experiments, we showed that these contributions improved the performance of the agent over the original algorithm, and that we were able to train an EC agent which compromised between speed and accuracy, on each sequence individually. We were also able to train EC agents on public datasets for which we have no expertise, showing that the method is applicable to various domains. Finally, we proposed some strategies to interpret the decisions of the agent, validate or reject them. In experiments, we showed how these solutions can help gain insight in the choice of action made by the agent
24

Laurent, Guillaume. "Synthèse de comportements par apprentissages par renforcement parallèles : application à la commande d'un micromanipulateur plan." Phd thesis, Université de Franche-Comté, 2002. http://tel.archives-ouvertes.fr/tel-00008761.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
En microrobotique, la commande des systèmes est délicate car les phénomènes physiques liés à l'échelle microscopique sont complexes. Les méthodes dites d'apprentissage par renforcement constituent une approche intéressante car elles permettent d'établir une stratégie de commande sans connaissance \emph(a priori) sur le système. Au vu des grandes dimensions des espaces d'états des systèmes étudiés, nous avons développé une approche parallèle qui s'inspire à la fois des architectures comportementales et de l'apprentissage par renforcement. Cette architecture, basée sur la parallélisation de l'algorithme du Q-Learning, permet de réduire la complexité du système et d'accélérer l'apprentissage. Sur une application simple de labyrinthe, les résultats obtenus sont bons mais le temps d'apprentissage est trop long pour envisager la commande d'un système réel. Le Q-Learning a alors été remplacé par l'algorithme du Dyna-Q que nous avons adapté à la commande de systèmes non déterministes en ajoutant un historique des dernières transitions. Cette architecture, baptisée Dyna-Q parallèle, permet non seulement d'améliorer la vitesse de convergence, mais aussi de trouver de meilleures stratégies de contrôle. Les expérimentations sur le système de manipulation montrent que l'apprentissage est alors possible en temps réel et sans utiliser de simulation. La fonction de coordination des comportements est efficace si les obstacles sont relativement éloignés les uns des autres. Si ce n'est pas le cas, cette fonction peut créer des maxima locaux qui entraînent temporairement le système dans un cycle. Nous avons donc élaboré une autre fonction de coordination qui synthétise un modèle plus global du système à partir du modèle de transition construit par le Dyna-Q. Cette nouvelle fonction de coordination permet de sortir très efficacement des maxima locaux à condition que la fonction de mise en correspondance utilisée par l'architecture soit robuste.
25

Bouzid, Salah Eddine. "Optimisation multicritères des performances de réseau d’objets communicants par méta-heuristiques hybrides et apprentissage par renforcement." Thesis, Le Mans, 2020. http://cyberdoc-int.univ-lemans.fr/Theses/2020/2020LEMA1026.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le déploiement des réseaux d’objets communicants «ROCs», dont les densités augmentent sans cesse, conditionne à la fois l’optimalité de leur qualité de service, leur consommation énergétique et par conséquent leur durée de vie. Il s’avère que le problème de déterminer le placement optimal, relativement aux différents critères de qualité, des nœuds de ces réseaux est un problème Np-Complet. Face à cette Np-complétude, et en particulier pour des environnements intérieurs, les approches existantes focalisent sur l’optimisation d’un seul objectif en négligeant les autres critères, ou optent pour une solution manuelle fastidieuse et coûteuse. Des nouvelles approches pour résoudre ce problème sont donc nécessaires. Cette thèse propose une nouvelle approche qui permet de générer automatiquement, dès la phase de conception des réseaux d’objets communicants, le déploiement qui garantit à la fois l’optimalité en termes de performances et de robustesse face aux éventuelles défaillances et instabilités topologiques. Cette approche proposée est basée d’une part sur la modélisation du problème de déploiement sous forme d’un problème d’optimisation combinatoire multi-objectifs sous contraintes, et sa résolution par un algorithme génétique hybride combinant l’optimisation multi-objectifs avec l’optimisation à somme pondérée, et d’autre part sur l’intégration de l’apprentissage par renforcement pour garantir l’optimisation de la consommation énergétique et la prolongation de la durée de vie. Elle est concrétisée par le développement de deux outils. Un premier appelé MOONGA (pour Multi-Objective Optimization of Wireless Network Approach Based on Genetic Algorithm) qui permet de générer automatiquement le placement des nœuds, qui optimise la connectivité, la m-connectivité, la couverture, la k-couverture, la redondance de couverture et le coût. Cette optimisation prend en considération les contraintes liées à l'architecture de l’espace de déploiement, à la topologie du réseau, aux spécificités de l'application pour laquelle le réseau est conçu et aux préférences du concepteur. Après optimisation de déploiement l’outil R2LTO (Pour Reinforcement Learning for Life-Time Optimization), permet d’intégrer un protocole de routage, basé sur l'apprentissage par renforcement, pour garantir l’optimisation de la consommation énergétique et de la durée de vie du ROC après son déploiement tout en conservant la QoS requise
The deployment of Communicating Things Networks (CTNs), with continuously increasing densities, needs to be optimal in terms of quality of service, energy consumption and lifetime. Determining the optimal placement of the nodes of these networks, relative to the different quality criteria, is an NP-Hard problem. Faced to this NP-Hardness, especially for indoor environments, existing approaches focus on the optimization of one single objective while neglecting the other criteria, or adopt an expensive manual solution. Finding new approaches to solve this problem is required. Accordingly, in this thesis, we propose a new approach which automatically generates the deployment that guarantees optimality in terms of performance and robustness related to possible topological failures and instabilities. The proposed approach is based, on the first hand, on the modeling of the deployment problem as a multi-objective optimization problem under constraints, and its resolution using a hybrid algorithm combining genetic multi-objective optimization with weighted sum optimization and on the other hand, the integration of reinforcement learning to guarantee the optimization of energy consumption and the extending the network lifetime. To apply this approach, two tools are developed. A first called MOONGA (Multi-Objective Optimization of wireless Network approach based on Genetic Algorithm) which automatically generates the placement of nodes while optimizing the metrics that define the QoS of the CTN: connectivity, m-connectivity, coverage, k-coverage, coverage redundancy and cost. MOONGA tool considers constraints related to the architecture of the deployment space, the network topology, the specifies of the application and the preferences of the network designer. The second optimization tool is named R2LTO (Reinforcement Learning for Life-Time Optimization), which is a new routing protocol for CTNs, based on distributed reinforcement learning that allows to determine the optimal rooting path in order to guarantee energy-efficiency and to extend the network lifetime while maintaining the required QoS
26

Buffet, Olivier. "Une double approche modulaire de l'apprentissage par renforcement pour des agents intelligents adaptatifs." Phd thesis, Université Henri Poincaré - Nancy I, 2003. http://tel.archives-ouvertes.fr/tel-00509349.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse s'est intéressée à deux domaines de l'intelligence artificielle : d'une part l'apprentissage par renforcement (A/R), et d'autre part les systèmes multi-agents (SMA). Le premier permet de concevoir des agents (entités intelligentes) en se basant sur un signal de renforcement qui récompense les décisions menant au but fixé, alors que le second concerne l'intelligence qui peut venir de l'interaction d'un groupe d'entités (dans la perspective que le tout soit plus que la somme de ses parties). Chacun de ces deux outils souffre de diverses difficultés d'emploi. Le travail que nous avons mené a permis de montrer comment chacun des deux outils peut servir à l'autre pour répondre à certains de ces problèmes. On a ainsi conçu les agents d'un SMA par A/R, et organisé l'architecture d'un agent apprenant par renforcement sous la forme d'un SMA. Ces deux outils se sont avérés très complémentaires, et notre approche globale d'une conception “progressive” a prouvé son efficacité.
27

Dutech, Alain. "Apprentissage par Renforcement : Au delà des Processus Décisionnels de Markov (Vers la cognition incarnée)." Habilitation à diriger des recherches, Université Nancy II, 2010. http://tel.archives-ouvertes.fr/tel-00549108.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Ce document présente mon ``projet de recherche'' sur le thème de l'embodiment (``cognition incarnée'') au croisement des sciences cognitives, de l'intelligence artificielle et de la robotique. Plus précisément, je montre comment je compte explorer la façon dont un agent, artificiel ou biologique, élabore des représentations utiles et pertinentes de son environnement. Dans un premier temps, je positionne mes travaux en explicitant notamment les concepts de l'embodiment et de l'apprentissage par renforcement. Je m'attarde notamment sur la problématique de l'apprentissage par renforcement pour des tâches non-Markoviennes qui est une problématique commune aux différents travaux de recherche que j'ai menés au cours des treize dernières années dans des contextes mono et multi-agents, mais aussi robotique. L'analyse de ces travaux et de l'état de l'art du domaine me conforte dans l'idée que la principale difficulté pour l'agent est bien celle de trouver des représentations adaptées, utiles et pertinentes. J'argumente que l'on se retrouve face à une problématique fondamentale de la cognition, intimement liée aux problèmes de ``l'ancrage des symboles'', du ``frame problem'' et du fait ``d'être en situation'' et qu'on ne pourra y apporter des réponses que dans le cadre de l'embodiment. C'est à partir de ce constat que, dans une dernière partie, j'aborde les axes et les approches que je vais suivre pour poursuivre mes travaux en développant des techniques d'apprentissage robotique qui soient incrémentales, holistiques et motivationnelles.
28

Coulom, Rémi. "Apprentissage par renforcement utilisant des réseaux de neurones avec des applications au contrôle moteur." Phd thesis, Grenoble INPG, 2002. http://tel.archives-ouvertes.fr/tel-00004386.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse est une étude de méthodes permettant d'estimer des fonctions valeur avec des réseaux de neurones feedforward dans l'apprentissage par renforcement. Elle traite plus particulièrement de problèmes en temps et en espace continus, tels que les tâches de contrôle moteur. Dans ce travail, l'algorithme TD(lambda) continu est perfectionné pour traiter des situations avec des états et des commandes discontinus, et l'algorithme vario-eta est proposé pour effectuer la descente de gradient de manière efficace. Les contributions essentielles de cette thèse sont des succès expérimentaux qui indiquent clairement le potentiel des réseaux de neurones feedforward pour estimer des fonctions valeur en dimension élevée. Les approximateurs de fonctions linéaires sont souvent préférés dans l'apprentissage par renforcement, mais l'estimation de fonctions valeur dans les travaux précédents se limite à des systèmes mécaniques avec très peu de degrés de liberté. La méthode présentée dans cette thèse a été appliquée avec succès sur une tâche originale d'apprentissage de la natation par un robot articulé simulé, avec 4 variables de commande et 12 variables d'état indépendantes, ce qui est sensiblement plus complexe que les problèmes qui ont été résolus avec des approximateurs de fonction linéaires.
29

Jneid, Khoder. "Apprentissage par Renforcement Profond pour l'Optimisation du Contrôle et de la Gestion des Bâtiment." Electronic Thesis or Diss., Université Grenoble Alpes, 2023. http://www.theses.fr/2023GRALM062.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les systèmes de chauffage, de ventilation et de climatisation (CVC) consomment une quantité important d'énergie dans les bâtiments. Les approches conventionnelles utilisées pour contrôler les systèmes CVC reposent sur un contrôle basé sur des règles (RBC) qui consiste en des règles prédéfinies établies par un expert. Le contrôle prédictif par modèle (MPC), largement exploré dans la littérature, n'est pas adopté par l'industrie car il s'agit d'une approche basée sur un modèle qui nécessite de construire au préalable des modèles du bâtiment qui sont utilisés dans la phase d'optimisation. Cette construction initiale de modèle est coûteuse et il est difficile de maintenir ces modèles au cours de la vie du bâtiment. Au cours de la thèse, nous étudions l'apprentissage par renforcement (RL) pour optimiser la consommation d'énergie des systèmes CVC tout en maintenant un bon confort thermique et une bonne qualité de l'air. Plus précisément, nous nous concentrons sur les algorithmes d'apprentissage par renforcement sans modèle qui apprennent en interagissant avec l'environnement (le bâtiment, y compris le système CVC) et qui ne nécessitent donc pas de modèles précis de celui-ci. En outre, les approches en ligne sont prises en compte. Le principal défi d'un RL sans modèle en ligne est le nombre de jours nécessaires à l'algorithme pour acquérir suffisamment de données et de retours d'actions pour commencer à agir correctement. L'objectif de cette thèse est d'accélérer l'apprentissage les algorithmes RL sans modèle pour converger plus rapidement afin de les rendre applicables dans les applications du monde réel, le contrôle du chauffage, de la ventilation et de la climatisation. Deux approches ont été explorées au cours de la thèse pour atteindre notre objectif : la première approche combine la RBC avec la RL basé sur la valeur, et la seconde approche combine les règles floues avec le RL basé sur la politique. La première approche exploite les règles RBC pendant l'apprentissage, tandis que dans la seconde, les règles floues sont injectées directement dans la politique. Les tests sont effectués sur un bureau simulé, réplique d'un bureau réeel dans le bâtiment de Grenoble INP pendant la période hivernale
Heating, ventilation, and air-conditioning (HVAC) systems account for high energy consumption in buildings. Conventional approaches used to control HVAC systems rely on rule-based control (RBC) that consists of predefined rules set by an expert. Model-predictive control (MPC), widely explored in literature, is not adopted in the industry since it is a model-based approach that requires to build models of the building at the first stage to be used in the optimization phase and thus is time-consuming and expensive. During the PhD, we investigate reinforcement learning (RL) to optimize the energy consumption of HVAC systems while maintaining good thermal comfort and good air quality. Specifically, we focus on model-free RL algorithms that learn through interaction with the environment (building including the HVAC) and thus not requiring to have accurate models of the environment. In addition, online approaches are considered. The main challenge of an online model-free RL is the number of days that are necessary for the algorithm to acquire enough data and actions feedback to start acting properly. Hence, the research subject of the PhD is boosting model-free RL algorithms to converge faster to make them applicable in real-world applications, HVAC control. Two approaches have been explored during the PhD to achieve our objective: the first approach combines RBC with value-based RL, and the second approach combines fuzzy rules with policy-based RL. Both approaches aim to boost the convergence of RL by guiding the RL policy but they are completely different. The first approach exploits RBC rules during training while in the second approach, the fuzzy rules are injected directly into the policy. Tests areperformed on a simulated office during winter. This simulated office is a replica of a real office at Grenoble INP
30

Gueguen, Maëlle. "Dynamique intracérébrale de l'apprentissage par renforcement chez l'humain." Thesis, Université Grenoble Alpes (ComUE), 2017. http://www.theses.fr/2017GREAS042/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Chaque jour, nous prenons des décisions impliquant de choisir les options qui nous semblent les plus avantageuses, en nous basant sur nos expériences passées. Toutefois, les mécanismes et les bases neurales de l’apprentissage par renforcement restent débattus. D’une part, certains travaux suggèrent l’existence de deux systèmes opposés impliquant des aires cérébrales corticales et sous-corticales distinctes lorsque l’on apprend par la carotte ou par le bâton. D’autres part, des études ont montré une ségrégation au sein même de ces régions cérébrales ou entre des neurones traitant l’apprentissage par récompenses et celui par évitement des punitions. Le but de cette thèse était d’étudier la dynamique cérébrale de l’apprentissage par renforcement chez l’homme. Pour ce faire, nous avons utilisé des enregistrements intracérébraux réalisés chez des patients épileptiques pharmaco-résistants pendant qu’ils réalisaient une tâche d’apprentissage probabiliste. Dans les deux premières études, nous avons d’investigué la dynamique de l’encodage des signaux de renforcement, et en particulier à celui des erreurs de prédiction des récompenses et des punitions. L’enregistrement de potentiels de champs locaux dans le cortex a mis en évidence le rôle central de l’activité à haute-fréquence gamma (50-150Hz). Les résultats suggèrent que le cortex préfrontal ventro-médian est impliqué dans l’encodage des erreurs de prédiction des récompenses alors que pour l’insula antérieure, le cortex préfrontal dorsolatéral sont impliqués dans l’encodage des erreurs de prédiction des punitions. De plus, l’activité neurale de l’insula antérieure permet de prédire la performance des patients lors de l’apprentissage. Ces résultats sont cohérents avec l’existence d’une dissociation au niveau cortical pour le traitement des renforcements appétitifs et aversifs lors de la prise de décision. La seconde étude a permis d’étudier l’implication de deux noyaux limbiques du thalamus au cours du même protocole cognitif. L’enregistrement de potentiels de champs locaux a mis en évidence le rôle des activités basse fréquence thêta dans la détection des renforcements, en particulier dans leur dimension aversive. Dans une troisième étude, nous avons testé l’influence du risque sur l’apprentissage par renforcement. Nous rapportons une aversion spécifique au risque lors de l’apprentissage par évitement des punitions ainsi qu’une diminution du temps de réaction lors de choix risqués permettant l’obtention de récompenses. Cela laisse supposer un comportement global tendant vers une aversion au risque lors de l’apprentissage par évitement des punitions et au contraire une attirance pour le risque lors de l’apprentissage par récompenses, suggérant que les mécanismes d’encodage du risque et de la valence pourraient être indépendants. L’amélioration de la compréhension des mécanismes cérébraux sous-tendant la prise de décision est importante, à la fois pour mieux comprendre les déficits motivationnels caractérisant plusieurs pathologies neuropsychiatriques, mais aussi pour mieux comprendre les biais décisionnels que nous pouvons exhiber
We make decisions every waking day of our life. Facing our options, we tend to pick the most likely to get our expected outcome. Taking into account our past experiences and their outcome is mandatory to identify the best option. This cognitive process is called reinforcement learning. To date, the underlying neural mechanisms are debated. Despite a consensus on the role of dopaminergic neurons in reward processing, several hypotheses on the neural bases of reinforcement learning coexist: either two distinct opposite systems covering cortical and subcortical areas, or a segregation of neurons within brain regions to process reward-based and punishment-avoidance learning.This PhD work aimed to identify the brain dynamics of human reinforcement learning. To unravel the neural mechanisms involved, we used intracerebral recordings in refractory epileptic patients during a probabilistic learning task. In the first study, we used a computational model to tackle the brain dynamics of reinforcement signal encoding, especially the encoding of reward and punishment prediction errors. Local field potentials exhibited the central role of high frequency gamma activity (50-150Hz) in these encodings. We report a role of the ventromedial prefrontal cortex in reward prediction error encoding while the anterior insula and the dorsolateral prefrontal cortex encoded punishment prediction errors. In addition, the magnitude of the neural response in the insula predicted behavioral learning and trial-to-trial behavioral adaptations. These results are consistent with the existence of two distinct opposite cortical systems processing reward and punishments during reinforcement learning. In a second study, we recorded the neural activity of the anterior and dorsomedial nuclei of the thalamus during the same cognitive task. Local field potentials recordings highlighted the role of low frequency theta activity in punishment processing, supporting an implication of these nuclei during punishment-avoidance learning. In a third behavioral study, we investigated the influence of risk on reinforcement learning. We observed a risk-aversion during punishment-avoidance, affecting the performance, as well as a risk-seeking behavior during reward-seeking, revealed by an increased reaction time towards appetitive risky choices. Taken together, these results suggest we are risk-seeking when we have something to gain and risk-averse when we have something to lose, in contrast to the prediction of the prospect theory.Improving our common knowledge of the brain dynamics of human reinforcement learning could improve the understanding of cognitive deficits of neurological patients, but also the decision bias all human beings can exhibit
31

Godbout, Mathieu. "Approches par bandit pour la génération automatique de résumés de textes." Master's thesis, Université Laval, 2021. http://hdl.handle.net/20.500.11794/69488.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Ce mémoire aborde l'utilisation des méthodes par bandit pour résoudre la problématique de l'entraînement de modèles de générations de résumés extractifs. Les modèles extractifs, qui bâtissent des résumés en sélectionnant des phrases d'un document original, sont difficiles à entraîner car le résumé cible correspondant à un document n'est habituellement pas constitué de manière extractive. C'est à cet effet que l'on propose de voir la production de résumés extractifs comme différents problèmes de bandit, lesquels sont accompagnés d'algorithmes pouvant être utilisés pour l'entraînement. On commence ce document en présentant BanditSum, une approche tirée de la litérature et qui voit la génération des résumés d'un ensemble de documents comme un problème de bandit contextuel. Ensuite, on introduit CombiSum, un nouvel algorithme qui formule la génération du résumé d'un seul document comme un bandit combinatoire. En exploitant la formule combinatoire, CombiSum réussit à incorporer la notion du potentiel extractif de chaque phrase à son entraînement. Enfin, on propose LinCombiSum, la variante linéaire de CombiSum qui exploite les similarités entre les phrases d'un document et emploie plutôt la formulation en bandit linéaire combinatoire.
This thesis discusses the use of bandit methods to solve the problem of training extractive abstract generation models. The extractive models, which build summaries by selecting sentences from an original document, are difficult to train because the target summary of a document is usually not built in an extractive way. It is for this purpose that we propose to see the production of extractive summaries as different bandit problems, for which there exist algorithms that can be leveraged for training summarization models.In this paper, BanditSum is first presented, an approach drawn from the literature that sees the generation of the summaries of a set of documents as a contextual bandit problem. Next,we introduce CombiSum, a new algorithm which formulates the generation of the summary of a single document as a combinatorial bandit. By exploiting the combinatorial formulation,CombiSum manages to incorporate the notion of the extractive potential of each sentence of a document in its training. Finally, we propose LinCombiSum, the linear variant of Com-biSum which exploits the similarities between sentences in a document and uses the linear combinatorial bandit formulation instead
32

Montagne, Fabien. "Une architecture logicielle pour aider un agent apprenant par renforcement." Littoral, 2008. http://www.theses.fr/2008DUNK0198.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse s’inscrit dans le cadre de l’apprentissage par renforcement. L’un des principaux avantages est qu’il ne nécessite pas de connaître explicitement le comportement attendu. Durant son apprentissage, l’agent perçoit des états, reçoit un ensemble de retours et sélectionne des actions. Il adapte son comportement en optimisant la quantité de retour. Néanmoins, le temps de calcul nécessaire peut vite être prohibitif. La nécessité d’explorer son environnement en est la principale raison. Notre approche consiste à utiliser des connaissances externes pour « guider » l’agent dans son exploration. Ces connaissances constituent une aide pouvant s’exprimer sous forme de trajectoires formant une base de connaissances. Elles limitent l’exploration de l’environnement tout en permettant d’acquérir un comportement de bonne qualité. Aider un agent n’implique pas de connaître une politique, même partielle, ni d’avoir la même perception que l’agent. L’architecture critique-critique a été conçue pour répondre à cette problématique. Elle combine un algorithme d’apprentissage par renforcement standard avec une aide exprimée sous forme de potentiels, lesquels associent une valeur à chaque transition des trajectoires. L’estimation de la valeur par l’agent et le potentiel de l’aide sont combinés au cours de l’apprentissage. La variation de cette combinaison permet de remettre en cause l’aide tout en garantissant une politique optimale ou proche rapidement. Il est montré que l’algorithme proposé converge dans certaines conditions. De plus, des travaux empiriques montrent que l’agent est capable de tirer profit d’une aide même en dehors de ces conditions
This thesis deals with reinforcement learning. One of the main advantage of this learning is to not require to know explicitely the expected behavior. During its learning, the agent percieves states, gets a set of rewards and selects actions to carry out. The agent fits its behavior by optimizing the amount of rewards. Nevertheless, the computing time required quickly becomes prohibitive. This is mainly due to the agent’s need of exploring its environment. The approach considered here consists in using external knowledge to “guide” the agent during its exploration. This knowledge constitutes an help which can, for example, be expressed by trajectories that set up a knowledge database. These trajectories are used to limit the exploration of the environment while allowing the agent to build a good quality behavior. Helping an agent does neither involve knowing the actions choose in all states, nor having the same perceptions as the agent. The critic-critic architecture was devised to fulfill to this problematic. It combines a standard reinforcement learning algorithm with an help given through potentials. The potentials assiociate a value to each transition of the trajectories. The value function estimation by the agent and the potential of the help are combined during the training. Fitting this combine dynamically makes it possible to throw assistance into question while guaranteing an optimal or almost optimal policy quickly. It is formally proved that the proposed algorithm converges under certain conditions. Moreover, empirical work show that the agent is able to benefit from an help without these conditions
33

Geist, Matthieu. "Optimisation des chaînes de production dans l'industrie sidérurgique : une approche statistique de l'apprentissage par renforcement." Phd thesis, Université de Metz, 2009. http://tel.archives-ouvertes.fr/tel-00441557.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'apprentissage par renforcement est la réponse du domaine de l'apprentissage numérique au problème du contrôle optimal. Dans ce paradigme, un agent informatique apprend à contrôler un environnement en interagissant avec ce dernier. Il reçoit régulièrement une information locale de la qualité du contrôle effectué sous la forme d'une récompense numérique (ou signal de renforcement), et son objectif est de maximiser une fonction cumulante de ces récompenses sur le long terme, généralement modélisée par une fonction dite de valeur. Le choix des actions appliquées à l'environnement en fonction de sa configuration est appelé une politique, et la fonction de valeur quantifie donc la qualité de cette politique. Ce parangon est très général, et permet de s'intéresser à un grand nombre d'applications, comme la gestion des flux de gaz dans un complexe sidérurgique, que nous abordons dans ce manuscrit. Cependant, sa mise en application pratique peut être difficile. Notamment, lorsque la description de l'environnement à contrôler est trop grande, une représentation exacte de la fonction de valeur (ou de la politique) n'est pas possible. Dans ce cas se pose le problème de la généralisation (ou de l'approximation de fonction de valeur) : il faut d'une part concevoir des algorithmes dont la complexité algorithmique ne soit pas trop grande, et d'autre part être capable d'inférer le comportement à suivre pour une configuration de l'environnement inconnue lorsque des situations proches ont déjà été expérimentées. C'est le problème principal que nous traitons dans ce manuscrit, en proposant une approche inspirée du filtrage de Kalman.
34

Matignon, Laëtitia. "Synthèse d'agents adaptatifs et coopératifs par apprentissage par renforcement : application à la commande d'un système distribué de micromanipulation." Besançon, 2008. http://www.theses.fr/2008BESA2041.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
De nombreuses applications peuvent être formulées en termes de systèmes distribués que ce soit une nécessité face à une distribution physique des entités (réseaux, robotique mobile) ou un moyen adopté face à la complexité d'appréhender un problème de manière globale. A travers l'utilisation conjointe de méthodes dites d'apprentissage par renforcement et des systèmes multi-agents, des agents autonomes coopératifs peuvent apprendre à résoudre de manière décentralisée des problèmes complexes en s'adaptant à ceux-ci afin de réaliser un objectif commun. Les méthodes , d'apprentissage par renforcement ne nécessitent aucune connaissance a priori sur la dynamique du système, celui-ci pouvant être stochastique et non-linéaire. Cependant, afin d'améliorer la vitesse d'apprentissage, des méthodes d'injection de connaissances pour les problèmes de plus court chemin stochastique sont étudiées et une fonction d'influence générique est proposée. Nous nous intéressons ensuite au cas d'agents indépendants situés daJ1S des jeux de Markov d'équipe. Dans ce cadre, les agents apprenant par renforcement doivent surmonter plusieurs enjeux tels que la coordination ou l'impact de l'exploration. L'étude de ces enjeux permet tout d'abord de synthétiser les caractéristiques des méthodes décentralisées d'apprentissage par renforcement existantes Ensuite, au vu des difficultés rencontrées par ces approches, deux algorithmes sont proposés. Le premier est le Q-learning hystérétique qui repose sur des agents « à tendance optimiste réglable ». Le second est le Swing befween Optimistic or Neutra/ (SOoN) qui permet à des agents indépendants de s'adapter automatiquement à la stochasticité de l'environnement. Les expérimentations sur divers jeux de Markov d'équipe montrent notamment que le SOoN surmonte les principaux facteurs de non-coordination et est robuste face à l'exploration des autres agents. Une extension de ces travaux à la commande décentralisée d'un système distribué de micromanipulation (smart surface) dans un cas partiellement observable est enfin exposée
Numerous applications can be formulated in terms of distributed systems, be it a necessity face to a physical distribution of entities (networks, mobile robotics) or a means of confronting the complexity to solve globally a problem. The objective is to use together reinforcement learning methods and multi-agent systems. Thus, cooperative and autonomous agents can learn resolve in a decentralized way complex problems by adapting to them 50 as to realize a joint objective. Reinforcement learning methods do not need any a priori knowledge about the dynamics of the system, which can be stochastic and nonlinear. In order to improve the learning speed, knowledge incorporation methods are studied within the context of goal-directed tasks. A generic goal bias function is also proposed. Then we took an interest in independent learners in team Markov games. In this framework, agents learning by reinforcement must overcome several difficulties as the coordination or the impact of the exploration. The study of these issues allows first to synthesize the characteristics of existing reinforcement learning decentralized methods. Then, given the difficulties encountered by this approach, two algorithms are proposed. The first one, called hysteretic Q-learning, is based on agents with "adjustable optimistic tendency". The second one is the Swing between Optimistic or Neutral (SOoN) in which independent agents can adapt automatically to the environment stochasticity. Experimentations on various team Markov games notably show that SOoN overcomes the main factors of non-coordination and is robust face to the exploration of the other agents. An extension of these works to the decentralized control of a distributed micromanipulation system (smart surface) in a partially observable case is finally proposed
35

Zennir, Youcef. "Apprentissage par renforcement et systèmes distribués : application à l'apprentissage de la marche d'un robot hexapode." Lyon, INSA, 2004. http://theses.insa-lyon.fr/publication/2004ISAL0034/these.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le but de cette thèse est d'étudier et de proposer des techniques d'apprentissage par renforcement pour l'apprentissage de la marche d'un robot marcheur hexapode. L'hypothèse sur laquelle repose ce travail est que des marches peuvent être obtenues lorsque la commande des mouvements est distribuée au niveau de chaque patte plutôt que d'être centralisée. Une approche distribuée de l'apprentissage par renforcement de type Q-learning a été retenue dans laquelle les agents (les contrôleurs de mouvement) contribuant à une même tâche mènent leur propre apprentissage en tenant compte ou non de l'existence des autres agents. Différentes simulations et tests on été menés avec pour objectif la génération de marches périodiques stables. La marche apparaît comme un phénomène émergeant des mouvements individuels des pattes. L'influence des paramètres d'apprentissage sur les marches obtenues est étudiée. Sont aussi traités des problèmes de tolérances aux fautes et de manque d'information sur l'état du robot. Enfin il est vérifié en simulation que, avec les algorithmes développés, le robot apprend à rattraper une trajectoire prédéfinie tout en contrôlant sa posture
The goal of this thesis is to study and to develop reinforcement learning techniques in order a hexapod robot to learn to walk. The main assumption on which this work is based is that effective gaits can be obtained as the control of the movements is distributed on each leg rather than centralised in a single decision centre. A distributed approach of the Q-learning technique is adopted in which the agents contributing to the same global objective perform their own learning process taking into account or not the other agents. The centralised and distributed approaches are compared. Different simulations and tests are carried out so as to generate stable periodic gaits. The influence of the learning parameters on the quality of the gaits are studied. The walk appears as an emerging phenomenon from the individual movements of the legs. Problems of fault tolerance and lack of state information are investigated. Finally it is verified that with the developed algorithm the simulated robot learns how to reach a desired trajectory while controlling its posture
36

Leurent, Edouard. "Apprentissage par renforcement sûr et efficace pour la prise de décision comportementale en conduite autonome." Thesis, Lille 1, 2020. http://www.theses.fr/2020LIL1I049.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Dans cette thèse de doctorat, nous étudions comment des véhicules autonomes peuvent apprendre à garantir la sûreté et à éviter les accidents, bien qu'ils partagent la route avec des conducteurs humains dont les comportements sont incertains. Pour prendre en compte cette incertitude, nous nous appuyons sur les observations en ligne de l'environnement pour construire une région de confiance autour de la dynamique du système, qui est ensuite propagée au cours du temps pour borner l'ensemble des trajectoires possibles des véhicules à proximité. Pour assurer la sûreté en présence de cette incertitude, nous avons recours à la prise de décision robuste, qui préconise de toujours considérer le pire cas. Cette approche garantit que la performance obtenue pendant la planification sera également atteinte sur le système réel, et nous montrons dans une analyse de bout en bout que la sous-optimalité qui en résulte est bornée. Nous en fournissons une implémentation efficace, basée sur des algorithmes de recherche arborescente. Une seconde contribution est motivée par le constat que cette approche pessimiste tend à produire des comportements excessivement prudents : imaginez vouloir dépasser un véhicule, quelle certitude avez-vous que ce dernier ne changera pas de voie au tout dernier moment, provoquant un accident ? Ce type de raisonnement empêche les robots de conduire aisément parmi d'autres conducteurs, de s'insérer sur une autoroute ou de traverser une intersection, un phénomène connu sous le nom de « robot figé ». Ainsi, la présence d'incertitude induit un compromis entre deux objectifs contradictoires : sûreté et efficacité. Comment arbitrer ce conflit ? La question peut être temporairement contournée en réduisant au maximum l'incertitude. Par exemple, nous proposons une architecture de réseau de neurones basée sur de l'attention, qui tient compte des interactions entre véhicules pour améliorer ses prédictions. Mais pour aborder pleinement ce compromis, nous nous appuyons sur la prise de décision sous contrainte afin de considérer indépendamment les deux objectifs de sûreté et d'efficacité. Au lieu d'une unique politique de conduite, nous entrainons toute une gamme de comportements, variant du plus prudent au plus agressif. Ainsi, le concepteur du système dispose d'un curseur lui permettant d'ajuster en temps réel le niveau de risque assumé par le véhicule
In this Ph.D. thesis, we study how autonomous vehicles can learn to act safely and avoid accidents, despite sharing the road with human drivers whose behaviors are uncertain. To explicitly account for this uncertainty, informed by online observations of the environment, we construct a high-confidence region over the system dynamics, which we propagate through time to bound the possible trajectories of nearby traffic. To ensure safety under such uncertainty, we resort to robust decision-making and act by always considering the worst-case outcomes. This approach guarantees that the performance reached during planning is at least achieved for the true system, and we show by end-to-end analysis that the overall sub-optimality is bounded. Tractability is preserved at all stages, by leveraging sample-efficient tree-based planning algorithms. Another contribution is motivated by the observation that this pessimistic approach tends to produce overly conservative behaviors: imagine you wish to overtake a vehicle, what certainty do you have that they will not change lane at the very last moment, causing an accident? Such reasoning makes it difficult for robots to drive amidst other drivers, merge into a highway, or cross an intersection — an issue colloquially known as the “freezing robot problem”. Thus, the presence of uncertainty induces a trade-off between two contradictory objectives: safety and efficiency. How to arbitrate this conflict? The question can be temporarily circumvented by reducing uncertainty as much as possible. For instance, we propose an attention-based neural network architecture that better accounts for interactions between traffic participants to improve predictions. But to actively embrace this trade-off, we draw on constrained decision-making to consider both the task completion and safety objectives independently. Rather than a unique driving policy, we train a whole continuum of behaviors, ranging from conservative to aggressive. This provides the system designer with a slider allowing them to adjust the level of risk assumed by the vehicle in real-time
37

Zennir, Youcef Bétemps Maurice. "Apprentissage par renforcement et systèmes distribués application à l'apprentissage de la marche d'un robot hexapode /." Villeurbanne : Doc'INSA, 2005. http://docinsa.insa-lyon.fr/these/pont.php?id=zennir.

Full text
APA, Harvard, Vancouver, ISO, and other styles
38

Rodrigues, Christophe. "Apprentissage incrémental des modèles d'action relationnels." Paris 13, 2013. http://scbd-sto.univ-paris13.fr/secure/edgalilee_th_2013_rodrigues.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Dans cette thèse, nous nous intéressons à l'apprentissage artificiel pour l'action. Nous nous situons à l'intersection de l'apprentissage par renforcement (AR) et de la programmation logique inductive (PLI). Nous étudions plus précisément l'apprentissage de modèles d'actions. Un modèle d'action décrit les conditions et effets des actions possibles dans un environnement. Il permet d'anticiper les conséquences des actions d'un agent et peut aussi être utilisé par un planificateur. Nous nous intéressons en particulier à une représentation relationnelle des environnements. Nous décrivons alors les états et les actions à l'aide d'objets et de relations entre les différents objets qui les composent. Nous présentons la méthode IRALe apprennant de façon incrémentale des modèles d'action relationnels. Nous commençons par supposer que les états sont entièrement observables et que les conséquences des actions sont déterministes. Nous apportons une preuve de convergence pour cette méthode. Ensuite, nous développons une approche d'exploration active qui essaye de focaliser l'expérience de l'agent sur des actions supposées non couvertes par le modèle. Enfin, nous généralisons l'approche en introduisant une perception de l'environnement bruitée afin de rendre plus réaliste notre cadre d'apprentissage. Pour chaque approche, nous illustrons empiriquement son intérêt sur plusieurs problèmes de planification. Les résultats obtenus montrent que le nombre d'interactions nécessaires avec les environnements est très faible comparé à la taille des espaces d'états considérés. De plus, l'apprentissage actif permet d'améliorer significativement ces résultats
In this thesis, we study machine learning for action. Our work both covers reinforcement learning (RL) and inductive logic programming (ILP). We focus on learning action models. An action model describes the preconditions and effects of possible actions in an environment. It enables anticipating the consequences of the agent’s actions and may also be used by a planner. We specifically work on a relational representation of environments. They allow to describe states and actions by the means of objects and relations between the various objects that compose them. We present the IRALe method, which learns incrementally relational action models. First, we presume that states are fully observable and the consequences of actions are deterministic. We provide a proof of convergence for this method. Then, we develop an active exploration approach which allows focusing the agent’s experience on actions that are supposedly non-covered by the model. Finally, we generalize the approach by introducing a noisy perception of the environment in order to make our learning framework more realistic. We empirically illustrate each approach’s importance on various planification problems. The results obtained show that the number of interactions necessary with the environments is very weak compared to the size of the considered states spaces. Moreover, active learning allows to improve significantly these results
39

Gabillon, Victor. "Algorithmes budgétisés d'itérations sur les politiques obtenues par classification." Thesis, Lille 1, 2014. http://www.theses.fr/2014LIL10032/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse étudie une classe d'algorithmes d'apprentissage par renforcement (RL), appelée « itération sur les politiques obtenues par classification » (CBPI). Contrairement aux méthodes standards de RL, CBPI n'utilise pas de représentation explicite de la fonction valeur. CBPI réalise des déroulés (des trajectoires) et estime la fonction action-valeur de la politique courante pour un nombre limité d'états et d'actions. En utilisant un ensemble d'apprentissage construit à partir de ces estimations, la politique gloutonne est apprise comme le produit d'un classificateur. La politique ainsi produite à chaque itération de l'algorithme, n'est plus définie par une fonction valeur (approximée), mais par un classificateur. Dans cette thèse, nous proposons de nouveaux algorithmes qui améliorent les performances des méthodes CBPI existantes, spécialement lorsque le nombre d’interactions avec l’environnement est limité. Nos améliorations se portent sur les deux limitations de CBPI suivantes : 1) les déroulés utilisés pour estimer les fonctions action-valeur doivent être tronqués et leur nombre est limité, créant un compromis entre le biais et la variance dans ces estimations, et 2) les déroulés sont répartis de manière uniforme entre les états déroulés et les actions disponibles, alors qu'une stratégie plus évoluée pourrait garantir un ensemble d'apprentissage plus précis. Nous proposons des algorithmes CBPI qui répondent à ces limitations, respectivement : 1) en utilisant une approximation de la fonction valeur pour améliorer la précision (en équilibrant biais et variance) des estimations, et 2) en échantillonnant de manière adaptative les déroulés parmi les paires d'état-action
This dissertation is motivated by the study of a class of reinforcement learning (RL) algorithms, called classification-based policy iteration (CBPI). Contrary to the standard RL methods, CBPI do not use an explicit representation for value function. Instead, they use rollouts and estimate the action-value function of the current policy at a collection of states. Using a training set built from these rollout estimates, the greedy policy is learned as the output of a classifier. Thus, the policy generated at each iteration of the algorithm, is no longer defined by a (approximated) value function, but instead by a classifier. In this thesis, we propose new algorithms that improve the performance of the existing CBPI methods, especially when they have a fixed budget of interaction with the environment. Our improvements are based on the following two shortcomings of the existing CBPI algorithms: 1) The rollouts that are used to estimate the action-value functions should be truncated and their number is limited, and thus, we have to deal with bias-variance tradeoff in estimating the rollouts, and 2) The rollouts are allocated uniformly over the states in the rollout set and the available actions, while a smarter allocation strategy could guarantee a more accurate training set for the classifier. We propose CBPI algorithms that address these issues, respectively, by: 1) the use of a value function approximation to improve the accuracy (balancing the bias and variance) of the rollout estimates, and 2) adaptively sampling the rollouts over the state-action pairs
40

Langlois, Thibault. "Algorithmes d'apprentissage par renforcement pour la commande adaptative : Texte imprimé." Compiègne, 1992. http://www.theses.fr/1992COMPD530.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse présente différentes méthodes d'identification d'une loi de commande pour le contrôle de systèmes dynamiques. Ces méthodes sont basées sur l'utilisation de réseaux de neurones artificiels pour l'approximation de fonctions à partir d'exemples. Une synthèse bibliographique des différentes applications des réseaux de neurones pour le contrôle de processus est présentée. Trois types d'utilisation des réseaux de neurones sont décrits : l'identification directe d'un système ou d'un contrôleur à partir d'exemples, l'identification d'un contrôleur grâce à l'algorithme de «rétropropagation à travers le temps» et, enfin, les méthodes d'apprentissage par renforcement. Cette dernière famille d'algorithmes est analysée en détail. Un nouvel algorithme d'apprentissage par renforcement baptisé «B-Learning» est proposé. L'originalité de cet algorithme réside dans l'estimation de «bénéfices» associés aux commandes. Ces bénéfices sont définis comme la variation au cours du temps de la qualité à long terme de l'état du système. Le B-Learning ainsi que d'autres algorithmes d'apprentissage par renforcement sont expérimentés sur un cas d'école, le pendule inverse, ainsi que sur une application industrielle : le contrôle d'une usine de production d'eau potable
41

Jouffe, Lionel. "Apprentissage de systèmes d'inférence floue par des méthodes de renforcement : application à la régulation d'ambiance dans un bâtiment d'élevage porcin." Rennes 1, 1997. http://www.theses.fr/1997REN10071.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Afin de s'adapter à leur environnement, les systemes biologiques supérieurs mettent en jeu des méanismes internes. Parmi ceux-ci, certain entrainent des modifications stables de l'activite psychologique qui constituent alors l'apprentissage. Dans la communaute informatique, l'apprentissage est appréhende comme un calcul, i. E. Une série de modifications des caractéristiques de l'apprenti. Bien entendu, cet apprenti n'est plus un système biologique mais un programme informatique adaptatif. Le type d'apprentissage considéré dans cette thèse s'apparente à celui mis en évidence par les behavioristes dans le conditionnement opérant, i. E. L'acquisition d'un comportement uniquement en fonction de renforcements. Le dispositif calculatoire utilise pour implémenter l'apprenti est un systeme d'inférence floue (sif). Ces systèmes reposent sur des règles si-alors formulées avec des termes linguistiques. Ils sont en cela proches du langage naturel et d'une grande lisibilité. Quoique cette dernière permette parfois une mise au point de sif par extraction naturelle des connaissances, il s'avère nécessaire de recourir à des méthodes d'apprentissage lorsque les connaissances expertes ne sont pas disponibles ou exploitables. C'est la raison pour laquelle nous avons mis au point le fuzzy actor-critic learning (facl) et le fuzzy q-learning (fql), deux méthodes permettant à l'apprenti d'acquérir une politique de contrôle de processus uniquement par le seul biais de son intéraction avec l'environnement (i. E. Les récompenses et les punitions). Après avoir validé ces methodes sur des problèmes à caractère pédagogique, nous soumettons au sif l'apprentissage d'une politique de régulation de l'ambiance dans les bâtiments d'élevage porcin. La partie sensorielle de l'apprenti est préalablement mise au point après une phase d'extraction naturelle des connaissances. L'unique moyen dont il dispose pour résoudre cette tâche réside dans la variation des débits de ventilation. Par le biais des méthodes sus-citées, il adapte alors incrémentalement son comportement de façon optimiser les renforcements. Les expérimentations menées avec le régulateur flou permettent de constater que la politique obtenue satisfait complètement les contraintes décrites par les fonctions de renforcements.
42

Pamponet, Machado Aydano. "Le transfert adaptatif en apprentissage par renforcement : application à la simulation de schéma de jeux tactiques." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2009. http://tel.archives-ouvertes.fr/tel-00814207.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Une voie permettant l'accélération l'apprentissage par renforcement est l'exploration à l'aide des connaissances du domaine. La plus part des algorithmes existants, intitulées transfert de connaissance, sont basés sur une hypothèse implicite : la bonne qualité de la connaissance disponible sur la tache courante. Lorsque cette hypothèse n'est pas respectée, les performances se dégradent bien en dessous des celles des méthodes standards. Ce travail de thèse propose des algorithmes de transfert capables de s'adapter à la qualité de la connaissance disponible. Pour le faire, nous introduisons un paramètre nommé le taux de transfert, qui contrôle à quel point l'algorithme se fiera à la connaissance disponible. De plus, nous optimisons ce taux afin de faire meilleur usage de cette politique, en ajoutant de la robustesse à nos algorithmes. Ces algorithmes sont évalués sur un problème jouet (le gridworld), et sur une application d'aide à l'entraineur qui simule une situation de jeu donnée.
43

Gérard, Pierre. "Systèmes de classeurs : étude de l'apprentissage latent." Paris 6, 2002. http://www.theses.fr/2002PA066155.

Full text
APA, Harvard, Vancouver, ISO, and other styles
44

Fouladi, Karan. "Recommandation multidimensionnelle d’émissions télévisées par apprentissage : Une interface de visualisation intelligente pour la télévision numérique." Paris 6, 2013. http://www.theses.fr/2013PA066040.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le sujet central de cette thèse est l’élaboration d’un Système de Recommandation interfacé par une cartographie interactive des contenus télévisés. Ce système fut réalisé dans le cadre du projet ANR, nommé BUIS, durant la période 2006-2009. Pour ce faire, nous avons choisi d’utiliser un Système de Recommandation basé sur le contenu et l��avons adapté au domaine télévisuel. Cette adaptation s’est effectuée lors de plusieurs étapes spécifiques. Nous avons particulièrement travaillé le traitement des métadonnées associées aux contenus télévisés, en développant un système expert capable de nous fournir une catégorisation inédite des émissions télévisées. Nous avons également pris l’initiative de modéliser et d’intégrer le contexte d’usage télévisuel dans notre modélisation d’environnement télévisuel. L’intégration du contexte nous a permis d’obtenir une représentation suffisamment fine et stable de cet environnement, nous permettant ainsi la mise en place de notre système de recommandation. La catégorisation approfondie des métadonnées associées aux contenus télévisuels et la modélisation & l’intégration du contexte d’usage télévisuel constituent la contribution principale de cette thèse. Pour évaluer/améliorer nos développements, nous avons installé un parc de neuf foyers repartis selon trois types spécifiques de familles. Cela nous a donné les moyens d’évaluer l’apport de nos travaux au confort d’usage télévisuel dans de réelles conditions d’utilisation. Par une approche implicite, nous avons appréhendé le comportement télévisuel des familles (impliquées dans notre projet) vis-à-vis des contenus télévisés. Un analyseur syntaxico-sémantique nous a fourni une mesure graduelle d’intérêts portés aux contenus, et ce pour chaque famille. Notre système de recommandation, basé sur le contenu et assisté par apprentissage (notamment l’apprentissage par renforcement), nous a fourni des résultats parmi les plus optimaux de la communauté scientifique du domaine. Il est à préciser que nous avons également élaboré une interface cartographique interactive basée sur l’idée d’ « île de mémoire » pour que l’interfaçage interactif soit en adéquation avec le Système de Recommandation mis en place
Due to the wealth of entertainment contents provided by Digital Mass Media and in particular by Digital Television (satellite, cable, terrestrial or IP), choosing a program has become more and more difficult. Far from having a user-friendly environment, Digital Television (DTV) users face a huge choice of content, assisted only by off-putting interfaces named classical "Electronic Program Guide" EPG. That makes users' attention blurry and decreases their active program searching and choice. The central topic of this thesis is the development of a Recommendation System interfaced mapping interactive TV content. To do this, we chose to use a Recommendation System based on the content and have adapted to the field of television. This adaptation is carried out at several specific steps. We especially worked processing metadata associated with television content and developing an expert system can provide us with a unique categorization of television. We also took the initiative to model and integrate the context of use in our television viewing environment modeling. The integration of context allowed us to obtain a sufficiently fine and stable in this environment, allowing us to implementing our recommendation system. Detailed categorization of metadata associated with television content and modeling & integration of context of use television is the main contribution of this thesis. To assess / improve our developments, we installed a fleet of nine homes left in three specific types of families. This has given us the means to assess the contribution of our work in ease of use television in real conditions of use. By an implicit approach, we apprehended the behavior of television families (involved in our project) vis-à-vis television content. A syntactic-semantic analyzer has provided a measure of gradual interest thereon to the content, for each family. We have also developed an interactive mapping interface based on the idea of "Island of memory" for the interactive interface is in line with Recommendation System in place. Our recommendation system based on content and assisted learning (reinforcement learning), has provided us with the most optimal results to the scientific community in the field
45

Carrara, Nicolas. "Reinforcement learning for dialogue systems optimization with user adaptation." Thesis, Lille 1, 2019. http://www.theses.fr/2019LIL1I071/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les systèmes d’intelligence artificielle les plus puissants utilisent désormais des modèles statistiques. Afin de construire des modèles efficaces, ces systèmes doivent collecter une quantité substantielle de données issues de l’environnement. Les assistants personnels, maisons connectées, serveurs vocaux et autres systèmes de dialogue ne font pas exception. Ces systèmes ont pour vocation d’interagir avec des humains, et pour cela, leurs données d’apprentissage se doivent d’être collectées avec ces mêmes humains. Parce que le nombre d’interactions avec une seule personne est assez faible, l’approche usuelle pour augmenter le jeu de données consiste à agréger les données de tous les utilisateurs.Une des limitations de cette approche vient du fait que, par construction, les modèles entraînés ainsi ne sont efficaces qu’avec un humain "moyen" et n’incluent pas de système d’adaptation ; cette faiblesse entraîne la restriction du service à certains groupes de personnes; Par conséquent, cela réduit l’ensemble des utilisateurs et provoque des problèmes d’inclusion. La présente thèse propose des solutions impliquant la construction de systèmes de dialogue combinant l’apprentissage par transfert et l’apprentissage parrenforcement. La thèse explore deux pistes de recherche : La première consiste à inclure un mécanisme d’adaptation dès les premières interactions avec un nouvel utilisateur. Pour ce faire, nous utilisons la connaissance accumulée avec des utilisateurs déjà connus du système. La question sous-jacente est la suivante : comment gérer l’évolution du système suite à une croissance interrompue d’utilisateurs et donc de connaissance? La première approche implique le clustering des systèmes de dialogue (chacun étant spécialisé pour un utilisateur) en fonction de leurs stratégies. Nous démontrons que la méthode améliore la qualité des dialogues en interagissant avec des modèles à base de règles et des modèles d’humains. La seconde approche propose d’inclure un mécanisme d’apprentissage par transfert dans l’exécution d’un algorithme d’apprentissage profond par renforcement, Deep Q-learning. La seconde piste avance l’idée selon laquelle les premières interactions avec un nouvel utilisateur devraient être gérées par un système de dialogue sécurisé et précautionneux avant d’utiliser un système de dialogue spécialisé. L’approche se divise en deux étapes. La première étape consiste à apprendre une stratégie sécurisée avec de l’apprentissage par renforcement. À cet effet, nous proposons un nouveau framework d’apprentissage par renforcement sous contrainte en états continus ainsi que des algorithmes les solutionnant. En particulier, nous validons, en termes de sécurité et d’efficacité, une extension de Fitted-Q pour les deux applications sous contraintes : les systèmes de dialogue et la conduite autonome. La deuxième étape implique l’utilisation de ces stratégies sécurisées lors des premières interactions avec un nouvel utilisateur ; cette méthode est une extension de l’algorithme classique d’exploration, ε-greedy
The most powerful artificial intelligence systems are now based on learned statistical models. In order to build efficient models, these systems must collect a huge amount of data on their environment. Personal assistants, smart-homes, voice-servers and other dialogue applications are no exceptions to this statement. A specificity of those systems is that they are designed to interact with humans, and as a consequence, their training data has to be collected from interactions with these humans. As the number of interactions with a single person is often too scarce to train a proper model, the usual approach to maximise the amount of data consists in mixing data collected with different users into a single corpus. However, one limitation of this approach is that, by construction, the trained models are only efficient with an "average" human and do not include any sort of adaptation; this lack of adaptation makes the service unusable for some specific group of persons and leads to a restricted customers base and inclusiveness problems. This thesis proposes solutions to construct Dialogue Systems that are robust to this problem by combining Transfer Learning and Reinforcement Learning. It explores two main ideas: The first idea of this thesis consists in incorporating adaptation in the very first dialogues with a new user. To that extend, we use the knowledge gathered with previous users. But how to scale such systems with a growing database of user interactions? The first proposed approach involves clustering of Dialogue Systems (tailored for their respective user) based on their behaviours. We demonstrated through handcrafted and real user-models experiments how this method improves the dialogue quality for new and unknown users. The second approach extends the Deep Q-learning algorithm with a continuous transfer process.The second idea states that before using a dedicated Dialogue System, the first interactions with a user should be handled carefully by a safe Dialogue System common to all users. The underlying approach is divided in two steps. The first step consists in learning a safe strategy through Reinforcement Learning. To that extent, we introduced a budgeted Reinforcement Learning framework for continuous state space and the underlying extensions of classic Reinforcement Learning algorithms. In particular, the safe version of the Fitted-Q algorithm has been validated, in term of safety and efficiency, on a dialogue system tasks and an autonomous driving problem. The second step consists in using those safe strategies when facing new users; this method is an extension of the classic ε-greedy algorithm
46

Fournier, Pierre. "Intrinsically Motivated and Interactive Reinforcement Learning : a Developmental Approach." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS634.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'apprentissage par renforcement est aujourd'hui plus populaire que jamais, mais plusieurs compétences simples lui restent hors de portée: manipulation d'objets, contrôle sensorimoteur, interaction naturelle avec d'autres agents. Une approche possible pour aborder ces défis consiste à s'inspirer du développement humain, voire de tenter de le reproduire. Dans cette thèse, nous étudions l'intersection de deux sujets cruciaux en sciences du développement, et leur application à l'apprentissage par renforcement dans le but d'aborder ces défis: l'apprentissage social et la motivation intrinsèque. L'interaction et la motivation intrinsèque ont déjà été étudiées, séparément, en combinaison avec l'apprentissage par renforcement, mais avec l'objectif d'améliorer les performances d'agents existants plutôt que d'apprendre de manière développementale. Nous concentrons donc à l'inverse notre étude sur l'aspect développemental de ces deux sujets. Nos travaux de thèse abordent en particulier l'auto-organisation de l'apprentissage en trajectoires développementale par recherche intrinsèquement motivée du progrès d'apprentissage, et l'interaction de cette organisation avec l'apprentissage dirigé vers des buts et l'apprentissage par imitation. Nous montrons que ces différents mécanismes, lorsqu'ils sont mis en place dans des environnements ouverts sans tâche prédéfinie, peuvent interagir pour produire des comportements d'apprentissage satisfaisants d'un point de vue développemental, et plus riches que ceux produits par chaque mécanisme séparément: génération automatique de curriculum, imitation sélective, suivi non-supervisé de démonstrations
Reinforcement learning (RL) is today more popular than ever, but certain basic skills are still out of reach of this paradigm: object manipulation, sensorimotor control, natural interaction with other agents. A possible approach to address these challenges consist in taking inspiration from human development, or even trying to reproduce it. In this thesis, we study the intersection of two crucial topics in developmental sciences and how to apply them to RL in order to tackle the aforementioned challenges: interactive learning and intrinsic motivation. Interactive learning and intrinsic motivation have already been studied, separately, in combination with RL, but in order to improve quantitatively existing agents performances, rather than to learn in a developmental fashion. We thus focus our efforts on the developmental aspect of these subjects. Our work touches the self-organisation of learning in developmental trajectories through an intrinsically motivated for learning progress, and the interaction of this organisation with goal-directed learning and imitation learning. We show that these mechanisms, when implemented in open-ended environments with no task predefined, can interact to produce learning behaviors that are sound from a developmental standpoint, and richer than those produced by each mechanism separately
47

Pinault, Florian. "Apprentissage par renforcement pour la généralisation des approches automatiques dans la conception des systèmes de dialogue oral." Phd thesis, Université d'Avignon, 2011. http://tel.archives-ouvertes.fr/tel-00933937.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les systèmes de dialogue homme machine actuellement utilisés dans l'industrie sont fortement limités par une forme de communication très rigide imposant à l'utilisateur de suivre la logique du concepteur du système. Cette limitation est en partie due à leur représentation de l'état de dialogue sous la forme de formulaires préétablis.Pour répondre à cette difficulté, nous proposons d'utiliser une représentation sémantique à structure plus riche et flexible visant à permettre à l'utilisateur de formuler librement sa demande.Une deuxième difficulté qui handicape grandement les systèmes de dialogue est le fort taux d'erreur du système de reconnaissance vocale. Afin de traiter ces erreurs de manière quantitative, la volonté de réaliser une planification de stratégie de dialogue en milieu incertain a conduit à utiliser des méthodes d'apprentissage par renforcement telles que les processus de décision de Markov partiellement observables (POMDP). Mais un inconvénient du paradigme POMDP est sa trop grande complexité algorithmique. Certaines propositions récentes permettent de réduire la complexité du modèle. Mais elles utilisent une représentation en formulaire et ne peuvent être appliqués directement à la représentation sémantique riche que nous proposons d'utiliser.Afin d'appliquer le modèle POMDP dans un système dont le modèle sémantique est complexe, nous proposons une nouvelle façon de contrôler sa complexité en introduisant un nouveau paradigme : le POMDP résumé à double suivi de la croyance. Dans notre proposition, le POMDP maitre, complexe, est transformé en un POMDP résumé, plus simple. Un premier suivi de croyance (belief update) est réalisé dans l'espace maitre (en intégrant des observations probabilistes sous forme de listes nbest). Et un second suivi de croyance est réalisé dans l'espace résumé, les stratégies obtenues sont ainsi optimisées sur un véritable POMDP.Nous proposons deux méthodes pour définir la projection du POMDP maitre en un POMDP résumé : par des règles manuelles et par regroupement automatique par k plus proches voisins. Pour cette dernière, nous proposons d'utiliser la distance d'édition entre graphes, que nous généralisons pour obtenir une distance entre listes nbest.En outre, le couplage entre un système résumé, reposant sur un modèle statistique par POMDP, et un système expert, reposant sur des règles ad hoc, fournit un meilleur contrôle sur la stratégie finale. Ce manque de contrôle est en effet une des faiblesses empêchant l'adoption des POMDP pour le dialogue dans l'industrie.Dans le domaine du renseignement d'informations touristiques et de la réservation de chambres d'hôtel, les résultats sur des dialogues simulés montrent l'efficacité de l'approche par renforcement associée à un système de règles pour s'adapter à un environnement bruité. Les tests réels sur des utilisateurs humains montrent qu'un système optimisé par renforcement obtient cependant de meilleures performances sur le critère pour lequel il a été optimisé.
48

Ndiaye, Seydina Moussa. "Apprentissage par renforcement en horizon fini : Application à la génération de règles pour la conduite de culture." Toulouse 3, 1999. http://www.theses.fr/1999TOU30010.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le point essentiel de la première partie de la thèse a été d'adapter au cadre de l'horizon fini les méthodes d'apprentissage par renforcement (AR) existantes. Nous avons considéré essentiellement deux d'entre elles basées sur le principe des différences temporelles, le Q-Learning et le R-Learning, qui différent sur la fonction d'évaluation. Toutes les études faites dans ce domaine concernent des problèmes en horizon infini. Les résultats obtenus nous ont permis d'établir un lien entre le critère 1-pondéré (Q-Learning) et le critère moyen (R-Learning) en horizon fini. La réécriture du R-Learning en horizon fini montre une équivalence entre le critère moyen et le critère fini. La méthode de l'ODE (ordinary differential equation) a été utilisée pour analyser la vitesse de convergence de ces algorithmes en horizon fini. Nous avons montré que le R-Learning pouvait être vu comme une version à gain matriciel du Q-Learning. Le second problème a été la représentation de l'espace de résolution en AR. Généralement les algorithmes d'AR sont appliqués sur des espaces discrets alors que dans notre problème de conduite de culture nous avons à faire avec des espaces mixtes (discrets et continus). Une solution est d'utiliser la méthode de représentation par CMAC (cerebellar model articulation controller) communément utilisée en AR. Cependant, bien que donnant des résultats satisfaisants, ce mode de représentation n'est pas adéquat pour notre application parce qu'il ne fournit pas une caractérisation intelligible pour l'utilisateur agronome de la notion de stratégie. Une représentation par un ensemble de règles de décision de la forme si alors est préférable. La solution envisagée est d'apprendre directement des stratégies de conduite de culture sous forme de règles de décision. Pour cela, des techniques d'algorithmes génétiques (AG) sont utilisées pour modifier et apprendre la structure optimale des règles de décision.
49

Islas, Ramírez Omar Adair. "Learning Robot Interactive Behaviors in Presence of Humans and Groups of Humans." Thesis, Paris 6, 2016. http://www.theses.fr/2016PA066632/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Au fil des dernières années les robots ont fait partie de notre quotidien. Même si nous ne les voyons pas, nous dépendons d'eux pour construire nos ordinateurs, téléphones mobiles, voitures, etcetera. Les robots sont utilisés aussi pour l'organisation des produits dans les usines. Un autre domaine de croissance est la robotique sociale. Nous pouvons voir des études tel que des robots d'aide aux enfants autistes. Il y a aussi des robots qui sont utilisés pour accueillir des personnes dans des hôtels ou dans centres commerciaux pour interagir avec les gens. Ainsi, le robot doit comprendre le comportement des personnes. Et, pour les robots mobiles, il faut savoir comment naviguer dans l'environnement humain. En ce qui concerne les environnements humains, ce travail explore la navigation acceptable socialement des robots en direction de personnes. Pour donner un exemple, quand un robot s'approche d'une personne, il ne doit pas traiter la personne comme un obstacle. Car si cette dernière est traitée comme un obstacle, le robot s'approcherait d'elle sans prendre en compte son espace personnel, ce qui la gênerait. Une personne est une entité qui doit être pris en compte sur la base des normes sociales que nous (en tant que personnes) utilisons tous les jours. Dans cette thèse, nous explorons comment un robot s'approche d'une personne. Celle-ci peut-être gênée si quelque chose ou quelqu'un envahit son espace personnel. La personne se sentira aussi menacée si elle est approchée par derrière. Ces normes sociales doivent être respectées par le robot. C'est pour cela que nous modélisons le comportement du robot à travers des algorithmes d'apprentissage. Nous faisons approcher (manuellement) un robot d'un personne plusieurs fois et le robot apprend à reproduire ce comportement. Un autre travail de cette thèse est la compréhension d'un groupe de personnes. Nous, en tant que humains, avons la capacité de le faire intuitivement. Toutefois, un robot nécessite impérativement un modèle mathématique. Enfin, nous abordons le sujet d'un robot qui s'approche d'un groupe de personnes. Nous utilisons des démonstrations pour faire apprendre le robot. Nous évaluons le bon déroulement du comportement du robot comme par exemple, en observant combien de fois le robot envahit l'espace personnel des personnes pendant la navigation
In the past years, robots have been a part of our every day lives. Even when we do not see them, we depend on them to build our computers, mobile phones, cars and more. They are also been used for organizing stocks in warehouses. And, with the growth of autonomous cars, we see them driving autonomously on highways and cities. Another area of growth is social robotics. We can see a lot of studies such as robots helping children with autism. Other robots are being used to receive people in hotels or to interact with people in shopping centers. In the latter examples, robots need to understand people behavior. In addition, in the case of mobile robots, they need to know how to navigate in human environments. In the context of human environments, this thesis explores socially acceptable navigation of robots towards people. To give an example, when a robot approaches one person, the robot shall by no means treat people as an obstacle because the robot get really close to the human and interfere with her personal space. The human is an entity that needs to be considered based on social norms that we (humans) use on a daily basis. In a first time, we explore how a robot can approach one person. A person is an entity that can be bothered if someone or something approaches invading her personal space. The person also will feel distressed when she is approached from behind. These social norms have to be respected by the robot. For this reason, we decided to model the behavior of the robot through learning algorithms. We manually approach a robot to a person several times and the robot learns how to reproduce this behavior. In a second time, we present how a robot can understand what is a group of people. We, humans, have the ability to do this intuitively. However, for a robot, a mathematical model is essential. Lastly, we address how a robot can approach a group of people. We use exemplary demonstrations to teach this behavior to the robot. We evaluate then the robot's movements by for example, observing if the robot invades people's personal space during the trajectory
50

Islas, Ramírez Omar Adair. "Learning Robot Interactive Behaviors in Presence of Humans and Groups of Humans." Electronic Thesis or Diss., Paris 6, 2016. https://accesdistant.sorbonne-universite.fr/login?url=https://theses-intra.sorbonne-universite.fr/2016PA066632.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Au fil des dernières années les robots ont fait partie de notre quotidien. Même si nous ne les voyons pas, nous dépendons d'eux pour construire nos ordinateurs, téléphones mobiles, voitures, etcetera. Les robots sont utilisés aussi pour l'organisation des produits dans les usines. Un autre domaine de croissance est la robotique sociale. Nous pouvons voir des études tel que des robots d'aide aux enfants autistes. Il y a aussi des robots qui sont utilisés pour accueillir des personnes dans des hôtels ou dans centres commerciaux pour interagir avec les gens. Ainsi, le robot doit comprendre le comportement des personnes. Et, pour les robots mobiles, il faut savoir comment naviguer dans l'environnement humain. En ce qui concerne les environnements humains, ce travail explore la navigation acceptable socialement des robots en direction de personnes. Pour donner un exemple, quand un robot s'approche d'une personne, il ne doit pas traiter la personne comme un obstacle. Car si cette dernière est traitée comme un obstacle, le robot s'approcherait d'elle sans prendre en compte son espace personnel, ce qui la gênerait. Une personne est une entité qui doit être pris en compte sur la base des normes sociales que nous (en tant que personnes) utilisons tous les jours. Dans cette thèse, nous explorons comment un robot s'approche d'une personne. Celle-ci peut-être gênée si quelque chose ou quelqu'un envahit son espace personnel. La personne se sentira aussi menacée si elle est approchée par derrière. Ces normes sociales doivent être respectées par le robot. C'est pour cela que nous modélisons le comportement du robot à travers des algorithmes d'apprentissage. Nous faisons approcher (manuellement) un robot d'un personne plusieurs fois et le robot apprend à reproduire ce comportement. Un autre travail de cette thèse est la compréhension d'un groupe de personnes. Nous, en tant que humains, avons la capacité de le faire intuitivement. Toutefois, un robot nécessite impérativement un modèle mathématique. Enfin, nous abordons le sujet d'un robot qui s'approche d'un groupe de personnes. Nous utilisons des démonstrations pour faire apprendre le robot. Nous évaluons le bon déroulement du comportement du robot comme par exemple, en observant combien de fois le robot envahit l'espace personnel des personnes pendant la navigation
In the past years, robots have been a part of our every day lives. Even when we do not see them, we depend on them to build our computers, mobile phones, cars and more. They are also been used for organizing stocks in warehouses. And, with the growth of autonomous cars, we see them driving autonomously on highways and cities. Another area of growth is social robotics. We can see a lot of studies such as robots helping children with autism. Other robots are being used to receive people in hotels or to interact with people in shopping centers. In the latter examples, robots need to understand people behavior. In addition, in the case of mobile robots, they need to know how to navigate in human environments. In the context of human environments, this thesis explores socially acceptable navigation of robots towards people. To give an example, when a robot approaches one person, the robot shall by no means treat people as an obstacle because the robot get really close to the human and interfere with her personal space. The human is an entity that needs to be considered based on social norms that we (humans) use on a daily basis. In a first time, we explore how a robot can approach one person. A person is an entity that can be bothered if someone or something approaches invading her personal space. The person also will feel distressed when she is approached from behind. These social norms have to be respected by the robot. For this reason, we decided to model the behavior of the robot through learning algorithms. We manually approach a robot to a person several times and the robot learns how to reproduce this behavior. In a second time, we present how a robot can understand what is a group of people. We, humans, have the ability to do this intuitively. However, for a robot, a mathematical model is essential. Lastly, we address how a robot can approach a group of people. We use exemplary demonstrations to teach this behavior to the robot. We evaluate then the robot's movements by for example, observing if the robot invades people's personal space during the trajectory

To the bibliography