Auswahl der wissenschaftlichen Literatur zum Thema „Apprentissage pas Renforcement“

Geben Sie eine Quelle nach APA, MLA, Chicago, Harvard und anderen Zitierweisen an

Wählen Sie eine Art der Quelle aus:

Machen Sie sich mit den Listen der aktuellen Artikel, Bücher, Dissertationen, Berichten und anderer wissenschaftlichen Quellen zum Thema "Apprentissage pas Renforcement" bekannt.

Neben jedem Werk im Literaturverzeichnis ist die Option "Zur Bibliographie hinzufügen" verfügbar. Nutzen Sie sie, wird Ihre bibliographische Angabe des gewählten Werkes nach der nötigen Zitierweise (APA, MLA, Harvard, Chicago, Vancouver usw.) automatisch gestaltet.

Sie können auch den vollen Text der wissenschaftlichen Publikation im PDF-Format herunterladen und eine Online-Annotation der Arbeit lesen, wenn die relevanten Parameter in den Metadaten verfügbar sind.

Zeitschriftenartikel zum Thema "Apprentissage pas Renforcement"

1

Toillier, Aurélie, Agathe Devaux-Spartakis, Guy Faure, Danielle Barret und Catherine Marquié. „Comprendre la contribution de la recherche à l'innovation collective par l'exploration de mécanismes de renforcement de capacité“. Cahiers Agricultures 27, Nr. 1 (21.12.2017): 15002. http://dx.doi.org/10.1051/cagri/2017055.

Der volle Inhalt der Quelle
Annotation:
Le renforcement des capacités à innover apparaît comme un nouveau moyen pour assurer un développement durable dans les pays du Sud. Dans le secteur de l'agriculture, l'innovation est essentiellement collective, ce qui appelle les chercheurs à sortir de leur rôle de producteurs de connaissances pour s'engager auprès des acteurs en situation d'innovation. Si une diversité de pratiques de recherche engagée sont apparues, il n'existe cependant pas aujourd'hui une vision claire des différentes façons dont les chercheurs contribuent à l'innovation. L'objectif de cet article est d'identifier les différentes modalités de contribution des chercheurs au renforcement des capacités à innover. Pour cela, les auteurs ont développé un cadre d'analyse ex post qui met en perspective deux corpus de littérature, sur l'apprentissage et le management de l'innovation. Ce cadre permet de caractériser des séquences de situations d'apprentissage et une diversité de postures des chercheurs aux différentes étapes de l'innovation pour rendre compte de leurs contributions. À partir d'une étude approfondie de treize cas d'innovation dans lesquels le Centre de coopération internationale en recherche agronomique pour le développement (CIRAD) s'est engagé avec ses partenaires de recherche du Sud, quatre types de contribution des chercheurs au renforcement des capacités à innover ont été identifiés : faciliter des apprentissages de façon non supervisée, planifier et encadrer des apprentissages, créer des besoins d'apprentissage et y répondre pas à pas, se laisser guider par l'exploration et les besoins des utilisateurs. Nos résultats suggèrent qu'une gestion stratégique des processus d'innovation par les organismes de recherche pourrait être rendue possible par le suivi et l'évaluation des situations d'apprentissage, d'une part de façon à renforcer les capacités à innover des chercheurs eux-mêmes et d‘autre part pour agencer au mieux les compétences et ressources disponibles, faire évoluer les mandats des chercheurs et rationaliser leurs investissements.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
2

Van de Kerkhove, Anthony, und Claude Emmanuel Perez-Cano. „La coopération comme moyen pour les apprentissages moteurs en EPS“. L'Education physique en mouvement, Nr. 6 (18.12.2022): 7–10. http://dx.doi.org/10.26034/vd.epm.2021.3528.

Der volle Inhalt der Quelle
Annotation:
Si le développement des compétences psycho-sociales à l’école est important et si l’EPS peut jouer un rôle fondamental à ce niveau, il est parfois reproché à certains enseignants d’oublier ce qui fonde notre discipline d’enseignement : le développement de compétences motrices et la transmission d’une culture physique, sportive et artistique. L’enjeu de cet article est de montrer qu’il ne s’agit pas d’opposer ces deux visées puisqu’en apprenant à coopérer, les élèves optimisent grandement leurs apprentissages disciplinaires. Après une rapide exploration des sous-bassement théoriques expliquant ce renforcement des acquisitions, deux illustrations pédagogiques sont proposées : l’une au collège, basée sur du handball avec un travail de verbalisation et de co-validation de compétences entre joueurs et observateurs, l’autre en lycée présentant les résultats d’une expérimentation en badminton visant à mesurer l’impact du coaching sur le temps de pratique motrice ainsi que l’effet des fiches de coaching sur les apprentissages des élèves.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
3

Noulawe Tchamanbe, Landry Steve, und Paulin MELATAGIA YONTA. „Algorithms to get out of Boring Area Trap in Reinforcement Learning“. Revue Africaine de la Recherche en Informatique et Mathématiques Appliquées Volume 34 - 2020 - Special... (02.07.2021). http://dx.doi.org/10.46298/arima.6748.

Der volle Inhalt der Quelle
Annotation:
International audience Reinforcement learning algorithms have succeeded over the years in achieving impressive results in a variety of fields. However, these algorithms suffer from certain weaknesses highlighted by Refael Vivanti and al. that may explain the regression of even well-trained agents in certain environments : the difference in variance on rewards between areas of the environment. This difference in variance leads to two problems : Boring Area Trap and Manipulative consultant. We note that the Adaptive Symmetric Reward Noising (ASRN) algorithm proposed by Refael Vivanti and al. has limitations for environments with the following characteristics : long game times and multiple boring area environments. To overcome these problems, we propose three algorithms derived from the ASRN algorithm called Rebooted Adaptive Symmetric Reward Noising (RASRN) : Continuous ε decay RASRN, Full RASRN and Stepwise α decay RASRN. Thanks to two series of experiments carried out on the k-armed bandit problem, we show that our algorithms can better correct the Boring Area Trap problem. Les algorithmes d'apprentissage par renforcement ont réussi au fil des années à obtenir des résultats impressionnants dans divers domaines. Cependant, ces algorithmes souffrent de certaines faiblesses mises en évidence par Refael Vivanti et al. qui peuvent expliquer la régression des agents même bien entraînés dans certains environnements : la différence de variance sur les récompenses entre les zones de l'environnement. Cette différence de variance conduit à deux problèmes : le Piège de la Zone Ennuyeuse (Boring Area Trap) et le Consultant Manipulateur. Nous observons que l'algorithme Adaptive Symmetric Reward Noising (ASRN) proposé par Refael Vivanti et al. présente des limites pour des environnements ayant les caractéristiques suivantes : longues durées de jeu et environnement à zones ennuyeuses multiples. Pour pallier ces problèmes, nous proposons trois algorithmes dérivés de l'algorithme ASRN nommés Rebooted Adaptive Symmetric Reward Noi-sing (RASRN) : Continuous ε decay RASRN, Full RASRN et Stepwise α decay RASRN. Grâce à deux séries d'expérimentations menées sur le problème du bandit à k bras, nous montrons que ces algorithmes permettent de mieux corriger le problème du piège de la zone ennuyeuse.
APA, Harvard, Vancouver, ISO und andere Zitierweisen

Dissertationen zum Thema "Apprentissage pas Renforcement"

1

Hoffmann, Nicolas. „Data-driven modeling and control for the automation of industrial machinery with limited instrumentation“. Electronic Thesis or Diss., Institut polytechnique de Paris, 2024. http://www.theses.fr/2024IPPAS025.

Der volle Inhalt der Quelle
Annotation:
Cette thèse étudie l'automatisation de machines industrielles de 25 tonnes, en se concentrant sur la modélisation, le contrôle et la supervision d'une pelleteuse. Les engins de terrassement utilisés dans l'industrie sont souvent en mauvais état et manquent les capteurs nécessaires pour un contrôle précis, limitant le déploiement des systèmes autonomes fonctionnels en laboratoire. Nous proposons d'adapter les méthodologies aux conditions industrielles pour surmonter ces limitations. Nous commençons par identifier la dynamique du bras de la pelleteuse avec un réseau de neurones, déplaçant le défi de l'instrumentation vers celui de la modélisation. Notre approche combine les méthodes de l'état de l'art pour entraîner un modèle capable de prédire le mouvement réel du bras pendant plus d'une minute. Ensuite, nous étudions différents contrôleurs : des régulateurs PID classiques, des contrôleurs prédictifs (MPC) et des algorithmes d'apprentissage profond par renforcement (DRL). Nos résultats montrent le potentiel du DRL, en simulation, atteignant 25 cm d'erreur de suivi d'une trajectoire de remplissage du godet à 50 cm/s. Enfin, nous déployons un de nos contrôleurs sur une pelleteuse réelle et dotons les opérateurs de terrain d'outils de supervision, dont une interface de télé-opération en réalité virtuelle (VR). Ces outils permettent de gérer une flotte de machines autonomes et notre étude sur 12 participants démontre que tout opérateur, même novice, peut efficacement télé-opérer une pelleteuse sans endommager la machine. Ces travaux contribuent à l'automatisation croissante des machines dans le domaine de la construction, ouvrant la voie à des opérations plus efficaces et rentables
This thesis studies the automation of 25-ton industrial machinery, focusing on modeling, control, and supervising an excavator. The earthmoving machines used in the industry are often in poor condition and lack the necessary sensors for precise control, limiting the deployment of functional autonomous systems in the laboratory. We propose adapting methodologies to industrial conditions to overcome these limitations.We begin by identifying the dynamics of the excavator arm using a neural network, shifting the challenge from instrumentation to modeling. Our approach combines state-of-the-art methods to train a model capable of predicting the real movement of the arm for over a minute.Next, we study different controllers: classical PID regulators, predictive controllers (MPC), and deep reinforcement learning (DRL) algorithms. Our results demonstrate the potential of DRL in simulation, achieving 25 cm tracking error for a bucket-filling trajectory at 50 cm/s.Finally, we deploy one of our controllers on a real excavator and provide field operators with supervision tools, including a virtual reality (VR) teleoperation interface. These tools allow managing a fleet of autonomous machines, and our study involving 12 participants shows that any operator, even a novice, can effectively teleoperate an excavator without damaging the machine.This work contributes to the increasing automation of construction machinery, paving the way for more efficient and cost-effective operations
APA, Harvard, Vancouver, ISO und andere Zitierweisen
2

Zimmer, Matthieu. „Apprentissage par renforcement développemental“. Thesis, Université de Lorraine, 2018. http://www.theses.fr/2018LORR0008/document.

Der volle Inhalt der Quelle
Annotation:
L'apprentissage par renforcement permet à un agent d'apprendre un comportement qui n'a jamais été préalablement défini par l'homme. L'agent découvre l'environnement et les différentes conséquences de ses actions à travers des interactions avec celui-ci : il apprend de sa propre expérience, sans avoir de connaissances préétablies des buts ni des effets de ses actions. Cette thèse s'intéresse à la façon dont l'apprentissage profond peut aider l'apprentissage par renforcement à gérer des espaces continus et des environnements ayant de nombreux degrés de liberté dans l'optique de résoudre des problèmes plus proches de la réalité. En effet, les réseaux de neurones ont une bonne capacité de mise à l'échelle et un large pouvoir de représentation. Ils rendent possible l'approximation de fonctions sur un espace continu et permettent de s'inscrire dans une approche développementale nécessitant peu de connaissances a priori sur le domaine. Nous cherchons comment réduire l'expérience nécessaire à l'agent pour atteindre un comportement acceptable. Pour ce faire, nous avons proposé le cadre Neural Fitted Actor-Critic qui définit plusieurs algorithmes acteur-critique efficaces en données. Nous examinons par quels moyens l'agent peut exploiter pleinement les transitions générées par des comportements précédents en intégrant des données off-policy dans le cadre proposé. Finalement, nous étudions de quelle manière l'agent peut apprendre plus rapidement en tirant parti du développement de son corps, en particulier, en procédant par une augmentation progressive de la dimensionnalité de son espace sensorimoteur
Reinforcement learning allows an agent to learn a behavior that has never been previously defined by humans. The agent discovers the environment and the different consequences of its actions through its interaction: it learns from its own experience, without having pre-established knowledge of the goals or effects of its actions. This thesis tackles how deep learning can help reinforcement learning to handle continuous spaces and environments with many degrees of freedom in order to solve problems closer to reality. Indeed, neural networks have a good scalability and representativeness. They make possible to approximate functions on continuous spaces and allow a developmental approach, because they require little a priori knowledge on the domain. We seek to reduce the amount of necessary interaction of the agent to achieve acceptable behavior. To do so, we proposed the Neural Fitted Actor-Critic framework that defines several data efficient actor-critic algorithms. We examine how the agent can fully exploit the transitions generated by previous behaviors by integrating off-policy data into the proposed framework. Finally, we study how the agent can learn faster by taking advantage of the development of his body, in particular, by proceeding with a gradual increase in the dimensionality of its sensorimotor space
APA, Harvard, Vancouver, ISO und andere Zitierweisen
3

Zimmer, Matthieu. „Apprentissage par renforcement développemental“. Electronic Thesis or Diss., Université de Lorraine, 2018. http://www.theses.fr/2018LORR0008.

Der volle Inhalt der Quelle
Annotation:
L'apprentissage par renforcement permet à un agent d'apprendre un comportement qui n'a jamais été préalablement défini par l'homme. L'agent découvre l'environnement et les différentes conséquences de ses actions à travers des interactions avec celui-ci : il apprend de sa propre expérience, sans avoir de connaissances préétablies des buts ni des effets de ses actions. Cette thèse s'intéresse à la façon dont l'apprentissage profond peut aider l'apprentissage par renforcement à gérer des espaces continus et des environnements ayant de nombreux degrés de liberté dans l'optique de résoudre des problèmes plus proches de la réalité. En effet, les réseaux de neurones ont une bonne capacité de mise à l'échelle et un large pouvoir de représentation. Ils rendent possible l'approximation de fonctions sur un espace continu et permettent de s'inscrire dans une approche développementale nécessitant peu de connaissances a priori sur le domaine. Nous cherchons comment réduire l'expérience nécessaire à l'agent pour atteindre un comportement acceptable. Pour ce faire, nous avons proposé le cadre Neural Fitted Actor-Critic qui définit plusieurs algorithmes acteur-critique efficaces en données. Nous examinons par quels moyens l'agent peut exploiter pleinement les transitions générées par des comportements précédents en intégrant des données off-policy dans le cadre proposé. Finalement, nous étudions de quelle manière l'agent peut apprendre plus rapidement en tirant parti du développement de son corps, en particulier, en procédant par une augmentation progressive de la dimensionnalité de son espace sensorimoteur
Reinforcement learning allows an agent to learn a behavior that has never been previously defined by humans. The agent discovers the environment and the different consequences of its actions through its interaction: it learns from its own experience, without having pre-established knowledge of the goals or effects of its actions. This thesis tackles how deep learning can help reinforcement learning to handle continuous spaces and environments with many degrees of freedom in order to solve problems closer to reality. Indeed, neural networks have a good scalability and representativeness. They make possible to approximate functions on continuous spaces and allow a developmental approach, because they require little a priori knowledge on the domain. We seek to reduce the amount of necessary interaction of the agent to achieve acceptable behavior. To do so, we proposed the Neural Fitted Actor-Critic framework that defines several data efficient actor-critic algorithms. We examine how the agent can fully exploit the transitions generated by previous behaviors by integrating off-policy data into the proposed framework. Finally, we study how the agent can learn faster by taking advantage of the development of his body, in particular, by proceeding with a gradual increase in the dimensionality of its sensorimotor space
APA, Harvard, Vancouver, ISO und andere Zitierweisen
4

Kozlova, Olga. „Apprentissage par renforcement hiérarchique et factorisé“. Phd thesis, Université Pierre et Marie Curie - Paris VI, 2010. http://tel.archives-ouvertes.fr/tel-00632968.

Der volle Inhalt der Quelle
Annotation:
Cette thèse a été réalisée dans un contexte de simulation industrielle qui s'intéresse aux problèmes de la modélisation du comportement humain dans les simulateurs d'entraînement militaire ou de sécurité civile. Nous avons abordé cette problématique sous l'angle de l'apprentissage et de la planification dans l'incertain, en modélisant les problèmes que nous traitons comme des problèmes stochastiques de grande taille dans le cadre des Processus de Décision Markoviens (MDP). Les MDP factorisés (FMDP) sont un cadre standard de représentation des problèmes séquentiels dans l'incertain, où l'état du système est décomposé en un ensemble de variables aléatoires. L'apprentissage par renforcement factorisé (FRL) est une approche d'apprentissage indirecte dans les FMDP où les fonctions de transition et de récompense sont inconnues a priori et doivent être apprises sous une forme factorisée. Par ailleurs, dans les problèmes où certaines combinaisons de variables n'existent pas, la représentation factorisée n'empêche pas la représentation de ces états que nous appelons impossibles. Dans la première contribution de cette thèse, nous montrons comment modéliser ce type de problèmes de manière théoriquement bien fondée. De plus, nous proposons une heuristique qui considère chaque état comme impossible tant qu'il n'a pas été visité. Nous en dérivons un algorithme dont les performances sont démontrées sur des problèmes jouet classiques dans la littérature, MAZE6 et BLOCKS WORLD, en comparaison avec l'approche standard. Pour traiter les MDP de grande taille, les MDP hiérarchiques (HMDP) sont aussi basés sur l'idée de la factorisation mais portent cette idée à un niveau supérieur. D'une factorisation d'état des FMDP, les HMDP passent à une factorisation de tâche, où un ensemble de situations similaires (définies par leurs buts) est représenté par un ensemble de sous-tâches partiellement définies. Autrement dit, il est possible de simplifier le problème en le décomposant en sous-problèmes plus petits et donc plus faciles à résoudre individuellement, mais aussi de réutiliser les sous-tâches afin d'accélérer la recherche de la solution globale. Le formalisme des options qui inclut des actions abstraites à durée étendue, permet de modéliser efficacement ce type d'architecture. La deuxième contribution de cette thèse est la proposition de TeXDYNA, un algorithme pour la résolution de MDP de grande taille dont la structure est inconnue. TeXDYNA combine les techniques d'abstraction hiérarchique de l'apprentissage par renforcement hiérarchique (HRL) et les techniques de factorisation de FRL pour décomposer hiérarchiquement le FMDP sur la base de la découverte automatique des sous-tâches directement à partir de la structure du problème qui est elle même apprise en interaction avec l'environnement. Nous évaluons TeXDYNA sur deux benchmarks, à savoir les problèmes TAXI et LIGHT BOX, et nous montrons que combiner l'abstraction d'information contextuelle dans le cadre des FMDP et la construction d'une hiérarchie dans le cadre des HMDP permet une compression très efficace des structures à apprendre, des calculs plus rapides et une meilleure vitesse de convergence. Finalement, nous estimons le potentiel et les limitations de TeXDYNA sur un problème jouet plus représentatif du domaine de la simulation industrielle.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
5

Filippi, Sarah. „Stratégies optimistes en apprentissage par renforcement“. Phd thesis, Ecole nationale supérieure des telecommunications - ENST, 2010. http://tel.archives-ouvertes.fr/tel-00551401.

Der volle Inhalt der Quelle
Annotation:
Cette thèse traite de méthodes « model-based » pour résoudre des problèmes d'apprentissage par renforcement. On considère un agent confronté à une suite de décisions et un environnement dont l'état varie selon les décisions prises par l'agent. Ce dernier reçoit tout au long de l'interaction des récompenses qui dépendent à la fois de l'action prise et de l'état de l'environnement. L'agent ne connaît pas le modèle d'interaction et a pour but de maximiser la somme des récompenses reçues à long terme. Nous considérons différents modèles d'interactions : les processus de décisions markoviens, les processus de décisions markoviens partiellement observés et les modèles de bandits. Pour ces différents modèles, nous proposons des algorithmes qui consistent à construire à chaque instant un ensemble de modèles permettant d'expliquer au mieux l'interaction entre l'agent et l'environnement. Les méthodes dites « model-based » que nous élaborons se veulent performantes tant en pratique que d'un point de vue théorique. La performance théorique des algorithmes est calculée en terme de regret qui mesure la différence entre la somme des récompenses reçues par un agent qui connaîtrait à l'avance le modèle d'interaction et celle des récompenses cumulées par l'algorithme. En particulier, ces algorithmes garantissent un bon équilibre entre l'acquisition de nouvelles connaissances sur la réaction de l'environnement (exploration) et le choix d'actions qui semblent mener à de fortes récompenses (exploitation). Nous proposons deux types de méthodes différentes pour contrôler ce compromis entre exploration et exploitation. Le premier algorithme proposé dans cette thèse consiste à suivre successivement une stratégie d'exploration, durant laquelle le modèle d'interaction est estimé, puis une stratégie d'exploitation. La durée de la phase d'exploration est contrôlée de manière adaptative ce qui permet d'obtenir un regret logarithmique dans un processus de décision markovien paramétrique même si l'état de l'environnement n'est que partiellement observé. Ce type de modèle est motivé par une application d'intérêt en radio cognitive qu'est l'accès opportuniste à un réseau de communication par un utilisateur secondaire. Les deux autres algorithmes proposés suivent des stratégies optimistes : l'agent choisit les actions optimales pour le meilleur des modèles possibles parmi l'ensemble des modèles vraisemblables. Nous construisons et analysons un tel algorithme pour un modèle de bandit paramétrique dans un cas de modèles linéaires généralisés permettant ainsi de considérer des applications telles que la gestion de publicité sur internet. Nous proposons également d'utiliser la divergence de Kullback-Leibler pour la construction de l'ensemble des modèles vraisemblables dans des algorithmes optimistes pour des processus de décision markoviens à espaces d'états et d'actions finis. L'utilisation de cette métrique améliore significativement le comportement de des algorithmes optimistes en pratique. De plus, une analyse du regret de chacun des algorithmes permet de garantir des performances théoriques similaires aux meilleurs algorithmes de l'état de l'art.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
6

Théro, Héloïse. „Contrôle, agentivité et apprentissage par renforcement“. Thesis, Paris Sciences et Lettres (ComUE), 2018. http://www.theses.fr/2018PSLEE028/document.

Der volle Inhalt der Quelle
Annotation:
Le sentiment d’agentivité est défini comme le sentiment de contrôler nos actions, et à travers elles, les évènements du monde extérieur. Cet ensemble phénoménologique dépend de notre capacité d’apprendre les contingences entre nos actions et leurs résultats, et un algorithme classique pour modéliser cela vient du domaine de l’apprentissage par renforcement. Dans cette thèse, nous avons utilisé l’approche de modélisation cognitive pour étudier l’interaction entre agentivité et apprentissage par renforcement. Tout d’abord, les participants réalisant une tâche d’apprentissage par renforcement tendent à avoir plus d’agentivité. Cet effet est logique, étant donné que l’apprentissage par renforcement consiste à associer une action volontaire et sa conséquence. Mais nous avons aussi découvert que l’agentivité influence l’apprentissage de deux manières. Le mode par défaut pour apprendre des contingences action-conséquence est que nos actions ont toujours un pouvoir causal. De plus, simplement choisir une action change l’apprentissage de sa conséquence. En conclusion, l’agentivité et l’apprentissage par renforcement, deux piliers de la psychologie humaine, sont fortement liés. Contrairement à des ordinateurs, les humains veulent être en contrôle, et faire les bons choix, ce qui biaise notre aquisition d’information
Sense of agency or subjective control can be defined by the feeling that we control our actions, and through them effects in the outside world. This cluster of experiences depend on the ability to learn action-outcome contingencies and a more classical algorithm to model this originates in the field of human reinforcementlearning. In this PhD thesis, we used the cognitive modeling approach to investigate further the interaction between perceived control and reinforcement learning. First, we saw that participants undergoing a reinforcement-learning task experienced higher agency; this influence of reinforcement learning on agency comes as no surprise, because reinforcement learning relies on linking a voluntary action and its outcome. But our results also suggest that agency influences reinforcement learning in two ways. We found that people learn actionoutcome contingencies based on a default assumption: their actions make a difference to the world. Finally, we also found that the mere fact of choosing freely shapes the learning processes following that decision. Our general conclusion is that agency and reinforcement learning, two fundamental fields of human psychology, are deeply intertwined. Contrary to machines, humans do care about being in control, or about making the right choice, and this results in integrating information in a one-sided way
APA, Harvard, Vancouver, ISO und andere Zitierweisen
7

Munos, Rémi. „Apprentissage par renforcement, étude du cas continu“. Paris, EHESS, 1997. http://www.theses.fr/1997EHESA021.

Der volle Inhalt der Quelle
Annotation:
Le probleme aborde est comment concevoir des methodes permettant a des systemes artificiels d' << apprendre par l'experience >>, c'est a dire de resoudre une tache sans etre explicitement programme pour cela, mais seulement a partir du schema d'apprentissage : essais -> erreur ou succes ii s'agit de definir des methodes, sous forme d'algorithmes, permettant la modification des parametres internes du systeme afin de definir des prises de decisions pertinentes. L'approche developpee est celle de << l'apprentissage par renforcement >> qui se definit naturellement sous la forme d'un probleme de controle optimal pour lequel les donnees de la dynamique d'etat sont a priori (au moins partiellement) inconnues du systeme. Cette these est une etude formelle du cas ou l'espace des etats possibles ainsi que le temps auquel les decisions sont prises sont des variable continues ; la preoccupation majeure de ce travail etant l'etude de la convergences des methodes employees. Nous decrivons le formalisme du controle optimal et presentons la methode de la programmation dynamique : definition de la fonction valeur et enonce l'equation de hamiltonjacobi-bellman associee. Nous introduisons les notions desolutions de viscosite et decrivons des methodes d'approximation numeriques a partir de schemas convergents. Puis nous donnons un theoreme de convergence d'algorithmes bases sur les schemas precedents -ce qui represente la contribution majeure de ce travail. Ce theoreme fournit une methode tres generale pour concevoir des algorithmes d'apprentissage par renforcement convergents. Enfin nous illustrons la methode avec divers exemples d'algorithmes varies portant sur des dynamiques d'etat deterministes ou stochastiques, selon des methodes dites directes ou indirectes et a partir de schemas bases sur des methodes aux differences finies ou aux elements finis.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
8

Maillard, Odalric-Ambrym. „APPRENTISSAGE SÉQUENTIEL : Bandits, Statistique et Renforcement“. Phd thesis, Université des Sciences et Technologie de Lille - Lille I, 2011. http://tel.archives-ouvertes.fr/tel-00845410.

Der volle Inhalt der Quelle
Annotation:
Cette thèse traite des domaines suivant en Apprentissage Automatique: la théorie des Bandits, l'Apprentissage statistique et l'Apprentissage par renforcement. Son fil rouge est l'étude de plusieurs notions d'adaptation, d'un point de vue non asymptotique : à un environnement ou à un adversaire dans la partie I, à la structure d'un signal dans la partie II, à la structure de récompenses ou à un modèle des états du monde dans la partie III. Tout d'abord nous dérivons une analyse non asymptotique d'un algorithme de bandit à plusieurs bras utilisant la divergence de Kullback-Leibler. Celle-ci permet d'atteindre, dans le cas de distributions à support fini, la borne inférieure de performance asymptotique dépendante des distributions de probabilité connue pour ce problème. Puis, pour un bandit avec un adversaire possiblement adaptatif, nous introduisons des modèles dépendants de l'histoire et traduisant une possible faiblesse de l'adversaire et montrons comment en tirer parti pour concevoir des algorithmes adaptatifs à cette faiblesse. Nous contribuons au problème de la régression en montrant l'utilité des projections aléatoires, à la fois sur le plan théorique et pratique, lorsque l'espace d'hypothèses considéré est de dimension grande, voire infinie. Nous utilisons également des opérateurs d'échantillonnage aléatoires dans le cadre de la reconstruction parcimonieuse lorsque la base est loin d'être orthogonale. Enfin, nous combinons la partie I et II : pour fournir une analyse non-asymptotique d'algorithmes d'apprentissage par renforcement; puis, en amont du cadre des Processus Décisionnel de Markov, pour discuter du problème pratique du choix d'un bon modèle d'états.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
9

Lesner, Boris. „Planification et apprentissage par renforcement avec modèles d'actions compacts“. Caen, 2011. http://www.theses.fr/2011CAEN2074.

Der volle Inhalt der Quelle
Annotation:
Nous étudions les Processus de Décision Markoviens représentés de manière compacte via des langages de définition d'actions basés sur le langage STRIPS Probabiliste. Une première partie de ce travail traite de la résolution de ces processus de manière compacte. Pour cela nous proposons deux algorithmes. Un premier, basé sur la manipulation de formules propositionnelles, permet de résoudre de manière approchée les problèmes dans des fragments propositionnels traitables du type Horn ou 2-CNF. Le second algorithme quant à lui résout efficacement et de manière exacte les problèmes représentés en PDDL probabiliste via l'introduction d'une notion de fonction de valeur d'action étendue. La seconde partie concerne l'apprentissage de ces modèles d'actions. Nous proposons différentes méthodes pour résoudre le problème de l'ambiguïté des observations qui à lieu de lors de l'apprentissage. Une première méthode heuristique basée sur la programmation linéaire donne de bons résultats en pratique, mais sans garanties théoriques. Par la suite nous décrivons une méthode d'apprentissage dans le cadre « Know What It Knows ». Cette approche donne quant à elle des garanties théoriques sur la qualité des modèles d'actions appris ainsi que sur le nombre d'exemples requis pour obtenir un modèle d'actions correct. Ces deux approches sont ensuite incorporées dans un cadre d'apprentissage par renforcement pour une évaluation en pratique de leurs performances
We study Markovian Decision Processes represented with Probabilistic STRIPS action models. A first part of our work is about solving those processes in a compact way. To that end we propose two algorithms. A first one based on propositional formula manipulation allows to obtain approximate solutions in tractable propositional fragments such as Horn and 2-CNF. The second algorithm solves exactly and efficiently problems represented in PPDDL using a new notion of extended value functions. The second part is about learning such action models. We propose different approaches to solve the problem of ambiguous observations occurring while learning. Firstly, a heuristic method based on Linear Programming gives good results in practice yet without theoretical guarantees. We next describe a learning algorithm in the ``Know What It Knows'' framework. This approach gives strong theoretical guarantees on the quality of the learned models as well on the sample complexity. These two approaches are then put into a Reinforcement Learning setting to allow an empirical evaluation of their respective performances
APA, Harvard, Vancouver, ISO und andere Zitierweisen
10

Degris, Thomas. „Apprentissage par renforcement dans les processus de décision Markoviens factorisés“. Paris 6, 2007. http://www.theses.fr/2007PA066594.

Der volle Inhalt der Quelle
Annotation:
Les méthodes classiques d'apprentissage par renforcement ne sont pas applicables aux problèmes de grande taille. Les Processus de Décision Markovien Factorisés (FMDPs) permettent de représenter de tels problèmes de façon compacte en spécifiant leur structure. Des méthodes de planification adaptées aux FMDPs obtiennent de bons résultats mais nécessitent que cette structure soit spécifiée manuellement. Cette thèse étudie l'apprentissage de la structure d'un problème représenté par un FMDP en utilisant l'induction d'arbres de décision et propose une adaptation des méthodes de planification dans les FMDPs pour obtenir une solution efficace au problème. Nous étudions cette approche sur plusieurs problèmes de grande taille et montrons qu'elle possède des capacités de généralisation et d'agrégation nécessaires pour la résolution de tels problèmes. En l'appliquant à un problème de jeu vidéo, nous montrons également que les représentations construites sont lisibles par un opérateur humain.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
Mehr Quellen

Bücher zum Thema "Apprentissage pas Renforcement"

1

Sutton, Richard S. Reinforcement learning: An introduction. Cambridge, Mass: MIT Press, 1998.

Den vollen Inhalt der Quelle finden
APA, Harvard, Vancouver, ISO und andere Zitierweisen
2

Ontario. Esquisse de cours 12e année: Sciences de l'activité physique pse4u cours préuniversitaire. Vanier, Ont: CFORP, 2002.

Den vollen Inhalt der Quelle finden
APA, Harvard, Vancouver, ISO und andere Zitierweisen
3

Ontario. Esquisse de cours 12e année: Technologie de l'information en affaires btx4e cours préemploi. Vanier, Ont: CFORP, 2002.

Den vollen Inhalt der Quelle finden
APA, Harvard, Vancouver, ISO und andere Zitierweisen
4

Ontario. Esquisse de cours 12e année: Études informatiques ics4m cours préuniversitaire. Vanier, Ont: CFORP, 2002.

Den vollen Inhalt der Quelle finden
APA, Harvard, Vancouver, ISO und andere Zitierweisen
5

Ontario. Esquisse de cours 12e année: Mathématiques de la technologie au collège mct4c cours précollégial. Vanier, Ont: CFORP, 2002.

Den vollen Inhalt der Quelle finden
APA, Harvard, Vancouver, ISO und andere Zitierweisen
6

Ontario. Esquisse de cours 12e année: Sciences snc4m cours préuniversitaire. Vanier, Ont: CFORP, 2002.

Den vollen Inhalt der Quelle finden
APA, Harvard, Vancouver, ISO und andere Zitierweisen
7

Ontario. Esquisse de cours 12e année: English eae4e cours préemploi. Vanier, Ont: CFORP, 2002.

Den vollen Inhalt der Quelle finden
APA, Harvard, Vancouver, ISO und andere Zitierweisen
8

Ontario. Esquisse de cours 12e année: Le Canada et le monde: une analyse géographique cgw4u cours préuniversitaire. Vanier, Ont: CFORP, 2002.

Den vollen Inhalt der Quelle finden
APA, Harvard, Vancouver, ISO und andere Zitierweisen
9

Ontario. Esquisse de cours 12e année: Environnement et gestion des ressources cgr4e cours préemploi. Vanier, Ont: CFORP, 2002.

Den vollen Inhalt der Quelle finden
APA, Harvard, Vancouver, ISO und andere Zitierweisen
10

Ontario. Esquisse de cours 12e année: Histoire de l'Occident et du monde chy4c cours précollégial. Vanier, Ont: CFORP, 2002.

Den vollen Inhalt der Quelle finden
APA, Harvard, Vancouver, ISO und andere Zitierweisen
Mehr Quellen

Buchteile zum Thema "Apprentissage pas Renforcement"

1

Tazdaït, Tarik, und Rabia Nessah. „5. Vote et apprentissage par renforcement“. In Le paradoxe du vote, 157–77. Éditions de l’École des hautes études en sciences sociales, 2013. http://dx.doi.org/10.4000/books.editionsehess.1931.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen
2

BENDELLA, Mohammed Salih, und Badr BENMAMMAR. „Impact de la radio cognitive sur le green networking : approche par apprentissage par renforcement“. In Gestion du niveau de service dans les environnements émergents. ISTE Group, 2020. http://dx.doi.org/10.51926/iste.9002.ch8.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen

Berichte der Organisationen zum Thema "Apprentissage pas Renforcement"

1

Melloni, Gian. Le leadership des autorités locales en matière d'assainissement et d'hygiène : expériences et apprentissage de l'Afrique de l'Ouest. Institute of Development Studies (IDS), Januar 2022. http://dx.doi.org/10.19088/slh.2022.002.

Der volle Inhalt der Quelle
Annotation:
Entre juillet et octobre 2021, la Sanitation Learning Hub a travaillé avec des représentants des pouvoirs publics et des partenaires de développement pour mettre au point, diffuser et analyser des études de cas qui se penchaient sur le renforcement des autorités et des systèmes locaux dans quatre zones locales à travers l’Afrique de l’Ouest : au Bénin (commune de N’Dali), au Ghana (district municipal de Yendi), en Guinée (commune de Molota) et au Nigéria (circonscription de Logo). Cette note d’apprentissage partage les leçons apprises et les recommandations dégagés des études de cas et des trois ateliers participatifs qui ont suivi. Une version initiale de cette note a été révisée par les participants à l’initiative. Les premières sections décrivent les principales parties prenantes et les actions des autorités locales en matière d’HA ; ensuite l’étude se concentre sur les leviers et les obstacles au changement, avant de formuler des recommandations.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
Wir bieten Rabatte auf alle Premium-Pläne für Autoren, deren Werke in thematische Literatursammlungen aufgenommen wurden. Kontaktieren Sie uns, um einen einzigartigen Promo-Code zu erhalten!

Zur Bibliographie