Gotowe bibliografie tematyczne / Apprentissage par renforcement factorisé

Gotowa bibliografia na temat „Apprentissage par renforcement factorisé”

Autor: Grafiati

Data publikacji: 1 czerwca 2024

Utwórz poprawne odniesienie w stylach APA, MLA, Chicago, Harvard i wielu innych

Wybierz rodzaj źródła:

Spis treści

Artykuły w czasopismach
Rozprawy doktorskie
Książki
Części książek
Raporty organizacyjne

Zobacz listy aktualnych artykułów, książek, rozpraw, streszczeń i innych źródeł naukowych na temat „Apprentissage par renforcement factorisé”.

Przycisk „Dodaj do bibliografii” jest dostępny obok każdej pracy w bibliografii. Użyj go – a my automatycznie utworzymy odniesienie bibliograficzne do wybranej pracy w stylu cytowania, którego potrzebujesz: APA, MLA, Harvard, Chicago, Vancouver itp.

Możesz również pobrać pełny tekst publikacji naukowej w formacie „.pdf” i przeczytać adnotację do pracy online, jeśli odpowiednie parametry są dostępne w metadanych.

Artykuły w czasopismach na temat "Apprentissage par renforcement factorisé"

Degris, Thomas, Olivier Sigaud i Pierre-Henri Wuillemin. "Apprentissage par renforcement factorisé pour le comportement de personnages non joueurs". Revue d'intelligence artificielle 23, nr 2-3 (13.05.2009): 221–51. http://dx.doi.org/10.3166/ria.23.221-251.

Pełny tekst źródła

Style APA, Harvard, Vancouver, ISO itp.

Laurent, Guillaume J., i Emmanuel Piat. "Apprentissage par renforcement dans le cadre des processus décisionnels de Markov factorisés observables dans le désordre. Etude expérimentale du Q-Learning parallèle appliqué aux problèmes du labyrinthe et du New York Driving". Revue d'intelligence artificielle 20, nr 2-3 (1.06.2006): 275–310. http://dx.doi.org/10.3166/ria.20.275-310.

Pełny tekst źródła

Style APA, Harvard, Vancouver, ISO itp.

Griffon, L., M. Chennaoui, D. Leger i M. Strauss. "Apprentissage par renforcement dans la narcolepsie de type 1". Médecine du Sommeil 15, nr 1 (marzec 2018): 60. http://dx.doi.org/10.1016/j.msom.2018.01.164.

Pełny tekst źródła

Style APA, Harvard, Vancouver, ISO itp.

Garcia, Pascal. "Exploration guidée en apprentissage par renforcement. Connaissancesa prioriet relaxation de contraintes". Revue d'intelligence artificielle 20, nr 2-3 (1.06.2006): 235–75. http://dx.doi.org/10.3166/ria.20.235-275.

Pełny tekst źródła

Style APA, Harvard, Vancouver, ISO itp.

Host, Shirley, i Nicolas Sabouret. "Apprentissage par renforcement d'actes de communication dans un système multi-agent". Revue d'intelligence artificielle 24, nr 2 (17.04.2010): 159–88. http://dx.doi.org/10.3166/ria.24.159-188.

Pełny tekst źródła

Style APA, Harvard, Vancouver, ISO itp.

CHIALI, Ramzi. "Le texte littéraire comme référentiel préférentiel dans le renforcement de la compétence interculturelle en contexte institutionnel. Réflexion et dynamique didactique." Revue plurilingue : Études des Langues, Littératures et Cultures 7, nr 1 (14.07.2023): 70–78. http://dx.doi.org/10.46325/ellic.v7i1.99.

Pełny tekst źródła

Streszczenie:

Cet article se positionne comme une réflexion quant aux différents aspects de la littérature proposés en classe de FLE. Dans ce sens, notre intérêt n’est point celui de considérer la littérature comme outil d’acquisition linguistique et de performance pédagogique, mais comme objet dans le traitement didactique en situation de renforcement des compétences à mobiliser par ces mêmes apprenants. Considérer la composante culturelle du texte dépend, ainsi, du besoin des apprenants en matière de compétence interculturelle, au-delà des compétences langagières. Force est de constater que l’enseignement des langues, en général, et des langues étrangères, en particulier, nécessiterait inconditionnellement, à des degrés divergents, une connaissance de la culture souche. Le processus d’enseignement/apprentissage, ainsi, focalisera sur un ensemble marqué par les différents aspects de la langue enseignée, ce qui mènerait nécessairement vers une acquisition optimale et efficace de la langue et de son utilisation dans des contextes de globalisation et de mondialisation.

Style APA, Harvard, Vancouver, ISO itp.

Altintas, Gulsun, i Isabelle Royer. "Renforcement de la résilience par un apprentissage post-crise : une étude longitudinale sur deux périodes de turbulence". M@n@gement 12, nr 4 (2009): 266. http://dx.doi.org/10.3917/mana.124.0266.

Pełny tekst źródła

Style APA, Harvard, Vancouver, ISO itp.

Dutech, Alain, i Manuel Samuelides. "Apprentissage par renforcement pour les processus décisionnels de Markov partiellement observés Apprendre une extension sélective du passé". Revue d'intelligence artificielle 17, nr 4 (1.08.2003): 559–89. http://dx.doi.org/10.3166/ria.17.559-589.

Pełny tekst źródła

Style APA, Harvard, Vancouver, ISO itp.

BOUCHET, N., L. FRENILLOT, M. DELAHAYE, M. GAILLARD, P. MESTHE, E. ESCOURROU i L. GIMENEZ. "GESTION DES EMOTIONS VECUES PAR LES ETUDIANTS EN 3E CYCLE DE MEDECINE GENERALE DE TOULOUSE AU COURS DE LA PRISE EN CHARGE DES PATIENTS : ETUDE QUALITATIVE". EXERCER 34, nr 192 (1.04.2023): 184–90. http://dx.doi.org/10.56746/exercer.2023.192.184.

Pełny tekst źródła

Streszczenie:

Contexte. La profession de médecin confronte à des émotions intenses. Leur place dans la prise en soin est peu enseignée, relevant davantage d’un « curriculum caché ». L’objectif principal de ce travail était d’explorer les différents moyens utilisés par les étudiants en 3e cycle de médecine générale de Toulouse pour gérer, par eux-mêmes ou accompagnés, le vécu de leurs émotions lors de la prise en soin des patients au cours de leurs stages. Méthode. Étude qualitative par entretiens individuels semi-dirigés réalisés par deux chercheuses auprès d’étudiants en 3e cycle de médecine générale de la subdivision de Toulouse. Analyse intégrale selon une méthode inspirée de la théorisation ancrée et modélisation par un schéma intégratif. Résultats. Treize entretiens ont été réalisés entre octobre 2020 et juillet 2021. Le statut d’étudiant en 3e cycle générait de l’anxiété et de la frustration liées aux conditions d’exercice, à l’incertitude et à la confrontation aux limites des compétences. Pour gérer leurs émotions, les participants recouraient essentiellement à la verbalisation et à la posture réflexive. Ils identifiaient des personnes-ressources dans leur entourage personnel pour trouver soutien et réconfort et dans leur entourage professionnel pour trouver réassurance et légitimité. Ils avaient aussi recours à des stratégies personnelles : activités sportives, sociales, culturelles et de loisir. Ils formulaient des attentes : un enrichissement de la formation initiale par une valorisation des compétences humaines ; des mises en situation par l’intermédiaire de jeux de rôle et d’ateliers de simulation ; un apprentissage aux méthodes de relaxation ; un renforcement de l’accompagnement en stage ; une amélioration du dépistage en santé mentale des étudiants et un développement des mesures préventives proposées. Conclusion. La gestion des émotions faisait appel à des stratégies multiples, personnelles et professionnelles. Des études plus approfondies sur les mécanismes psychologiques et sociologiques de gestion des émotions pourraient être menées auprès des étudiants en 3e cycle ainsi que des études auprès des MSU et tuteurs permettant de préciser leurs attentes en matière de formation à l’accompagnement.

Style APA, Harvard, Vancouver, ISO itp.

Zossou, Espérance, Seth Graham-Acquaah, John Manful, Simplice D. Vodouhe i Rigobert C. Tossou. "Les petits exploitants agricoles à l’école inclusive : cas de l’apprentissage collectif par la vidéo et la radio sur la post-récolte du riz local au Bénin". International Journal of Biological and Chemical Sciences 15, nr 4 (19.11.2021): 1678–97. http://dx.doi.org/10.4314/ijbcs.v15i4.29.

Pełny tekst źródła

Streszczenie:

En Afrique subsaharienne, les petits exploitants agricoles ruraux ont difficilement accès aux connaissances et informations actualisées afin d’améliorer leur revenu. Pour renforcer l’apprentissage collectif au sein des acteurs des chaînes de valeur du riz local blanc et étuvé, la vidéo et la radio ont été utilisées de façon participative. La présente étude visait à comprendre l’influence de cet apprentissage collectif sur (i) le changement des pratiques des transformations et (ii) la qualité du riz local. Des interviews et suivis hebdomadaires ont été réalisés entre 2009 et 2018 au sud et nord du Bénin auprès de 240 transformateurs choisis aléatoirement. Des échantillons de riz ont été également collectés pour des analyses de qualité au laboratoire. L’analyse des données a été faite avec les tests t de Student, Wilcoxon, ANOVA, et le modèle de régression de Poisson. Les résultats ont montré une amélioration des pratiques de 14% ; 23% et 58% respectivement dans les villages contrôles, radio et vidéo. Dans le processus d’amélioration des pratiques, les transformateurs ont renforcé leur créativité en développant des technologies appropriées à leur environnement ; ce qui a eu un impact positif sur les qualités physiques et de cuisson du riz. Dans un contexte de pauvreté, d’insécurité alimentaire, de ruralité et d’analphabétisme, l’apprentissage collectif par la vidéo et la radio locale se révèle être une opportunité pour le renforcement du système d’innovation agricole. English title: Smallholder farmers at inclusive school: Lessons learnt from collective learning through video and radio on local rice processing in Benin In sub-Saharan Africa, rural smallholder farmers have limited access to timely and up-to-date knowledge and information to improve their incomes. To strengthen collective learning among rice sector’ stakeholders, videos and radio were participatory used. This study aims to assess the impact of this collective learning on (i) changing rice processors practices and (ii) the quality of local rice. Interviews and weekly follow-ups were conducted between 2009 and 2018 in southern and northern Benin with 240 randomly selected rice processors. Rice samples were also collected for quality analysis in the laboratory. Data analysis was done with Student's t-tests, Wilcoxon, one-way ANOVA, and the Poisson regression model. The results showed an improvement in rice processors practices of 14%; 23% and 58% respectively in control, video and radio villages. During the improvement of their practices, rice processors have increased their creativity by developing appropriate technologies to their environment; and this has positively impact on the physical and cooking qualities of the rice. In a context of poverty, food insecurity, rurality and illiteracy, collective learning through video and radio seems to be an opportunity to strengthen the agricultural innovation system, and a booster for change through adoption and adaptation of innovation.

Style APA, Harvard, Vancouver, ISO itp.

Więcej źródeł

Rozprawy doktorskie na temat "Apprentissage par renforcement factorisé"

Kozlova, Olga. "Apprentissage par renforcement hiérarchique et factorisé". Phd thesis, Université Pierre et Marie Curie - Paris VI, 2010. http://tel.archives-ouvertes.fr/tel-00632968.

Pełny tekst źródła

Streszczenie:

Cette thèse a été réalisée dans un contexte de simulation industrielle qui s'intéresse aux problèmes de la modélisation du comportement humain dans les simulateurs d'entraînement militaire ou de sécurité civile. Nous avons abordé cette problématique sous l'angle de l'apprentissage et de la planification dans l'incertain, en modélisant les problèmes que nous traitons comme des problèmes stochastiques de grande taille dans le cadre des Processus de Décision Markoviens (MDP). Les MDP factorisés (FMDP) sont un cadre standard de représentation des problèmes séquentiels dans l'incertain, où l'état du système est décomposé en un ensemble de variables aléatoires. L'apprentissage par renforcement factorisé (FRL) est une approche d'apprentissage indirecte dans les FMDP où les fonctions de transition et de récompense sont inconnues a priori et doivent être apprises sous une forme factorisée. Par ailleurs, dans les problèmes où certaines combinaisons de variables n'existent pas, la représentation factorisée n'empêche pas la représentation de ces états que nous appelons impossibles. Dans la première contribution de cette thèse, nous montrons comment modéliser ce type de problèmes de manière théoriquement bien fondée. De plus, nous proposons une heuristique qui considère chaque état comme impossible tant qu'il n'a pas été visité. Nous en dérivons un algorithme dont les performances sont démontrées sur des problèmes jouet classiques dans la littérature, MAZE6 et BLOCKS WORLD, en comparaison avec l'approche standard. Pour traiter les MDP de grande taille, les MDP hiérarchiques (HMDP) sont aussi basés sur l'idée de la factorisation mais portent cette idée à un niveau supérieur. D'une factorisation d'état des FMDP, les HMDP passent à une factorisation de tâche, où un ensemble de situations similaires (définies par leurs buts) est représenté par un ensemble de sous-tâches partiellement définies. Autrement dit, il est possible de simplifier le problème en le décomposant en sous-problèmes plus petits et donc plus faciles à résoudre individuellement, mais aussi de réutiliser les sous-tâches afin d'accélérer la recherche de la solution globale. Le formalisme des options qui inclut des actions abstraites à durée étendue, permet de modéliser efficacement ce type d'architecture. La deuxième contribution de cette thèse est la proposition de TeXDYNA, un algorithme pour la résolution de MDP de grande taille dont la structure est inconnue. TeXDYNA combine les techniques d'abstraction hiérarchique de l'apprentissage par renforcement hiérarchique (HRL) et les techniques de factorisation de FRL pour décomposer hiérarchiquement le FMDP sur la base de la découverte automatique des sous-tâches directement à partir de la structure du problème qui est elle même apprise en interaction avec l'environnement. Nous évaluons TeXDYNA sur deux benchmarks, à savoir les problèmes TAXI et LIGHT BOX, et nous montrons que combiner l'abstraction d'information contextuelle dans le cadre des FMDP et la construction d'une hiérarchie dans le cadre des HMDP permet une compression très efficace des structures à apprendre, des calculs plus rapides et une meilleure vitesse de convergence. Finalement, nous estimons le potentiel et les limitations de TeXDYNA sur un problème jouet plus représentatif du domaine de la simulation industrielle.

Style APA, Harvard, Vancouver, ISO itp.

Degris, Thomas. "Apprentissage par renforcement dans les processus de décision Markoviens factorisés". Paris 6, 2007. http://www.theses.fr/2007PA066594.

Pełny tekst źródła

Streszczenie:

Les méthodes classiques d'apprentissage par renforcement ne sont pas applicables aux problèmes de grande taille. Les Processus de Décision Markovien Factorisés (FMDPs) permettent de représenter de tels problèmes de façon compacte en spécifiant leur structure. Des méthodes de planification adaptées aux FMDPs obtiennent de bons résultats mais nécessitent que cette structure soit spécifiée manuellement. Cette thèse étudie l'apprentissage de la structure d'un problème représenté par un FMDP en utilisant l'induction d'arbres de décision et propose une adaptation des méthodes de planification dans les FMDPs pour obtenir une solution efficace au problème. Nous étudions cette approche sur plusieurs problèmes de grande taille et montrons qu'elle possède des capacités de généralisation et d'agrégation nécessaires pour la résolution de tels problèmes. En l'appliquant à un problème de jeu vidéo, nous montrons également que les représentations construites sont lisibles par un opérateur humain.

Style APA, Harvard, Vancouver, ISO itp.

Tournaire, Thomas. "Model-based reinforcement learning for dynamic resource allocation in cloud environments". Electronic Thesis or Diss., Institut polytechnique de Paris, 2022. http://www.theses.fr/2022IPPAS004.

Pełny tekst źródła

Streszczenie:

L'émergence de nouvelles technologies nécessite une allocation efficace des ressources pour satisfaire la demande. Cependant, ces nouveaux besoins nécessitent une puissance de calcul élevée impliquant une plus grande consommation d'énergie notamment dans les infrastructures cloud et data centers. Il est donc essentiel de trouver de nouvelles solutions qui peuvent satisfaire ces besoins tout en réduisant la consommation d'énergie des ressources. Dans cette thèse, nous proposons et comparons de nouvelles solutions d'IA (apprentissage par renforcement RL) pour orchestrer les ressources virtuelles dans les environnements de réseaux virtuels de manière à garantir les performances et minimiser les coûts opérationnels. Nous considérons les systèmes de file d'attente comme un modèle pour les infrastructures cloud IaaS et apportons des méthodes d'apprentissage pour allouer efficacement le bon nombre de ressources.Notre objectif est de minimiser une fonction de coût en tenant compte des coûts de performance et opérationnels. Nous utilisons différents types d'algorithmes de RL (du « sans-modèle » au modèle relationnel) pour apprendre la meilleure politique. L'apprentissage par renforcement s'intéresse à la manière dont un agent doit agir dans un environnement pour maximiser une récompense cumulative. Nous développons d'abord un modèle de files d'attente d'un système cloud avec un nœud physique hébergeant plusieurs ressources virtuelles. Dans cette première partie, nous supposons que l'agent connaît le modèle (dynamiques de l'environnement et coût), ce qui lui donne la possibilité d'utiliser des méthodes de programmation dynamique pour le calcul de la politique optimale. Puisque le modèle est connu dans cette partie, nous nous concentrons également sur les propriétés des politiques optimales, qui sont des règles basées sur les seuils et l'hystérésis. Cela nous permet d'intégrer la propriété structurelle des politiques dans les algorithmes MDP. Après avoir fourni un modèle de cloud concret avec des arrivées exponentielles avec des intensités réelles et des données d'énergie pour le fournisseur de cloud, nous comparons dans cette première approche l'efficacité et le temps de calcul des algorithmes MDP par rapport aux heuristiques construites sur les distributions stationnaires de la chaîne de Markov des files d'attente.Dans une deuxième partie, nous considérons que l'agent n'a pas accès au modèle de l'environnement et nous concentrons notre travail sur les techniques de RL. Nous évaluons d'abord des méthodes basées sur un modèle où l'agent peut réutiliser son expérience pour mettre à jour sa fonction de valeur. Nous considérons également des techniques de MDP en ligne où l'agent autonome approxime le modèle pour effectuer une programmation dynamique. Cette partie est évaluée dans un environnement plus large avec deux nœuds physiques en tandem et nous évaluons le temps de convergence et la précision des différentes méthodes, principalement les techniques basées sur un modèle par rapport aux méthodes sans modèle de l'état de l'art.La dernière partie se concentre sur les techniques de RL basées sur des modèles avec une structure relationnelle entre les variables d’état. Comme ces réseaux en tandem ont des propriétés structurelles dues à la forme de l’infrastructure, nous intégrons les approches factorisées et causales aux méthodes de RL pour inclure cette connaissance. Nous fournissons à l'agent une connaissance relationnelle de l'environnement qui lui permet de comprendre comment les variables sont reliées. L'objectif principal est d'accélérer la convergence: d'abord avec une représentation plus compacte avec la factorisation où nous concevons un algorithme en ligne de MDP factorisé que nous comparons avec des algorithmes de RL sans modèle et basés sur un modèle ; ensuite en intégrant le raisonnement causal et contrefactuel qui peut traiter les environnements avec des observations partielles et des facteurs de confusion non observés
The emergence of new technologies (Internet of Things, smart cities, autonomous vehicles, health, industrial automation, ...) requires efficient resource allocation to satisfy the demand. These new offers are compatible with new 5G network infrastructure since it can provide low latency and reliability. However, these new needs require high computational power to fulfill the demand, implying more energy consumption in particular in cloud infrastructures and more particularly in data centers. Therefore, it is critical to find new solutions that can satisfy these needs still reducing the power usage of resources in cloud environments. In this thesis we propose and compare new AI solutions (Reinforcement Learning) to orchestrate virtual resources in virtual network environments such that performances are guaranteed and operational costs are minimised. We consider queuing systems as a model for clouds IaaS infrastructures and bring learning methodologies to efficiently allocate the right number of resources for the users.Our objective is to minimise a cost function considering performance costs and operational costs. We go through different types of reinforcement learning algorithms (from model-free to relational model-based) to learn the best policy. Reinforcement learning is concerned with how a software agent ought to take actions in an environment to maximise some cumulative reward. We first develop queuing model of a cloud system with one physical node hosting several virtual resources. On this first part we assume the agent perfectly knows the model (dynamics of the environment and the cost function), giving him the opportunity to perform dynamic programming methods for optimal policy computation. Since the model is known in this part, we also concentrate on the properties of the optimal policies, which are threshold-based and hysteresis-based rules. This allows us to integrate the structural property of the policies into MDP algorithms. After providing a concrete cloud model with exponential arrivals with real intensities and energy data for cloud provider, we compare in this first approach efficiency and time computation of MDP algorithms against heuristics built on top of the queuing Markov Chain stationary distributions.In a second part we consider that the agent does not have access to the model of the environment and concentrate our work with reinforcement learning techniques, especially model-based reinforcement learning. We first develop model-based reinforcement learning methods where the agent can re-use its experience replay to update its value function. We also consider MDP online techniques where the autonomous agent approximates environment model to perform dynamic programming. This part is evaluated in a larger network environment with two physical nodes in tandem and we assess convergence time and accuracy of different reinforcement learning methods, mainly model-based techniques versus the state-of-the-art model-free methods (e.g. Q-Learning).The last part focuses on model-based reinforcement learning techniques with relational structure between environment variables. As these tandem networks have structural properties due to their infrastructure shape, we investigate factored and causal approaches built-in reinforcement learning methods to integrate this information. We provide the autonomous agent with a relational knowledge of the environment where it can understand how variables are related to each other. The main goal is to accelerate convergence by: first having a more compact representation with factorisation where we devise a factored MDP online algorithm that we evaluate and compare with model-free and model-based reinforcement learning algorithms; second integrating causal and counterfactual reasoning that can tackle environments with partial observations and unobserved confounders

Style APA, Harvard, Vancouver, ISO itp.

Lesaint, Florian. "Modélisation du conditionnement animal par représentations factorisées dans un système d'apprentissage dual : explication des différences inter-individuelles aux niveaux comportemental et neurophysiologique". Electronic Thesis or Diss., Paris 6, 2014. https://accesdistant.sorbonne-universite.fr/login?url=https://theses-intra.sorbonne-universite.fr/2014PA066287.pdf.

Pełny tekst źródła

Streszczenie:

Le conditionnement Pavlovien, l'acquisition de réponses vers des stimuli neutres associés à des récompenses, et le conditionnement instrumental, l'expression de comportements pour atteindre des buts, sont au cœur de nos capacités d'apprentissage. Ils sont souvent étudiés séparément malgré les preuves de leur enchevêtrement. Les modèles de conditionnement instrumental reposent sur le formalisme de l'apprentissage par renforcement (RL), alors que les modèles du conditionnement Pavlovien reposent surtout sur des architectures dédiées souvent incompatibles avec ce formalisme, compliquant l'étude de leurs interactions.Notre objectif est de trouver des concepts, qui combinés à des modèles RL puissent offrir une architecture unifiée permettant une telle étude. Nous développons un modèle qui combine un système RL classique, qui apprend une valeur par état, avec un système RL révisé, évaluant les stimuli séparément et biaisant le comportement vers ceux associés aux récompenses. Le modèle explique certaines réponses inadaptées par l'interaction néfaste des systèmes, ainsi que certaines différences inter-individuelles par une simple variation au niveau de la population de la contribution de chaque système dans le comportement global.Il explique une activité inattendue de la dopamine, vis-à-vis de l'hypothèse qu'elle encode un signal d'erreur, par son calcul sur les stimuli et non les états. Il est aussi compatible avec une hypothèse alternative que la dopamine contribue aussi à rendre certains stimuli recherchés pour eux-mêmes. Le modèle présente des propriétés prometteuses pour l'étude du conditionnement Pavlovien,du conditionnement instrumental et de leurs interactions
Pavlovian conditioning, the acquisition of responses to neutral stimuli previously paired with rewards, and instrumental conditioning, the acquisition of goal-oriented responses, are central to our learning capacities. However, despite some evidences of entanglement, they are mainly studied separately. Reinforcement learning (RL), learning by trials and errors to reach goals, is central to models of instrumental conditioning, while models of Pavlovian conditioning rely on more dedicated and often incompatible architectures. This complicates the study of their interactions. We aim at finding concepts which combined with RL models may provide a unifying architecture to allow such a study. We develop a model that combines a classical RL system, learning values over states, with a revised RL system, learning values over individual stimuli and biasing the behaviour towards reward-related ones. It explains maladaptive behaviours in pigeons by the detrimental interaction of systems, and inter-individual differences in rats by a simple variation at the population level in the contribution of each system to the overall behaviour. It explains unexpected dopaminergic patterns with regard to the dominant hypothesis that dopamine parallels a reward prediction error signal by computing such signal over features rather than states, and makes it compatible with an alternative hypothesis that dopamine also contributes to the acquisition of incentive salience, making reward-related stimuli wanted for themselves. The present model shows promising properties for the investigation of Pavlovian conditioning, instrumental conditioning and their interactions

Style APA, Harvard, Vancouver, ISO itp.

Lesaint, Florian. "Modélisation du conditionnement animal par représentations factorisées dans un système d'apprentissage dual : explication des différences inter-individuelles aux niveaux comportemental et neurophysiologique". Thesis, Paris 6, 2014. http://www.theses.fr/2014PA066287/document.

Pełny tekst źródła

Streszczenie:

Style APA, Harvard, Vancouver, ISO itp.

Magnan, Jean-Christophe. "Représentations graphiques de fonctions et processus décisionnels Markoviens factorisés". Thesis, Paris 6, 2016. http://www.theses.fr/2016PA066042/document.

Pełny tekst źródła

Streszczenie:

En planification théorique de la décision, le cadre des Processus Décisionnels Markoviens Factorisés (Factored Markov Decision Process, FMDP) a produit des algorithmes efficaces de résolution des problèmes de décisions séquentielles dans l'incertain. L'efficacité de ces algorithmes repose sur des structures de données telles que les Arbres de Décision ou les Diagrammes de Décision Algébriques (ADDs). Ces techniques de planification sont utilisées en Apprentissage par Renforcement par l'architecture SDYNA afin de résoudre des problèmes inconnus de grandes tailles. Toutefois, l'état-de-l'art des algorithmes d'apprentissage, de programmation dynamique et d'apprentissage par renforcement utilisés par SDYNA, requière que le problème soit spécifié uniquement à l'aide de variables binaires et/ou utilise des structures améliorables en termes de compacité. Dans ce manuscrit, nous présentons nos travaux de recherche visant à élaborer et à utiliser une structure de donnée plus efficace et moins contraignante, et à l'intégrer dans une nouvelle instance de l'architecture SDYNA. Dans une première partie, nous présentons l'état-de-l'art de la modélisation de problèmes de décisions séquentielles dans l'incertain à l'aide de FMDP. Nous abordons en détail la modélisation à l'aide d'DT et d'ADDs.Puis nous présentons les ORFGs, nouvelle structure de données que nous proposons dans cette thèse pour résoudre les problèmes inhérents aux ADDs. Nous démontrons ainsi que les ORFGs s'avèrent plus efficaces que les ADDs pour modéliser les problèmes de grandes tailles. Dans une seconde partie, nous nous intéressons à la résolution des problèmes de décision dans l'incertain par Programmation Dynamique. Après avoir introduit les principaux algorithmes de résolution, nous nous attardons sur leurs variantes dans le domaine factorisé. Nous précisons les points de ces variantes factorisées qui sont améliorables. Nous décrivons alors une nouvelle version de ces algorithmes qui améliore ces aspects et utilise les ORFGs précédemment introduits. Dans une dernière partie, nous abordons l'utilisation des FMDPs en Apprentissage par Renforcement. Puis nous présentons un nouvel algorithme d'apprentissage dédié à la nouvelle structure que nous proposons. Grâce à ce nouvel algorithme, une nouvelle instance de l'architecture SDYNA est proposée, se basant sur les ORFGs ~:~l'instance SPIMDDI. Nous testons son efficacité sur quelques problèmes standards de la littérature. Enfin nous présentons quelques travaux de recherche autour de cette nouvelle instance. Nous évoquons d'abord un nouvel algorithme de gestion du compromis exploration-exploitation destiné à simplifier l'algorithme F-RMax. Puis nous détaillons une application de l'instance SPIMDDI à la gestion d'unités dans un jeu vidéo de stratégie en temps réel
In decision theoretic planning, the factored framework (Factored Markovian Decision Process, FMDP) has produced several efficient algorithms in order to resolve large sequential decision making under uncertainty problems. The efficiency of this algorithms relies on data structures such as decision trees or algebraïc decision diagrams (ADDs). These planification technics are exploited in Reinforcement Learning by the architecture SDyna in order to resolve large and unknown problems. However, state-of-the-art learning and planning algorithms used in SDyna require the problem to be specified uniquely using binary variables and/or to use improvable data structure in term of compactness. In this book, we present our research works that seek to elaborate and to use a new data structure more efficient and less restrictive, and to integrate it in a new instance of the SDyna architecture. In a first part, we present the state-of-the-art modeling tools used in the algorithms that tackle large sequential decision making under uncertainty problems. We detail the modeling using decision trees and ADDs. Then we introduce the Ordered and Reduced Graphical Representation of Function, a new data structure that we propose in this thesis to deal with the various problems concerning the ADDs. We demonstrate that ORGRFs improve on ADDs to model large problems. In a second part, we go over the resolution of large sequential decision under uncertainty problems using Dynamic Programming. After the introduction of the main algorithms, we see in details the factored alternative. We indicate the improvable points of these factored versions. We describe our new algorithm that improve on these points and exploit the ORGRFs previously introduced. In a last part, we speak about the use of FMDPs in Reinforcement Learning. Then we introduce a new algorithm to learn the new datastrcture we propose. Thanks to this new algorithm, a new instance of the SDyna architecture is proposed, based on the ORGRFs : the SPIMDDI instance. We test its efficiency on several standard problems from the litterature. Finally, we present some works around this new instance. We detail a new algorithm for efficient exploration-exploitation compromise management, aiming to simplify F-RMax. Then we speak about an application of SPIMDDI to the managements of units in a strategic real time video game

Style APA, Harvard, Vancouver, ISO itp.

Magnan, Jean-Christophe. "Représentations graphiques de fonctions et processus décisionnels Markoviens factorisés". Electronic Thesis or Diss., Paris 6, 2016. http://www.theses.fr/2016PA066042.

Pełny tekst źródła

Streszczenie:

Style APA, Harvard, Vancouver, ISO itp.

Zimmer, Matthieu. "Apprentissage par renforcement développemental". Thesis, Université de Lorraine, 2018. http://www.theses.fr/2018LORR0008/document.

Pełny tekst źródła

Streszczenie:

L'apprentissage par renforcement permet à un agent d'apprendre un comportement qui n'a jamais été préalablement défini par l'homme. L'agent découvre l'environnement et les différentes conséquences de ses actions à travers des interactions avec celui-ci : il apprend de sa propre expérience, sans avoir de connaissances préétablies des buts ni des effets de ses actions. Cette thèse s'intéresse à la façon dont l'apprentissage profond peut aider l'apprentissage par renforcement à gérer des espaces continus et des environnements ayant de nombreux degrés de liberté dans l'optique de résoudre des problèmes plus proches de la réalité. En effet, les réseaux de neurones ont une bonne capacité de mise à l'échelle et un large pouvoir de représentation. Ils rendent possible l'approximation de fonctions sur un espace continu et permettent de s'inscrire dans une approche développementale nécessitant peu de connaissances a priori sur le domaine. Nous cherchons comment réduire l'expérience nécessaire à l'agent pour atteindre un comportement acceptable. Pour ce faire, nous avons proposé le cadre Neural Fitted Actor-Critic qui définit plusieurs algorithmes acteur-critique efficaces en données. Nous examinons par quels moyens l'agent peut exploiter pleinement les transitions générées par des comportements précédents en intégrant des données off-policy dans le cadre proposé. Finalement, nous étudions de quelle manière l'agent peut apprendre plus rapidement en tirant parti du développement de son corps, en particulier, en procédant par une augmentation progressive de la dimensionnalité de son espace sensorimoteur
Reinforcement learning allows an agent to learn a behavior that has never been previously defined by humans. The agent discovers the environment and the different consequences of its actions through its interaction: it learns from its own experience, without having pre-established knowledge of the goals or effects of its actions. This thesis tackles how deep learning can help reinforcement learning to handle continuous spaces and environments with many degrees of freedom in order to solve problems closer to reality. Indeed, neural networks have a good scalability and representativeness. They make possible to approximate functions on continuous spaces and allow a developmental approach, because they require little a priori knowledge on the domain. We seek to reduce the amount of necessary interaction of the agent to achieve acceptable behavior. To do so, we proposed the Neural Fitted Actor-Critic framework that defines several data efficient actor-critic algorithms. We examine how the agent can fully exploit the transitions generated by previous behaviors by integrating off-policy data into the proposed framework. Finally, we study how the agent can learn faster by taking advantage of the development of his body, in particular, by proceeding with a gradual increase in the dimensionality of its sensorimotor space

Style APA, Harvard, Vancouver, ISO itp.

Mangin, Olivier. "Emergence de concepts multimodaux : de la perception de mouvements primitifs à l'ancrage de mots acoustiques". Thesis, Bordeaux, 2014. http://www.theses.fr/2014BORD0002/document.

Pełny tekst źródła

Streszczenie:

Cette thèse considère l'apprentissage de motifs récurrents dans la perception multimodale. Elle s'attache à développer des modèles robotiques de ces facultés telles qu'observées chez l'enfant, et elle s'inscrit en cela dans le domaine de la robotique développementale.Elle s'articule plus précisément autour de deux thèmes principaux qui sont d'une part la capacité d'enfants ou de robots à imiter et à comprendre le comportement d'humains, et d'autre part l'acquisition du langage. A leur intersection, nous examinons la question de la découverte par un agent en développement d'un répertoire de motifs primitifs dans son flux perceptuel. Nous spécifions ce problème et établissons son lien avec ceux de l'indétermination de la traduction décrit par Quine et de la séparation aveugle de source tels qu'étudiés en acoustique.Nous en étudions successivement quatre sous-problèmes et formulons une définition expérimentale de chacun. Des modèles d'agents résolvant ces problèmes sont également décrits et testés. Ils s'appuient particulièrement sur des techniques dites de sacs de mots, de factorisation de matrices et d'apprentissage par renforcement inverse. Nous approfondissons séparément les trois problèmes de l'apprentissage de sons élémentaires tels les phonèmes ou les mots, de mouvements basiques de danse et d'objectifs primaires composant des tâches motrices complexes. Pour finir nous étudions le problème de l'apprentissage d'éléments primitifs multimodaux, ce qui revient à résoudre simultanément plusieurs des problèmes précédents. Nous expliquons notamment en quoi cela fournit un modèle de l'ancrage de mots acoustiques
This thesis focuses on learning recurring patterns in multimodal perception. For that purpose it develops cognitive systems that model the mechanisms providing such capabilities to infants; a methodology that fits into thefield of developmental robotics.More precisely, this thesis revolves around two main topics that are, on the one hand the ability of infants or robots to imitate and understand human behaviors, and on the other the acquisition of language. At the crossing of these topics, we study the question of the how a developmental cognitive agent can discover a dictionary of primitive patterns from its multimodal perceptual flow. We specify this problem and formulate its links with Quine's indetermination of translation and blind source separation, as studied in acoustics.We sequentially study four sub-problems and provide an experimental formulation of each of them. We then describe and test computational models of agents solving these problems. They are particularly based on bag-of-words techniques, matrix factorization algorithms, and inverse reinforcement learning approaches. We first go in depth into the three separate problems of learning primitive sounds, such as phonemes or words, learning primitive dance motions, and learning primitive objective that compose complex tasks. Finally we study the problem of learning multimodal primitive patterns, which corresponds to solve simultaneously several of the aforementioned problems. We also details how the last problems models acoustic words grounding

Style APA, Harvard, Vancouver, ISO itp.

Filippi, Sarah. "Stratégies optimistes en apprentissage par renforcement". Phd thesis, Ecole nationale supérieure des telecommunications - ENST, 2010. http://tel.archives-ouvertes.fr/tel-00551401.

Pełny tekst źródła

Streszczenie:

Cette thèse traite de méthodes « model-based » pour résoudre des problèmes d'apprentissage par renforcement. On considère un agent confronté à une suite de décisions et un environnement dont l'état varie selon les décisions prises par l'agent. Ce dernier reçoit tout au long de l'interaction des récompenses qui dépendent à la fois de l'action prise et de l'état de l'environnement. L'agent ne connaît pas le modèle d'interaction et a pour but de maximiser la somme des récompenses reçues à long terme. Nous considérons différents modèles d'interactions : les processus de décisions markoviens, les processus de décisions markoviens partiellement observés et les modèles de bandits. Pour ces différents modèles, nous proposons des algorithmes qui consistent à construire à chaque instant un ensemble de modèles permettant d'expliquer au mieux l'interaction entre l'agent et l'environnement. Les méthodes dites « model-based » que nous élaborons se veulent performantes tant en pratique que d'un point de vue théorique. La performance théorique des algorithmes est calculée en terme de regret qui mesure la différence entre la somme des récompenses reçues par un agent qui connaîtrait à l'avance le modèle d'interaction et celle des récompenses cumulées par l'algorithme. En particulier, ces algorithmes garantissent un bon équilibre entre l'acquisition de nouvelles connaissances sur la réaction de l'environnement (exploration) et le choix d'actions qui semblent mener à de fortes récompenses (exploitation). Nous proposons deux types de méthodes différentes pour contrôler ce compromis entre exploration et exploitation. Le premier algorithme proposé dans cette thèse consiste à suivre successivement une stratégie d'exploration, durant laquelle le modèle d'interaction est estimé, puis une stratégie d'exploitation. La durée de la phase d'exploration est contrôlée de manière adaptative ce qui permet d'obtenir un regret logarithmique dans un processus de décision markovien paramétrique même si l'état de l'environnement n'est que partiellement observé. Ce type de modèle est motivé par une application d'intérêt en radio cognitive qu'est l'accès opportuniste à un réseau de communication par un utilisateur secondaire. Les deux autres algorithmes proposés suivent des stratégies optimistes : l'agent choisit les actions optimales pour le meilleur des modèles possibles parmi l'ensemble des modèles vraisemblables. Nous construisons et analysons un tel algorithme pour un modèle de bandit paramétrique dans un cas de modèles linéaires généralisés permettant ainsi de considérer des applications telles que la gestion de publicité sur internet. Nous proposons également d'utiliser la divergence de Kullback-Leibler pour la construction de l'ensemble des modèles vraisemblables dans des algorithmes optimistes pour des processus de décision markoviens à espaces d'états et d'actions finis. L'utilisation de cette métrique améliore significativement le comportement de des algorithmes optimistes en pratique. De plus, une analyse du regret de chacun des algorithmes permet de garantir des performances théoriques similaires aux meilleurs algorithmes de l'état de l'art.

Style APA, Harvard, Vancouver, ISO itp.

Więcej źródeł

Książki na temat "Apprentissage par renforcement factorisé"

Sutton, Richard S. Reinforcement learning: An introduction. Cambridge, Mass: MIT Press, 1998.

Znajdź pełny tekst źródła

Style APA, Harvard, Vancouver, ISO itp.

Ontario. Esquisse de cours 12e année: Sciences de l'activité physique pse4u cours préuniversitaire. Vanier, Ont: CFORP, 2002.

Znajdź pełny tekst źródła

Style APA, Harvard, Vancouver, ISO itp.

Ontario. Esquisse de cours 12e année: Technologie de l'information en affaires btx4e cours préemploi. Vanier, Ont: CFORP, 2002.

Znajdź pełny tekst źródła

Style APA, Harvard, Vancouver, ISO itp.

Ontario. Esquisse de cours 12e année: Études informatiques ics4m cours préuniversitaire. Vanier, Ont: CFORP, 2002.

Znajdź pełny tekst źródła

Style APA, Harvard, Vancouver, ISO itp.

Ontario. Esquisse de cours 12e année: Mathématiques de la technologie au collège mct4c cours précollégial. Vanier, Ont: CFORP, 2002.

Znajdź pełny tekst źródła

Style APA, Harvard, Vancouver, ISO itp.

Ontario. Esquisse de cours 12e année: Sciences snc4m cours préuniversitaire. Vanier, Ont: CFORP, 2002.

Znajdź pełny tekst źródła

Style APA, Harvard, Vancouver, ISO itp.

Ontario. Esquisse de cours 12e année: English eae4e cours préemploi. Vanier, Ont: CFORP, 2002.

Znajdź pełny tekst źródła

Style APA, Harvard, Vancouver, ISO itp.

Ontario. Esquisse de cours 12e année: Le Canada et le monde: une analyse géographique cgw4u cours préuniversitaire. Vanier, Ont: CFORP, 2002.

Znajdź pełny tekst źródła

Style APA, Harvard, Vancouver, ISO itp.

Ontario. Esquisse de cours 12e année: Environnement et gestion des ressources cgr4e cours préemploi. Vanier, Ont: CFORP, 2002.

Znajdź pełny tekst źródła

Style APA, Harvard, Vancouver, ISO itp.

Ontario. Esquisse de cours 12e année: Histoire de l'Occident et du monde chy4c cours précollégial. Vanier, Ont: CFORP, 2002.

Znajdź pełny tekst źródła

Style APA, Harvard, Vancouver, ISO itp.

Więcej źródeł

Części książek na temat "Apprentissage par renforcement factorisé"

Tazdaït, Tarik, i Rabia Nessah. "5. Vote et apprentissage par renforcement". W Le paradoxe du vote, 157–77. Éditions de l’École des hautes études en sciences sociales, 2013. http://dx.doi.org/10.4000/books.editionsehess.1931.

Pełny tekst źródła

Style APA, Harvard, Vancouver, ISO itp.

BENDELLA, Mohammed Salih, i Badr BENMAMMAR. "Impact de la radio cognitive sur le green networking : approche par apprentissage par renforcement". W Gestion du niveau de service dans les environnements émergents. ISTE Group, 2020. http://dx.doi.org/10.51926/iste.9002.ch8.

Pełny tekst źródła

Style APA, Harvard, Vancouver, ISO itp.

Raporty organizacyjne na temat "Apprentissage par renforcement factorisé"

Melloni, Gian. Le leadership des autorités locales en matière d'assainissement et d'hygiène : expériences et apprentissage de l'Afrique de l'Ouest. Institute of Development Studies (IDS), styczeń 2022. http://dx.doi.org/10.19088/slh.2022.002.

Pełny tekst źródła

Streszczenie:

Entre juillet et octobre 2021, la Sanitation Learning Hub a travaillé avec des représentants des pouvoirs publics et des partenaires de développement pour mettre au point, diffuser et analyser des études de cas qui se penchaient sur le renforcement des autorités et des systèmes locaux dans quatre zones locales à travers l’Afrique de l’Ouest : au Bénin (commune de N’Dali), au Ghana (district municipal de Yendi), en Guinée (commune de Molota) et au Nigéria (circonscription de Logo). Cette note d’apprentissage partage les leçons apprises et les recommandations dégagés des études de cas et des trois ateliers participatifs qui ont suivi. Une version initiale de cette note a été révisée par les participants à l’initiative. Les premières sections décrivent les principales parties prenantes et les actions des autorités locales en matière d’HA ; ensuite l’étude se concentre sur les leviers et les obstacles au changement, avant de formuler des recommandations.

Style APA, Harvard, Vancouver, ISO itp.

Oferujemy zniżki na wszystkie plany premium dla autorów, których prace zostały uwzględnione w tematycznych zestawieniach literatury. Skontaktuj się z nami, aby uzyskać unikalny kod promocyjny!