Siga este link para ver outros tipos de publicações sobre o tema: Apprentissage par renforcement mulitagent.

Teses / dissertações sobre o tema "Apprentissage par renforcement mulitagent"

Crie uma referência precisa em APA, MLA, Chicago, Harvard, e outros estilos

Selecione um tipo de fonte:

Veja os 50 melhores trabalhos (teses / dissertações) para estudos sobre o assunto "Apprentissage par renforcement mulitagent".

Ao lado de cada fonte na lista de referências, há um botão "Adicionar à bibliografia". Clique e geraremos automaticamente a citação bibliográfica do trabalho escolhido no estilo de citação de que você precisa: APA, MLA, Harvard, Chicago, Vancouver, etc.

Você também pode baixar o texto completo da publicação científica em formato .pdf e ler o resumo do trabalho online se estiver presente nos metadados.

Veja as teses / dissertações das mais diversas áreas científicas e compile uma bibliografia correta.

1

Dinneweth, Joris. "Vers des approches hybrides fondées sur l'émergence et l'apprentissage : prise en compte des véhicules autonomes dans le trafic." Electronic Thesis or Diss., université Paris-Saclay, 2024. http://www.theses.fr/2024UPASG099.

Texto completo da fonte
Resumo:
Selon l'Organisation mondiale de la santé, les accidents de la route causent près de 1,2 million de décès et 40 millions de blessés chaque année. Dans les pays riches, des normes de sécurité permettent de prévenir une grande partie des accidents. Les accidents restants trouvent leur cause dans le comportement humain.Ainsi, certains envisagent d'automatiser le trafic, c'est-à-dire de substituer aux humains la conduite de leurs véhicules. Cependant, l'automatisation du trafic routier peut difficilement s'effectuer du jour au lendemain. Ainsi, robots de conduite (RC) et conducteurs humains pourra
Estilos ABNT, Harvard, Vancouver, APA, etc.
2

Zimmer, Matthieu. "Apprentissage par renforcement développemental." Thesis, Université de Lorraine, 2018. http://www.theses.fr/2018LORR0008/document.

Texto completo da fonte
Resumo:
L'apprentissage par renforcement permet à un agent d'apprendre un comportement qui n'a jamais été préalablement défini par l'homme. L'agent découvre l'environnement et les différentes conséquences de ses actions à travers des interactions avec celui-ci : il apprend de sa propre expérience, sans avoir de connaissances préétablies des buts ni des effets de ses actions. Cette thèse s'intéresse à la façon dont l'apprentissage profond peut aider l'apprentissage par renforcement à gérer des espaces continus et des environnements ayant de nombreux degrés de liberté dans l'optique de résoudre des prob
Estilos ABNT, Harvard, Vancouver, APA, etc.
3

Zimmer, Matthieu. "Apprentissage par renforcement développemental." Electronic Thesis or Diss., Université de Lorraine, 2018. http://www.theses.fr/2018LORR0008.

Texto completo da fonte
Resumo:
L'apprentissage par renforcement permet à un agent d'apprendre un comportement qui n'a jamais été préalablement défini par l'homme. L'agent découvre l'environnement et les différentes conséquences de ses actions à travers des interactions avec celui-ci : il apprend de sa propre expérience, sans avoir de connaissances préétablies des buts ni des effets de ses actions. Cette thèse s'intéresse à la façon dont l'apprentissage profond peut aider l'apprentissage par renforcement à gérer des espaces continus et des environnements ayant de nombreux degrés de liberté dans l'optique de résoudre des prob
Estilos ABNT, Harvard, Vancouver, APA, etc.
4

Kozlova, Olga. "Apprentissage par renforcement hiérarchique et factorisé." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2010. http://tel.archives-ouvertes.fr/tel-00632968.

Texto completo da fonte
Resumo:
Cette thèse a été réalisée dans un contexte de simulation industrielle qui s'intéresse aux problèmes de la modélisation du comportement humain dans les simulateurs d'entraînement militaire ou de sécurité civile. Nous avons abordé cette problématique sous l'angle de l'apprentissage et de la planification dans l'incertain, en modélisant les problèmes que nous traitons comme des problèmes stochastiques de grande taille dans le cadre des Processus de Décision Markoviens (MDP). Les MDP factorisés (FMDP) sont un cadre standard de représentation des problèmes séquentiels dans l'incertain, où l'état d
Estilos ABNT, Harvard, Vancouver, APA, etc.
5

Filippi, Sarah. "Stratégies optimistes en apprentissage par renforcement." Phd thesis, Ecole nationale supérieure des telecommunications - ENST, 2010. http://tel.archives-ouvertes.fr/tel-00551401.

Texto completo da fonte
Resumo:
Cette thèse traite de méthodes « model-based » pour résoudre des problèmes d'apprentissage par renforcement. On considère un agent confronté à une suite de décisions et un environnement dont l'état varie selon les décisions prises par l'agent. Ce dernier reçoit tout au long de l'interaction des récompenses qui dépendent à la fois de l'action prise et de l'état de l'environnement. L'agent ne connaît pas le modèle d'interaction et a pour but de maximiser la somme des récompenses reçues à long terme. Nous considérons différents modèles d'interactions : les processus de décisions markoviens, les p
Estilos ABNT, Harvard, Vancouver, APA, etc.
6

Théro, Héloïse. "Contrôle, agentivité et apprentissage par renforcement." Thesis, Paris Sciences et Lettres (ComUE), 2018. http://www.theses.fr/2018PSLEE028/document.

Texto completo da fonte
Resumo:
Le sentiment d’agentivité est défini comme le sentiment de contrôler nos actions, et à travers elles, les évènements du monde extérieur. Cet ensemble phénoménologique dépend de notre capacité d’apprendre les contingences entre nos actions et leurs résultats, et un algorithme classique pour modéliser cela vient du domaine de l’apprentissage par renforcement. Dans cette thèse, nous avons utilisé l’approche de modélisation cognitive pour étudier l’interaction entre agentivité et apprentissage par renforcement. Tout d’abord, les participants réalisant une tâche d’apprentissage par renforcement ten
Estilos ABNT, Harvard, Vancouver, APA, etc.
7

Munos, Rémi. "Apprentissage par renforcement, étude du cas continu." Paris, EHESS, 1997. http://www.theses.fr/1997EHESA021.

Texto completo da fonte
Resumo:
Le probleme aborde est comment concevoir des methodes permettant a des systemes artificiels d' << apprendre par l'experience >>, c'est a dire de resoudre une tache sans etre explicitement programme pour cela, mais seulement a partir du schema d'apprentissage : essais -> erreur ou succes ii s'agit de definir des methodes, sous forme d'algorithmes, permettant la modification des parametres internes du systeme afin de definir des prises de decisions pertinentes. L'approche developpee est celle de << l'apprentissage par renforcement >> qui se definit naturellement sous la forme d'un probleme de co
Estilos ABNT, Harvard, Vancouver, APA, etc.
8

Saulières, Léo. "Explication de l'apprentissage par renforcement." Electronic Thesis or Diss., Université de Toulouse (2023-....), 2024. http://www.theses.fr/2024TLSES224.

Texto completo da fonte
Resumo:
S dernières années, les modèles issus de l'Intelligence Artificielle (IA) ont connu une progression impressionnante tant sur la précision de leurs résultats que sur l'amplitude de leurs applications. Cette progression s'explique en partie par l'utilisation de réseaux de neurones permettant de résoudre efficacement diverses tâches en se basant sur un ensemble de données. Les différentes avancées en IA prédictive (par opposition à l'IA analytique qui s'intéresse à la représentation des connaissances et à la formalisation du raisonnement) ont été mises au service de domaines variés comme l'agricu
Estilos ABNT, Harvard, Vancouver, APA, etc.
9

Lesner, Boris. "Planification et apprentissage par renforcement avec modèles d'actions compacts." Caen, 2011. http://www.theses.fr/2011CAEN2074.

Texto completo da fonte
Resumo:
Nous étudions les Processus de Décision Markoviens représentés de manière compacte via des langages de définition d'actions basés sur le langage STRIPS Probabiliste. Une première partie de ce travail traite de la résolution de ces processus de manière compacte. Pour cela nous proposons deux algorithmes. Un premier, basé sur la manipulation de formules propositionnelles, permet de résoudre de manière approchée les problèmes dans des fragments propositionnels traitables du type Horn ou 2-CNF. Le second algorithme quant à lui résout efficacement et de manière exacte les problèmes représentés en P
Estilos ABNT, Harvard, Vancouver, APA, etc.
10

Maillard, Odalric-Ambrym. "APPRENTISSAGE SÉQUENTIEL : Bandits, Statistique et Renforcement." Phd thesis, Université des Sciences et Technologie de Lille - Lille I, 2011. http://tel.archives-ouvertes.fr/tel-00845410.

Texto completo da fonte
Resumo:
Cette thèse traite des domaines suivant en Apprentissage Automatique: la théorie des Bandits, l'Apprentissage statistique et l'Apprentissage par renforcement. Son fil rouge est l'étude de plusieurs notions d'adaptation, d'un point de vue non asymptotique : à un environnement ou à un adversaire dans la partie I, à la structure d'un signal dans la partie II, à la structure de récompenses ou à un modèle des états du monde dans la partie III. Tout d'abord nous dérivons une analyse non asymptotique d'un algorithme de bandit à plusieurs bras utilisant la divergence de Kullback-Leibler. Celle-ci perm
Estilos ABNT, Harvard, Vancouver, APA, etc.
11

Hautot, Julien. "Représentation à base radiale pour l'apprentissage par renforcement visuel." Electronic Thesis or Diss., Université Clermont Auvergne (2021-...), 2024. http://www.theses.fr/2024UCFA0093.

Texto completo da fonte
Resumo:
Ce travail de thèse s'inscrit dans le contexte de l'apprentissage par renforcement (Renforcement Learning - RL) à partir de données image. Contrairement à l'apprentissage supervisé qui permet d'effectuer différentes tâches telles que la classification, la régression ou encore la segmentation à partir d'une base de données annotée, le RL permet d'apprendre, sans base de données, via des interactions avec un environnement. En effet, dans ces méthodes, un agent tel qu'un robot va effectuer différentes actions afin d'explorer son environnement et de récupérer les données d'entraînement. L'entraîne
Estilos ABNT, Harvard, Vancouver, APA, etc.
12

Klein, Édouard. "Contributions à l'apprentissage par renforcement inverse." Thesis, Université de Lorraine, 2013. http://www.theses.fr/2013LORR0185/document.

Texto completo da fonte
Resumo:
Cette thèse, intitulée "Contributions à l'apprentissage par renforcement inverse", fournit trois contributions majeures au domaine. La première est une méthode d'estimation de l'attribut moyen, une quantité exploitée par la grande majorité des approches constituant l'état de l'art. Elle a permis d'étendre ces approches au cadre batch et off-policy. La seconde contribution majeure est un algorithme d'apprentissage par renforcement inverse, structured classification for inverse reinforcement learning (SCIRL), qui relâche une contrainte standard du domaine, la résolution répétée d'un processus dé
Estilos ABNT, Harvard, Vancouver, APA, etc.
13

Gelly, Sylvain. "Une contribution à l'apprentissage par renforcement : application au Computer Go." Paris 11, 2007. http://www.theses.fr/2007PA112227.

Texto completo da fonte
Resumo:
Le domaine de l'Apprentissage par Renforcement (AR) se trouve à l'interface entre la théorie du contrôle, l'apprentissage supervisé et non-supervisé, l'optimisation et les sciences cognitives, et est un domaine très actif de par ses applications et les problèmes non résolus. Cette thèse apporte quelques contributions dans ce domaine, principalement sur trois axes. Le 1er axe correspond à la modélisation de l'environnement, i. E. à l'apprentissage de la fonction de transition entre deux pas de temps. L'apprentissage et l'utilisation de ce modèle se fait efficacement dans les approches factorisé
Estilos ABNT, Harvard, Vancouver, APA, etc.
14

Degris, Thomas. "Apprentissage par renforcement dans les processus de décision Markoviens factorisés." Paris 6, 2007. http://www.theses.fr/2007PA066594.

Texto completo da fonte
Resumo:
Les méthodes classiques d'apprentissage par renforcement ne sont pas applicables aux problèmes de grande taille. Les Processus de Décision Markovien Factorisés (FMDPs) permettent de représenter de tels problèmes de façon compacte en spécifiant leur structure. Des méthodes de planification adaptées aux FMDPs obtiennent de bons résultats mais nécessitent que cette structure soit spécifiée manuellement. Cette thèse étudie l'apprentissage de la structure d'un problème représenté par un FMDP en utilisant l'induction d'arbres de décision et propose une adaptation des méthodes de planification dans l
Estilos ABNT, Harvard, Vancouver, APA, etc.
15

Zaidenberg, Sofia. "Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante." Grenoble INPG, 2009. http://www.theses.fr/2009INPG0088.

Texto completo da fonte
Resumo:
Cette thèse étudie l'acquisition automatique par apprentissage d'un modèle de contexte pour un utilisateur dans un environnement ubiquitaire. Dans un tel environnement, les dispositifs peuvent communiquer et coopérer afin de former un espace informatique cohérent. Certains appareils ont des capacités de perception, utilisées par l'environnement pour détecter la situation - le contexte - de l'utilisateur. D'autres appareils sont capables d'exécuter des actions. La problématique que nous nous sommes posée est de déterminer les associations optimales pour un utilisateur donné entre les situations
Estilos ABNT, Harvard, Vancouver, APA, etc.
16

Klein, Édouard. "Contributions à l'apprentissage par renforcement inverse." Electronic Thesis or Diss., Université de Lorraine, 2013. http://www.theses.fr/2013LORR0185.

Texto completo da fonte
Resumo:
Cette thèse, intitulée "Contributions à l'apprentissage par renforcement inverse", fournit trois contributions majeures au domaine. La première est une méthode d'estimation de l'attribut moyen, une quantité exploitée par la grande majorité des approches constituant l'état de l'art. Elle a permis d'étendre ces approches au cadre batch et off-policy. La seconde contribution majeure est un algorithme d'apprentissage par renforcement inverse, structured classification for inverse reinforcement learning (SCIRL), qui relâche une contrainte standard du domaine, la résolution répétée d'un processus dé
Estilos ABNT, Harvard, Vancouver, APA, etc.
17

Darwiche, Domingues Omar. "Exploration en apprentissage par renforcement : au-delà des espaces d'états finis." Thesis, Université de Lille (2022-....), 2022. http://www.theses.fr/2022ULILB002.

Texto completo da fonte
Resumo:
L'apprentissage par renforcement (reinforcement learning, RL) est un paradigme de l'apprentissage automatique qui nous permet de concevoir des algorithmes qui apprennent à prendre des décisions et à interagir avec le monde. Les algorithmes de RL peuvent être classés comme hors ligne ou en ligne. Dans le cas hors ligne, l'algorithme dispose d'un ensemble de données fixe, avec lequel il doit calculer une bonne stratégie de prise de décision. Dans le cas en ligne, l'agent doit collecter efficacement des données par lui-même, en interagissant avec l'environnement : c'est le problème que l'on appel
Estilos ABNT, Harvard, Vancouver, APA, etc.
18

Garcia, Pascal. "Exploration guidée et induction de comportements génériques en apprentissage par renforcement." Rennes, INSA, 2004. http://www.theses.fr/2004ISAR0010.

Texto completo da fonte
Resumo:
L'apprentissage par renforcement est un paradigme dans lequel un agent autonome apprend quelles actionseffectuer dans différentes situations (états), de façon à optimiser les renforcements (récompenses ou punitions) qu'il recevra sur le long terme. Bien qu'un très grand nombre de tâches puisse se formuler dans ce paradigme, deux problèmes fondamentaux se posent concernant les algorithmes d'apprentissage par renforcement standards : 1. Ils ne permettent pas de résoudre en un temps raisonnable des tâches ayant un assez grand nombre d'états. 2. Pour une tâche donnée, ces algorithmes doivent appre
Estilos ABNT, Harvard, Vancouver, APA, etc.
19

Vasileiadis, Athanasios. "Apprentissage par renforcement à champ moyen : une perspective de contrôle optimal." Electronic Thesis or Diss., Université Côte d'Azur, 2024. http://www.theses.fr/2024COAZ5005.

Texto completo da fonte
Resumo:
L'apprentissage par renforcement est un paradigme clé de l'apprentissage machine, dont l'objectif est d'inciter les agents à tirer les leçons de leur propre expérience passée afin qu'ils s'améliorent au fil du temps, voir par exemple la monographie [14]. À cet égard, les systèmes impliquant un grand nombre d'agents sont importants pour les applications, mais restent difficiles à traiter du point de vue numérique, voir par exemple le récent post [12]. Le renforcement de l'apprentissage avec plusieurs agents est généralement appelé "apprentissage de renforcement multi-agents" (MARL). Comme démon
Estilos ABNT, Harvard, Vancouver, APA, etc.
20

Zhang, Ping. "Etudes de différents aspects de l'apprentissage par renforcement." Compiègne, 1997. http://www.theses.fr/1997COMP0993.

Texto completo da fonte
Resumo:
Dans cette thèse nous avons abordé trois aspects importants de l'apprentissage par renforcement, à savoir les différences temporelles (T D (Alpha) ), l'algorithme de Q-learning et le dilemme "exploration/exploitation". Sur chacun de ces aspects nous avons proposé des innovations qui permettent de mieux comprendre et par la même de mieux résoudre le problème d'apprentissage par renforcement. Le premier résultat de ce travail est une méthode permettant d'optimiser le choix des paramètres de l'algorithme de T D (Alpha). Nous présentons ensuite l'utilisation du principe de T D (Alpha) comme point
Estilos ABNT, Harvard, Vancouver, APA, etc.
21

Léon, Aurélia. "Apprentissage séquentiel budgétisé pour la classification extrême et la découverte de hiérarchie en apprentissage par renforcement." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS226.

Texto completo da fonte
Resumo:
Cette thèse s’intéresse à la notion de budget pour étudier des problèmes de complexité (complexité en calculs, tâche complexe pour un agent, ou complexité due à une faible quantité de données). En effet, l’objectif principal des techniques actuelles en apprentissage statistique est généralement d’obtenir les meilleures performances possibles, sans se soucier du coût de la tâche. La notion de budget permet de prendre en compte ce paramètre tout en conservant de bonnes performances. Nous nous concentrons d’abord sur des problèmes de classification en grand nombre de classes : la complexité en ca
Estilos ABNT, Harvard, Vancouver, APA, etc.
22

Daoudi, Paul. "Apprentissage par renforcement sur des systèmes réels : exploitation de différents contextes industriels." Electronic Thesis or Diss., Université Grenoble Alpes, 2024. http://www.theses.fr/2024GRALT047.

Texto completo da fonte
Resumo:
Il existe dans l'industrie de nombreuses infrastructures requérant un contrôle complexe dont le rôle est crucial. Traditionnellement, ce problème est abordé par l'utilisation de méthodes d'automatique et de commande optimale. Celles-ci nécessitent d'avoir un modèle des dynamiques du système, qui peut être imprécis dans le cadre de systèmes complexes. L'apprentissage automatique propose une solution alternative à ce problème, où le modèle du système considéré s'obtient par extrapolation à partir de données entrées/sorties tout en étant agnostique à la physique sous-jacente du système. L'apprent
Estilos ABNT, Harvard, Vancouver, APA, etc.
23

Martinez, Coralie. "Classification précoce de séquences temporelles par de l'apprentissage par renforcement profond." Thesis, Université Grenoble Alpes (ComUE), 2019. http://www.theses.fr/2019GREAT123.

Texto completo da fonte
Resumo:
La classification précoce (CP) de séquences temporelles est un sujet de recherche récent dans le domaine de l'analyse des données séquentielles. Le problème consiste à attribuer une étiquette à des données qui sont collectées séquentiellement avec de nouvelles mesures arrivant au cours du temps. La prédiction d’une étiquette doit être faite en utilisant le moins de mesures possible dans la séquence. Le problème de CP a une importance capitale pour de nombreuses applications, allant du contrôle des processus à la détection de fraude. Il est particulièrement intéressant pour les applications qui
Estilos ABNT, Harvard, Vancouver, APA, etc.
24

Mesnard, Thomas. "Attribution de crédit pour l'apprentissage par renforcement dans des réseaux profonds." Electronic Thesis or Diss., Institut polytechnique de Paris, 2023. http://www.theses.fr/2023IPPAX155.

Texto completo da fonte
Resumo:
L'apprentissage profond par renforcement a été au cœur de nombreux résultats révolutionnaires en intelligence artificielle ces dernières années. Ces agents reposent sur des techniques d'attribution de crédit qui cherchent à établir des corrélations entre actions passées et événements futurs et utilisent ces corrélations pour devenir performants à une tâche. Ce problème est au cœur des limites actuelles de l'apprentissage par renforcement et les techniques d'attribution de crédit utilisées sont encore relativement rudimentaires et incapables de raisonnement inductif. Cette thèse se concentre do
Estilos ABNT, Harvard, Vancouver, APA, etc.
25

Laurent, Guillaume. "Synthèse de comportements par apprentissages par renforcement parallèles : application à la commande d'un micromanipulateur plan." Phd thesis, Université de Franche-Comté, 2002. http://tel.archives-ouvertes.fr/tel-00008761.

Texto completo da fonte
Resumo:
En microrobotique, la commande des systèmes est délicate car les phénomènes physiques liés à l'échelle microscopique sont complexes. Les méthodes dites d'apprentissage par renforcement constituent une approche intéressante car elles permettent d'établir une stratégie de commande sans connaissance \emph(a priori) sur le système. Au vu des grandes dimensions des espaces d'états des systèmes étudiés, nous avons développé une approche parallèle qui s'inspire à la fois des architectures comportementales et de l'apprentissage par renforcement. Cette architecture, basée sur la parallélisation de l'al
Estilos ABNT, Harvard, Vancouver, APA, etc.
26

Bouzid, Salah Eddine. "Optimisation multicritères des performances de réseau d’objets communicants par méta-heuristiques hybrides et apprentissage par renforcement." Thesis, Le Mans, 2020. http://cyberdoc-int.univ-lemans.fr/Theses/2020/2020LEMA1026.pdf.

Texto completo da fonte
Resumo:
Le déploiement des réseaux d’objets communicants «ROCs», dont les densités augmentent sans cesse, conditionne à la fois l’optimalité de leur qualité de service, leur consommation énergétique et par conséquent leur durée de vie. Il s’avère que le problème de déterminer le placement optimal, relativement aux différents critères de qualité, des nœuds de ces réseaux est un problème Np-Complet. Face à cette Np-complétude, et en particulier pour des environnements intérieurs, les approches existantes focalisent sur l’optimisation d’un seul objectif en négligeant les autres critères, ou optent pour u
Estilos ABNT, Harvard, Vancouver, APA, etc.
27

Buffet, Olivier. "Une double approche modulaire de l'apprentissage par renforcement pour des agents intelligents adaptatifs." Phd thesis, Université Henri Poincaré - Nancy I, 2003. http://tel.archives-ouvertes.fr/tel-00509349.

Texto completo da fonte
Resumo:
Cette thèse s'est intéressée à deux domaines de l'intelligence artificielle : d'une part l'apprentissage par renforcement (A/R), et d'autre part les systèmes multi-agents (SMA). Le premier permet de concevoir des agents (entités intelligentes) en se basant sur un signal de renforcement qui récompense les décisions menant au but fixé, alors que le second concerne l'intelligence qui peut venir de l'interaction d'un groupe d'entités (dans la perspective que le tout soit plus que la somme de ses parties). Chacun de ces deux outils souffre de diverses difficultés d'emploi. Le travail que nous avons
Estilos ABNT, Harvard, Vancouver, APA, etc.
28

Dutech, Alain. "Apprentissage par Renforcement : Au delà des Processus Décisionnels de Markov (Vers la cognition incarnée)." Habilitation à diriger des recherches, Université Nancy II, 2010. http://tel.archives-ouvertes.fr/tel-00549108.

Texto completo da fonte
Resumo:
Ce document présente mon ``projet de recherche'' sur le thème de l'embodiment (``cognition incarnée'') au croisement des sciences cognitives, de l'intelligence artificielle et de la robotique. Plus précisément, je montre comment je compte explorer la façon dont un agent, artificiel ou biologique, élabore des représentations utiles et pertinentes de son environnement. Dans un premier temps, je positionne mes travaux en explicitant notamment les concepts de l'embodiment et de l'apprentissage par renforcement. Je m'attarde notamment sur la problématique de l'apprentissage par renforcement pour de
Estilos ABNT, Harvard, Vancouver, APA, etc.
29

Coulom, Rémi. "Apprentissage par renforcement utilisant des réseaux de neurones avec des applications au contrôle moteur." Phd thesis, Grenoble INPG, 2002. http://tel.archives-ouvertes.fr/tel-00004386.

Texto completo da fonte
Resumo:
Cette thèse est une étude de méthodes permettant d'estimer des fonctions valeur avec des réseaux de neurones feedforward dans l'apprentissage par renforcement. Elle traite plus particulièrement de problèmes en temps et en espace continus, tels que les tâches de contrôle moteur. Dans ce travail, l'algorithme TD(lambda) continu est perfectionné pour traiter des situations avec des états et des commandes discontinus, et l'algorithme vario-eta est proposé pour effectuer la descente de gradient de manière efficace. Les contributions essentielles de cette thèse sont des succès expérimentaux qui indi
Estilos ABNT, Harvard, Vancouver, APA, etc.
30

Jneid, Khoder. "Apprentissage par Renforcement Profond pour l'Optimisation du Contrôle et de la Gestion des Bâtiment." Electronic Thesis or Diss., Université Grenoble Alpes, 2023. http://www.theses.fr/2023GRALM062.

Texto completo da fonte
Resumo:
Les systèmes de chauffage, de ventilation et de climatisation (CVC) consomment une quantité important d'énergie dans les bâtiments. Les approches conventionnelles utilisées pour contrôler les systèmes CVC reposent sur un contrôle basé sur des règles (RBC) qui consiste en des règles prédéfinies établies par un expert. Le contrôle prédictif par modèle (MPC), largement exploré dans la littérature, n'est pas adopté par l'industrie car il s'agit d'une approche basée sur un modèle qui nécessite de construire au préalable des modèles du bâtiment qui sont utilisés dans la phase d'optimisation. Cette c
Estilos ABNT, Harvard, Vancouver, APA, etc.
31

Gueguen, Maëlle. "Dynamique intracérébrale de l'apprentissage par renforcement chez l'humain." Thesis, Université Grenoble Alpes (ComUE), 2017. http://www.theses.fr/2017GREAS042/document.

Texto completo da fonte
Resumo:
Chaque jour, nous prenons des décisions impliquant de choisir les options qui nous semblent les plus avantageuses, en nous basant sur nos expériences passées. Toutefois, les mécanismes et les bases neurales de l’apprentissage par renforcement restent débattus. D’une part, certains travaux suggèrent l’existence de deux systèmes opposés impliquant des aires cérébrales corticales et sous-corticales distinctes lorsque l’on apprend par la carotte ou par le bâton. D’autres part, des études ont montré une ségrégation au sein même de ces régions cérébrales ou entre des neurones traitant l’apprentissag
Estilos ABNT, Harvard, Vancouver, APA, etc.
32

Robledo, Relaño Francisco. "Algorithmes d'apprentissage par renforcement avancé pour les problèmes bandits multi-arches." Electronic Thesis or Diss., Pau, 2024. http://www.theses.fr/2024PAUU3021.

Texto completo da fonte
Resumo:
Cette thèse présente des avancées dans les algorithmes d'apprentissage par renforcement (RL) pour la gestion des ressources et des politiques dans les problèmes de bandit multiarmé sans repos (RMAB). Nous développons des algorithmes à travers deux approches dans ce domaine. Premièrement, pour les problèmes avec des actions discrètes et binaires, ce qui est le cas original de RMAB, nous avons développé QWI et QWINN. Ces algorithmes calculent les indices de Whittle, une heuristique qui découple les différents processus RMAB, simplifiant ainsi la détermination de la politique. Deuxièmement, pour
Estilos ABNT, Harvard, Vancouver, APA, etc.
33

Godbout, Mathieu. "Approches par bandit pour la génération automatique de résumés de textes." Master's thesis, Université Laval, 2021. http://hdl.handle.net/20.500.11794/69488.

Texto completo da fonte
Resumo:
Ce mémoire aborde l'utilisation des méthodes par bandit pour résoudre la problématique de l'entraînement de modèles de générations de résumés extractifs. Les modèles extractifs, qui bâtissent des résumés en sélectionnant des phrases d'un document original, sont difficiles à entraîner car le résumé cible correspondant à un document n'est habituellement pas constitué de manière extractive. C'est à cet effet que l'on propose de voir la production de résumés extractifs comme différents problèmes de bandit, lesquels sont accompagnés d'algorithmes pouvant être utilisés pour l'entraînement. On commen
Estilos ABNT, Harvard, Vancouver, APA, etc.
34

Montagne, Fabien. "Une architecture logicielle pour aider un agent apprenant par renforcement." Littoral, 2008. http://www.theses.fr/2008DUNK0198.

Texto completo da fonte
Resumo:
Cette thèse s’inscrit dans le cadre de l’apprentissage par renforcement. L’un des principaux avantages est qu’il ne nécessite pas de connaître explicitement le comportement attendu. Durant son apprentissage, l’agent perçoit des états, reçoit un ensemble de retours et sélectionne des actions. Il adapte son comportement en optimisant la quantité de retour. Néanmoins, le temps de calcul nécessaire peut vite être prohibitif. La nécessité d’explorer son environnement en est la principale raison. Notre approche consiste à utiliser des connaissances externes pour « guider » l’agent dans son explorati
Estilos ABNT, Harvard, Vancouver, APA, etc.
35

Matignon, Laëtitia. "Synthèse d'agents adaptatifs et coopératifs par apprentissage par renforcement : application à la commande d'un système distribué de micromanipulation." Besançon, 2008. http://www.theses.fr/2008BESA2041.

Texto completo da fonte
Resumo:
De nombreuses applications peuvent être formulées en termes de systèmes distribués que ce soit une nécessité face à une distribution physique des entités (réseaux, robotique mobile) ou un moyen adopté face à la complexité d'appréhender un problème de manière globale. A travers l'utilisation conjointe de méthodes dites d'apprentissage par renforcement et des systèmes multi-agents, des agents autonomes coopératifs peuvent apprendre à résoudre de manière décentralisée des problèmes complexes en s'adaptant à ceux-ci afin de réaliser un objectif commun. Les méthodes , d'apprentissage par renforceme
Estilos ABNT, Harvard, Vancouver, APA, etc.
36

Geist, Matthieu. "Optimisation des chaînes de production dans l'industrie sidérurgique : une approche statistique de l'apprentissage par renforcement." Phd thesis, Université de Metz, 2009. http://tel.archives-ouvertes.fr/tel-00441557.

Texto completo da fonte
Resumo:
L'apprentissage par renforcement est la réponse du domaine de l'apprentissage numérique au problème du contrôle optimal. Dans ce paradigme, un agent informatique apprend à contrôler un environnement en interagissant avec ce dernier. Il reçoit régulièrement une information locale de la qualité du contrôle effectué sous la forme d'une récompense numérique (ou signal de renforcement), et son objectif est de maximiser une fonction cumulante de ces récompenses sur le long terme, généralement modélisée par une fonction dite de valeur. Le choix des actions appliquées à l'environnement en fonction de
Estilos ABNT, Harvard, Vancouver, APA, etc.
37

Geist, Matthieu. "Optimisation des chaînes de production dans l'industrie sidérurgique : une approche statistique de l'apprentissage par renforcement." Electronic Thesis or Diss., Metz, 2009. http://www.theses.fr/2009METZ023S.

Texto completo da fonte
Resumo:
L'apprentissage par renforcement est la réponse du domaine de l'apprentissage numérique au problème du contrôle optimal. Dans ce paradigme, un agent informatique apprend à contrôler un environnement en interagissant avec ce dernier. Il reçoit régulièrement une information locale de la qualité du contrôle effectué sous la forme d'une récompense numérique (ou signal de renforcement), et son objectif est de maximiser une fonction cumulante de ces récompenses sur le long terme, généralement modélisée par une fonction dite de valeur. Le choix des actions appliquées à l'environnement en fonction de
Estilos ABNT, Harvard, Vancouver, APA, etc.
38

Zennir, Youcef. "Apprentissage par renforcement et systèmes distribués : application à l'apprentissage de la marche d'un robot hexapode." Lyon, INSA, 2004. http://theses.insa-lyon.fr/publication/2004ISAL0034/these.pdf.

Texto completo da fonte
Resumo:
Le but de cette thèse est d'étudier et de proposer des techniques d'apprentissage par renforcement pour l'apprentissage de la marche d'un robot marcheur hexapode. L'hypothèse sur laquelle repose ce travail est que des marches peuvent être obtenues lorsque la commande des mouvements est distribuée au niveau de chaque patte plutôt que d'être centralisée. Une approche distribuée de l'apprentissage par renforcement de type Q-learning a été retenue dans laquelle les agents (les contrôleurs de mouvement) contribuant à une même tâche mènent leur propre apprentissage en tenant compte ou non de l'exist
Estilos ABNT, Harvard, Vancouver, APA, etc.
39

Leurent, Edouard. "Apprentissage par renforcement sûr et efficace pour la prise de décision comportementale en conduite autonome." Thesis, Lille 1, 2020. http://www.theses.fr/2020LIL1I049.

Texto completo da fonte
Resumo:
Dans cette thèse de doctorat, nous étudions comment des véhicules autonomes peuvent apprendre à garantir la sûreté et à éviter les accidents, bien qu'ils partagent la route avec des conducteurs humains dont les comportements sont incertains. Pour prendre en compte cette incertitude, nous nous appuyons sur les observations en ligne de l'environnement pour construire une région de confiance autour de la dynamique du système, qui est ensuite propagée au cours du temps pour borner l'ensemble des trajectoires possibles des véhicules à proximité. Pour assurer la sûreté en présence de cette incertitu
Estilos ABNT, Harvard, Vancouver, APA, etc.
40

Zennir, Youcef Bétemps Maurice. "Apprentissage par renforcement et systèmes distribués application à l'apprentissage de la marche d'un robot hexapode /." Villeurbanne : Doc'INSA, 2005. http://docinsa.insa-lyon.fr/these/pont.php?id=zennir.

Texto completo da fonte
Estilos ABNT, Harvard, Vancouver, APA, etc.
41

Rodrigues, Christophe. "Apprentissage incrémental des modèles d'action relationnels." Paris 13, 2013. http://scbd-sto.univ-paris13.fr/secure/edgalilee_th_2013_rodrigues.pdf.

Texto completo da fonte
Resumo:
Dans cette thèse, nous nous intéressons à l'apprentissage artificiel pour l'action. Nous nous situons à l'intersection de l'apprentissage par renforcement (AR) et de la programmation logique inductive (PLI). Nous étudions plus précisément l'apprentissage de modèles d'actions. Un modèle d'action décrit les conditions et effets des actions possibles dans un environnement. Il permet d'anticiper les conséquences des actions d'un agent et peut aussi être utilisé par un planificateur. Nous nous intéressons en particulier à une représentation relationnelle des environnements. Nous décrivons alors les
Estilos ABNT, Harvard, Vancouver, APA, etc.
42

Gabillon, Victor. "Algorithmes budgétisés d'itérations sur les politiques obtenues par classification." Thesis, Lille 1, 2014. http://www.theses.fr/2014LIL10032/document.

Texto completo da fonte
Resumo:
Cette thèse étudie une classe d'algorithmes d'apprentissage par renforcement (RL), appelée « itération sur les politiques obtenues par classification » (CBPI). Contrairement aux méthodes standards de RL, CBPI n'utilise pas de représentation explicite de la fonction valeur. CBPI réalise des déroulés (des trajectoires) et estime la fonction action-valeur de la politique courante pour un nombre limité d'états et d'actions. En utilisant un ensemble d'apprentissage construit à partir de ces estimations, la politique gloutonne est apprise comme le produit d'un classificateur. La politique ainsi prod
Estilos ABNT, Harvard, Vancouver, APA, etc.
43

Langlois, Thibault. "Algorithmes d'apprentissage par renforcement pour la commande adaptative : Texte imprimé." Compiègne, 1992. http://www.theses.fr/1992COMPD530.

Texto completo da fonte
Resumo:
Cette thèse présente différentes méthodes d'identification d'une loi de commande pour le contrôle de systèmes dynamiques. Ces méthodes sont basées sur l'utilisation de réseaux de neurones artificiels pour l'approximation de fonctions à partir d'exemples. Une synthèse bibliographique des différentes applications des réseaux de neurones pour le contrôle de processus est présentée. Trois types d'utilisation des réseaux de neurones sont décrits : l'identification directe d'un système ou d'un contrôleur à partir d'exemples, l'identification d'un contrôleur grâce à l'algorithme de «rétropropagation
Estilos ABNT, Harvard, Vancouver, APA, etc.
44

Tournaire, Thomas. "Model-based reinforcement learning for dynamic resource allocation in cloud environments." Electronic Thesis or Diss., Institut polytechnique de Paris, 2022. http://www.theses.fr/2022IPPAS004.

Texto completo da fonte
Resumo:
L'émergence de nouvelles technologies nécessite une allocation efficace des ressources pour satisfaire la demande. Cependant, ces nouveaux besoins nécessitent une puissance de calcul élevée impliquant une plus grande consommation d'énergie notamment dans les infrastructures cloud et data centers. Il est donc essentiel de trouver de nouvelles solutions qui peuvent satisfaire ces besoins tout en réduisant la consommation d'énergie des ressources. Dans cette thèse, nous proposons et comparons de nouvelles solutions d'IA (apprentissage par renforcement RL) pour orchestrer les ressources virtuelles
Estilos ABNT, Harvard, Vancouver, APA, etc.
45

Jouffe, Lionel. "Apprentissage de systèmes d'inférence floue par des méthodes de renforcement : application à la régulation d'ambiance dans un bâtiment d'élevage porcin." Rennes 1, 1997. http://www.theses.fr/1997REN10071.

Texto completo da fonte
Resumo:
Afin de s'adapter à leur environnement, les systemes biologiques supérieurs mettent en jeu des méanismes internes. Parmi ceux-ci, certain entrainent des modifications stables de l'activite psychologique qui constituent alors l'apprentissage. Dans la communaute informatique, l'apprentissage est appréhende comme un calcul, i. E. Une série de modifications des caractéristiques de l'apprenti. Bien entendu, cet apprenti n'est plus un système biologique mais un programme informatique adaptatif. Le type d'apprentissage considéré dans cette thèse s'apparente à celui mis en évidence par les behaviorist
Estilos ABNT, Harvard, Vancouver, APA, etc.
46

Roberty, Adrien. "Ordonnancer le trafic dans des réseaux déterministes grâce à l’apprentissage par renforcement." Electronic Thesis or Diss., Chasseneuil-du-Poitou, Ecole nationale supérieure de mécanique et d'aérotechnique, 2024. http://www.theses.fr/2024ESMA0001.

Texto completo da fonte
Resumo:
L’un des changements les plus perturbateurs apportés par l’industrie 4.0 est la mise en réseau des installations de production. De plus, les discussions portant sur l’Industrie 5.0 montrent la nécessité d’un écosystème industriel intégré, combinant IA et jumeau numérique. Dans cet environnement, les équipements industriels fonctionneront de manière transparente avec les travailleurs humains, nécessitant une latence minimale et une connectivité haut débit pour la surveillance en temps réel. Afin de répondre à ces exigences, l’ensemble de standard Time-Sensitive Networking (TSN) a été introduit.
Estilos ABNT, Harvard, Vancouver, APA, etc.
47

Pamponet, Machado Aydano. "Le transfert adaptatif en apprentissage par renforcement : application à la simulation de schéma de jeux tactiques." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2009. http://tel.archives-ouvertes.fr/tel-00814207.

Texto completo da fonte
Resumo:
Une voie permettant l'accélération l'apprentissage par renforcement est l'exploration à l'aide des connaissances du domaine. La plus part des algorithmes existants, intitulées transfert de connaissance, sont basés sur une hypothèse implicite : la bonne qualité de la connaissance disponible sur la tache courante. Lorsque cette hypothèse n'est pas respectée, les performances se dégradent bien en dessous des celles des méthodes standards. Ce travail de thèse propose des algorithmes de transfert capables de s'adapter à la qualité de la connaissance disponible. Pour le faire, nous introduisons un p
Estilos ABNT, Harvard, Vancouver, APA, etc.
48

Gérard, Pierre. "Systèmes de classeurs : étude de l'apprentissage latent." Paris 6, 2002. http://www.theses.fr/2002PA066155.

Texto completo da fonte
Estilos ABNT, Harvard, Vancouver, APA, etc.
49

Fouladi, Karan. "Recommandation multidimensionnelle d’émissions télévisées par apprentissage : Une interface de visualisation intelligente pour la télévision numérique." Paris 6, 2013. http://www.theses.fr/2013PA066040.

Texto completo da fonte
Resumo:
Le sujet central de cette thèse est l’élaboration d’un Système de Recommandation interfacé par une cartographie interactive des contenus télévisés. Ce système fut réalisé dans le cadre du projet ANR, nommé BUIS, durant la période 2006-2009. Pour ce faire, nous avons choisi d’utiliser un Système de Recommandation basé sur le contenu et l��avons adapté au domaine télévisuel. Cette adaptation s’est effectuée lors de plusieurs étapes spécifiques. Nous avons particulièrement travaillé le traitement des métadonnées associées aux contenus télévisés, en développant un système expert capable de nous fo
Estilos ABNT, Harvard, Vancouver, APA, etc.
50

Carrara, Nicolas. "Reinforcement learning for dialogue systems optimization with user adaptation." Thesis, Lille 1, 2019. http://www.theses.fr/2019LIL1I071/document.

Texto completo da fonte
Resumo:
Les systèmes d’intelligence artificielle les plus puissants utilisent désormais des modèles statistiques. Afin de construire des modèles efficaces, ces systèmes doivent collecter une quantité substantielle de données issues de l’environnement. Les assistants personnels, maisons connectées, serveurs vocaux et autres systèmes de dialogue ne font pas exception. Ces systèmes ont pour vocation d’interagir avec des humains, et pour cela, leurs données d’apprentissage se doivent d’être collectées avec ces mêmes humains. Parce que le nombre d’interactions avec une seule personne est assez faible, l’ap
Estilos ABNT, Harvard, Vancouver, APA, etc.
Oferecemos descontos em todos os planos premium para autores cujas obras estão incluídas em seleções literárias temáticas. Contate-nos para obter um código promocional único!