Gotowa bibliografia na temat „Apprentissage par renforcement profond multi-agent”

Utwórz poprawne odniesienie w stylach APA, MLA, Chicago, Harvard i wielu innych

Wybierz rodzaj źródła:

Zobacz listy aktualnych artykułów, książek, rozpraw, streszczeń i innych źródeł naukowych na temat „Apprentissage par renforcement profond multi-agent”.

Przycisk „Dodaj do bibliografii” jest dostępny obok każdej pracy w bibliografii. Użyj go – a my automatycznie utworzymy odniesienie bibliograficzne do wybranej pracy w stylu cytowania, którego potrzebujesz: APA, MLA, Harvard, Chicago, Vancouver itp.

Możesz również pobrać pełny tekst publikacji naukowej w formacie „.pdf” i przeczytać adnotację do pracy online, jeśli odpowiednie parametry są dostępne w metadanych.

Artykuły w czasopismach na temat "Apprentissage par renforcement profond multi-agent"

1

Host, Shirley, i Nicolas Sabouret. "Apprentissage par renforcement d'actes de communication dans un système multi-agent". Revue d'intelligence artificielle 24, nr 2 (17.04.2010): 159–88. http://dx.doi.org/10.3166/ria.24.159-188.

Pełny tekst źródła
Style APA, Harvard, Vancouver, ISO itp.

Rozprawy doktorskie na temat "Apprentissage par renforcement profond multi-agent"

1

Pageaud, Simon. "SmartGov : architecture générique pour la co-construction de politiques urbaines basée sur l'apprentissage par renforcement multi-agent". Thesis, Lyon, 2019. http://www.theses.fr/2019LYSE1128.

Pełny tekst źródła
Streszczenie:
Dans cette thèse, nous proposons un outil SmartGov, mixant simulation multi-agents et apprentissage multi-agents par renforcement profond, pour permettre la co-construction de politiques urbaines et inscrire les acteurs de la ville dans la boucle de conception. La Smart City permet à l’outil d’intégrer les données collectées par les capteurs présents dans la ville pour la modéliser de façon réaliste. Notre première contribution est une architecture générique pour construire une simulation multi-agents représentant la ville, et étudier l’émergence de comportement globaux avec des agents réalistes capables de réagir aux décisions politiques. Grâce à une modélisation multi-niveaux, et le couplage de différentes dynamiques, le système apprend les spécificités de l’environnement pour proposer des politiques pertinentes. Notre seconde contribution concerne l'autonomie et l'adaptation de la couche décisionnelle avec un apprentissage par renforcement multi-agents et multi-niveaux. Un ensemble d'agents, regroupés en clusters, est distribué dans le périmètre étudié pour apprendre des spécificités locales sans connaissance a priori de son environnement. L’attribution d’un score de confiance et de récompenses individuelles permettent d'atténuer l'impact de la non-stationnarité sur la réutilisation d'expériences nécessaire à l'apprentissage profond. Ces contributions conduisent à un système complet de co-construction de politiques urbaines dans le contexte de la Smart City. Nous comparons notre modèle avec d'autres approches de la littérature sur une politique de tarification du stationnement urbain, afin de mettre en évidence les apports et les limites de nos contributions
In this thesis, we propose the SmartGov model, coupling multi-agent simulation and multi-agent deep reinforcement learning, to help co-construct urban policies and integrate all stakeholders in the decision process. Smart Cities provide sensor data from the urban areas to increase realism of the simulation in SmartGov.Our first contribution is a generic architecture for multi-agent simulation of the city to study global behavior emergence with realistic agents reacting to political decisions. With a multi-level modeling and a coupling of different dynamics, our tool learns environment specificities and suggests relevant policies. Our second contribution improves autonomy and adaptation of the decision function with multi-agent, multi-level reinforcement learning. A set of clustered agents is distributed over the studied area to learn local specificities without any prior knowledge on the environment. Trust score assignment and individual rewards help reduce non-stationary impact on experience replay in deep reinforcement learning.These contributions bring forth a complete system to co-construct urban policies in the Smart City. We compare our model with different approaches from the literature on a parking fee policy to display the benefits and limits of our contributions
Style APA, Harvard, Vancouver, ISO itp.
2

Tréca, Maxime. "Designing traffic signal control systems using reinforcement learning". Electronic Thesis or Diss., université Paris-Saclay, 2022. http://www.theses.fr/2022UPASG043.

Pełny tekst źródła
Streszczenie:
Ces travaux de thèse étudient en détail la problématique d'optimisation du trafic par le biais du contrôle des feux de signalisation d'un réseau routier. Cette optimisation passe par l'utilisation de techniques d'apprentissage par renforcement, branche du machine learning permettant à un agent de résoudre une tâche dans un environment en maximisant ses signaux de récompenses.Dans un premier temps, les champs respectifs du contrôle de feux et de l'apprentissage par renforcement sont présentés, permettant ensuite d'introduire le domaine du contrôle de feu par apprentissage par renforcement. Dans un second temps, nous définissons un modèle mathématique du trafic utilisant des notions de théorie des graphes, ainsi que le modèle d'apprentissage, le simulateur de trafic et la librairie d'apprentissage par renforcement spécialement définie pour nos expérimentations. Dans un troisième et dernier temps, ces définitions nous permettent de construire une méthode d'optimisation du trafic performante.Nous étudions premièrement différentes méthodes d'apprentissage par renforcement sur une intersection isolée. Plusieurs grandes familles d'algorithmes (Q-learning, LRP, acteur-critique) sont comparés à des méthodes deterministes. Nous introduisons ensuite des méthodes d'approximation par réseau de neurones profonds, permettant d'augmenter sensiblement la performance de ces méthodes sur une intersection seule. Ces expérimentations nous permettent alors d'isoler le double deep Q-learning (DDQN) comme la méthode la plus adaptée pour le contrôle de feux.Sur cette base, nous introduisons ensuite le concept de coordination dans un système multi-agents d'apprentissage par renforcement (MARL). Là encore, plusieurs modes de coordination sont comparées à la méthode isolée définie précédemment. Plus particulièrement, nous définissons une nouvelle méthode, DEC-DQN, qui permet à plusieurs agents d'une POMDP de communiquer afin de mieux optimiser le trafic routier. DEC-DQN utilise un réseau de neurone commun à tous les agents du système, ce qui leur permet d'apprendre eux-même la meilleure façon de communiquer. Afin de correctement récompenser les actions de communication de chaque agent, qui sont distinctes de leurs actions d'optimisation du trafic par le contrôle de feux, DEC-DQN définit une fonction de récompense qui permet à chaque agent d'estimer l'effet de son action de communication sur les agents voisins. Cette estimation se fait directement à l'aide des réseaux de neurones servant au choix d'actions d'optimisation des intersections voisines.Cette nouvelle méthode de coordination est finalement comparée à d'autres méthodes de coordination phares de la litérature. La méthode DEC-DQN permet un apprentissage accéleré du routage de trafic par les agents, tout en montrant des performances et stabilité supérieures aux autres méthodes testées
This thesis studies the problem of traffic optimization through traffic light signals on road networks. Traffic optimization is achieved in our case through the use of reinforcement learning, a branch of machine learning in which an agent solves a given task in an environment by maximizing its reward signals.First, we present the fields of traffic signal control (TSC) and reinforcement learning (RL) separately, before presenting how the latter is applied on the former (RL-TSC). Then, we define a mathematical model of traffic based on graph theory, before introducing the reinforcement learning model, traffic simulator and deep reinforcement learning library created for our research work.Finally, these definitions allow us to build an efficient traffic signal control method based on reinforcement learning.We first study multiple classical reinforcement learning techniques on an isolated traffic intersection. Multiple classes of RL algorithms are compared (e.g. Q-learning, LRP, actor-critic) to deterministic TSC methods used as a baseline. We then introduce function approximation methods using deep neural networks, allowing for significant performance improvement on isolated intersections. These experiments allow us to single out dueling deep Q-learning as the best isolated RL-TSC method for out model.On this basis, we introduce the concept of agent coordination in multi-agent reinforcement learning systems (MARL). We compare multiple modes of coordinaiton to the isolated baseline that we previously defined. These experiments allow us to define the DEC-DQN coordination method, which allows for multiple agents of a POMDP to communicate in order to better optimize traffic. DEC-DQN uses a deep neural network shared by all agents of the network, allowing them to learn a common communication protocol from scratch. In order to correctly reward communication actions, which are entirely distinct from traffic optimization actions taken by agents, DEC-DQN defines a special reward function allowing each agent to directly estimate the impact of its communications on neighboring agents of the network. Communicaiton action rewards are directly estimated on the traffic optimization neural networks of neighboring intersections.Finally, this novel cooridnation method is compared to other methods of the literature on a large-scale simulation. The DEC-DQN algorithm results in faster agent learning, as well as increased performance and stability thanks to agent coordination
Style APA, Harvard, Vancouver, ISO itp.
3

Nguyen, Van-Thai. "AI-based maintenance planning for multi-component systems considering different kinds of dependencies". Electronic Thesis or Diss., Université de Lorraine, 2023. http://www.theses.fr/2023LORR0070.

Pełny tekst źródła
Streszczenie:
Le maintien en condition opérationnel de systèmes industriels reste un challenge important en regard des dépendances multiples entre composants (ex. dépendance économique, stochastique et structurelle) et du grand nombre de variables de décision en maintenance à optimiser.Pour faire face à ce défi, cette thèse vise à proposer une approche d'optimisation de la maintenance basée sur l'intelligence artificielle permettant de prendre en compte différents types de dépendances entre composants. En particulier, l'approche de maintenance proposée intègre un modèle de prédiction basé sur des réseaux des neurones, pour l'estimation des coûts de maintenance au niveau du système sans avoir besoin des coûts individuels au niveau des composants, dans le cadre de l'apprentissage par renforcement profond multi-agents, qui peut être appliqué à la décision séquentielle de grande échelle, afin d'optimiser les décisions en maintenance. En outre, un nouveau modèle de dépendance d'états entre composants est également développé et ensuite intégré dans l'approche de maintenance proposée. De nombreux études numériques sont menées sur des systèmes avec différentes configurations sous différents scénarios d'observabilité pour étudier la performance et les avantages ainsi que des limites de l'approche de maintenance proposée
Maintenance planning for systems consisting of multiple components has still been a challenging problem. Particularly, mathematically describing dependencies between components is usually a complicated task, however, omitting component dependencies in maintenance modeling might result in suboptimal plans. Moreover, the number of maintenance decision variables needed to be optimized increases rapidly in the number of components, causing computational expense for optimization algorithms.To face these issues, this PhD aims to propose an artificial-intelligence-based maintenance optimization approach allowing to consider different kinds of dependencies between components (i.e., economic, stochastic, and structural dependence). Particularly, the maintenance approach integrates a deep maintenance cost model, that allows to compute maintenance costs at system level without requiring individual costs at component level (e.g., setup costs, labor costs and costs of maintaining each component), into the framework of multi-agent deep reinforcement learning, which can be applicable for large sequential decision-making problems, to optimize maintenance decisions. Moreover, a novel degradation interaction model for discrete- state components is also developed and then integrated into the proposed maintenance approach. Numerical studied are conducted on multi-component systems with different configurations under different observability scenarios to investigate the performance and the advantage as well as limits of the proposed maintenance approach
Style APA, Harvard, Vancouver, ISO itp.
4

Tran, Trung-Minh. "Contributions to Agent-Based Modeling and Its Application in Financial Market". Electronic Thesis or Diss., Université Paris sciences et lettres, 2023. http://www.theses.fr/2023UPSLP022.

Pełny tekst źródła
Streszczenie:
L'analyse de modèles complexes tels que les marchés financiers aide les gestionnaires à élaborer des politiques raisonnables et les commerçants à choisir des stratégies de négociation efficaces. La modélisation basée sur les agents est une méthodologie de calcul pour modéliser des systèmes complexes et analyser l'influence de différentes hypothèses sur les comportements des agents. Dans le cadre de cette thèse, nous considérons un modèle de marché financier qui comprend 3 types d'agents : les agents techniques, les agents fondamentaux et les agents de bruit. Nous commençons par l'agent technique avec le défi d'optimiser une stratégie de trading basée sur l'analyse technique à travers un système de trading automatisé. Ensuite, les méthodes d'optimisation proposées sont appliquées avec des fonctions objectives appropriées pour optimiser les paramètres du modèle ABM. L'étude a été menée avec un modèle ABM simple incluant uniquement des agents de bruit, puis le modèle a été étendu pour inclure différents types d'agents. La première partie de la thèse étudie le comportement commercial des agents techniques. Différentes approches sont introduites telles que : l'algorithme génétique, l'optimisation bayésienne et l'apprentissage par renforcement profond. Les stratégies de trading sont construites sur la base d'un indicateur avancé, Relative Strength Index, et de deux indicateurs retardés, Bollinger Band et Moving Average Convergence-Divergence. De multiples expériences sont réalisées sur différents marchés, notamment : le marché des crypto-monnaies, le marché boursier et le marché des contrats à terme cryptographiques. Les résultats montrent que les stratégies optimisées à partir des approches proposées peuvent générer des rendements plus élevés que leur forme typique et la stratégie Buy and Hold. En utilisant les résultats de l'optimisation des stratégies de trading, nous proposons une nouvelle approche pour optimiser les paramètres du modèle à base d'agents. La deuxième partie de la thèse présente une application de la modélisation multiagents au marché boursier. En conséquence, nous avons montré que les modèles ABM peuvent être optimisés en utilisant la méthode d'optimisation bayésienne avec plusieurs fonctions objectives. Les faits stylisés du marché réel peuvent être reproduits en construisant soigneusement les fonctions objectives de l'agent. Notre travail comprend le développement d'un environnement, les comportements des différents agents et leurs interactions. La méthode d'optimisation bayésienne avec le test de Kolmogorov-Smirnov comme fonction objective a montré des avantages et un potentiel dans l'estimation d'un ensemble optimal de paramètres pour un modèle de marché financier artificiel. Le modèle que nous proposons est capable de reproduire les faits stylisés du marché réel. En outre, un nouveau fait stylisé sur la proportion de commerçants sur le marché est présenté. Avec les données empiriques de l'indice Dow Jones Industrial Average, nous avons constaté que les traders fondamentaux représentent 9%-11% de tous les traders du marché boursier. À l'avenir, davantage de recherches seront menées pour améliorer le modèle et les méthodes d'optimisation, telles que l'application de modèles d'apprentissage automatique, l'apprentissage par renforcement multiagents ou l'examen de l'application sur différents marchés et instruments négociés
The analysis of complex models such as financial markets helps managers to make reasonable policies and traders to choose effective trading strategies. Agent-based modeling is a computational methodology to model complex systems and analyze the influence of different assumptions on the behaviors of agents. In the scope of this thesis, we consider a financial market model that includes 3 types of agent: technical agents, fundamental agents and noise agents. We start with the technical agent with the challenge of optimizing a trading strategy based on technical analysis through an automated trading system. Then, the proposed optimization methods are applied with suitable objective functions to optimize the parameters for the ABM model. The study was conducted with a simple ABM model including only noise agents, then the model was extended to include different types of agents. The first part of the thesis investigates the trading behavior of technical agents. Different approaches are introduced such as: Genetic Algorithm, Bayesian Optimization and Deep Reinforcement Learning. The trading strategies are built based on a leading indicator, Relative Strength Index, and two lagging indicators, Bollinger Band and Moving Average Convergence-Divergence. Multiple experiments are performed in different markets including: cryptocurrency market, stock market and crypto futures market. The results show that optimized strategies from proposed approaches can generate higher returns than their typical form and Buy and Hold strategy. Using the results from the optimization of trading strategies, we propose a new approach to optimize the parameters of the agent-based model. The second part of the thesis presents an application of agent-based modeling to the stock market. As a result, we have shown that ABM models can be optimized using the Bayesian Optimization method with multiple objective functions. The stylized facts of the actual market can be reproduced by carefully constructing the objective functions of the agent. Our work includes the development of an environment, the behaviors of different agents and their interactions. Bayesian optimization method with Kolmogorov-Smirnov test as objective function has shown advantages and potential in estimating an optimal set of parameters for an artificial financial market model. The model we propose is capable of reproducing the stylized facts of the real market. Furthermore, a new stylized fact about the proportion of traders in the market is presented. With empirical data of the Dow Jones Industrial Average index, we found that fundamental traders account for 9%-11% of all traders in the stock market. In the future, more research will be done to improve the model and optimization methods, such as applying machine learning models, multi-agent reinforcement learning or considering the application in different markets and traded instruments
Style APA, Harvard, Vancouver, ISO itp.
5

Alliche, Abderrahmane Redha. "Contrôle du réseau cloud basé intelligence artificielle". Electronic Thesis or Diss., Université Côte d'Azur, 2024. http://www.theses.fr/2024COAZ4022.

Pełny tekst źródła
Streszczenie:
L'explosion du nombre d'utilisateurs d'Internet et du volume de trafic constitue un défi majeur pour la gestion efficace des réseaux de diffusion de contenu (CDN). Bien que ces réseaux aient amélioré leur temps de réponse en exploitant la mise en cache dans des serveurs cloud proches des utilisateurs, les services non mis en cache continuent de poser des problèmes de gestion de trafic. Pour répondre à cette problématique, les réseaux overlay cloud ont émergé, mais ils introduisent des complexités telles que les violations d'inégalités triangulaires (TIV). Dans ce contexte, l'application du paradigme des réseaux à définition logicielle (SDN) combinée aux techniques d'apprentissage par renforcement profond (DRL) offre une opportunité prometteuse pour s'adapter en temps réel aux fluctuations de l'environnement. Face à l'augmentation constante du nombre de serveurs edge, les solutions distribuées de DRL, notamment les modèles d'apprentissage par renforcement profond multi-agent (MA-DRL), deviennent cruciales. Cependant, ces modèles rencontrent des défis non résolus tels que l'absence de simulateurs réseau réalistes, le surcoût de communication entre agents et la convergence et stabilité.Cette thèse se concentre donc sur l'exploration des méthodes MA-DRL pour le routage de paquets dans les réseaux overlay cloud. Elle propose des solutions pour relever ces défis, notamment le développement de simulateurs de réseau réalistes, l'étude du surcoût de communication et la conception d'une solution MA-DRL adaptée aux réseaux overlay cloud. L'accent est mis sur le compromis entre la performance et la quantité d'information partagée entre les agents, ainsi que sur la convergence et la stabilité durant l'entraînement
The exponential growth of Internet traffic in recent decades has prompted the emergence of Content Delivery Networks (CDNs) as a solution for managing high traffic volumes through data caching in cloud servers located near end-users. However, challenges persist, particularly for non-cacheable services, necessitating the use of cloud overlay networks. Due to a lack of knowledge about the underlay network, cloud overlay networks introduce complexities such as Triangle inequality violations (TIV) and dynamic traffic routing challenges.Leveraging the Software Defined Networks (SDN) paradigm, Deep Reinforcement Learning (DRL) techniques offer the possibility to exploit collected data to better adapt to network changes. Furthermore, the increase of cloud edge servers presents scalability challenges, motivating the exploration of Multi-Agent DRL (MA-DRL) solutions. Despite its suitability for the distributed packet routing problem in cloud overlay networks, MA-DRL faces non-addressed challenges such as the need for realistic network simulators, handling communication overhead, and addressing the multi-objective nature of the routing problem.This Ph.D. thesis delves into the realm of distributed Multi-Agent Deep Reinforcement Learning (MA-DRL) methods, specifically targeting the Distributed Packet Routing problem in cloud overlay networks. Throughout the thesis, we address these challenges by developing realistic network simulators, studying communication overhead in the non-overlay general setting, and proposing a distributed MA-DRL framework tailored to cloud overlay networks, focusing on communication overhead, convergence, and model stability
Style APA, Harvard, Vancouver, ISO itp.
6

Younes, Walid. "Un système multi-agent pour la composition logicielle opportuniste en environnement ambiant et dynamique". Thesis, Toulouse 3, 2021. http://www.theses.fr/2021TOU30025.

Pełny tekst źródła
Streszczenie:
Les systèmes cyber-physiques et ambiants sont constitués d'appareils fixes ou mobiles reliés par des réseaux de communication. Ces appareils hébergent des composants logiciels qui fournissent des services et peuvent nécessiter d'autres services pour fonctionner. Ces composants logiciels sont généralement développés, installés et activés indépendamment les uns des autres et, avec la mobilité des utilisateurs et des appareils, ils peuvent apparaître ou disparaître avec une dynamique imprévisible. Ceci donne aux systèmes cyber-physiques et ambiants une nature ouverte et changeante. Les composants logiciels sont des briques que l'on peut assembler pour former des applications mais, dans un tel contexte de dynamique et d'ouverture, les assemblages de composants sont difficiles à concevoir, à maintenir et à adapter. Les applications sont utilisées par des humains qui sont donc au cœur de ces systèmes. L'intelligence ambiante vise à leur offrir un environnement personnalisé adapté à la situation, c'est-à-dire à fournir la bonne application au bon moment, en anticipant leurs besoins, qui peuvent aussi changer dans le temps. Pour répondre à ces problèmes, notre équipe explore une approche originale appelée "composition logicielle opportuniste" qui consiste à construire automatiquement des applications à la volée à partir des composants disponibles sur le moment dans l'environnement, sans s'appuyer sur des besoins explicites de l'utilisateur ni sur des plans d'assemblage prédéfinis. Ainsi, les applications émergent de l'environnement, en tirant parti des opportunités au fur et à mesure qu'elles se présentent. Cette thèse définit une architecture logicielle pour la composition logicielle opportuniste et propose un système intelligent, appelé "moteur" de composition opportuniste, afin de construire automatiquement des applications pertinentes, à la fois adaptées à l'utilisateur et à l'environnement ambiant. Le moteur de composition opportuniste détecte périodiquement les composants et leurs services présents dans l'environnement ambiant, construit des assemblages de composants et les propose à l'utilisateur. Il apprend automatiquement les préférences de l'utilisateur en fonction de la situation afin de maximiser ultérieurement sa satisfaction. L'apprentissage se fait en ligne par renforcement. Il est décentralisé au sein d'un système multi-agent dans lequel les agents interagissent via un protocole qui prend en charge la découverte et la sélection dynamique de services. Pour apprendre de l'utilisateur et pour l'utilisateur, ce dernier est mis dans la boucle. Ainsi, il garde le contrôle sur son environnement ambiant, et décide de la pertinence de l'application émergente avant qu'elle ne soit déployée. La solution a été implémentée et expérimentée. Elle fonctionne de manière couplée avec une interface qui décrit les applications émergentes à l'utilisateur et lui permet de les modifier. Les actions de l'utilisateur sur cette interface sont sources de feedback pour le moteur et servent à alimenter le mécanisme d'apprentissage par renforcement
Cyber-physical and ambient systems consist of fixed or mobile devices connected through communication networks. These devices host software components that provide services and may require other services to operate. These software components are usually developed, installed, and activated independently of each other and, with the mobility of users and devices, they may appear or disappear unpredictably. This gives cyber-physical and ambient systems an open and changing character. Software components are bricks that can be assembled to form applications. But, in such a dynamic and open context, component assemblies are difficult to design, maintain and adapt. Applications are used by humans who are at the heart of these systems. Ambient intelligence aims to offer them a personalized environment adapted to the situation, i.e. to provide the right application at the right time, anticipating their needs, which may also vary and evolve over time. To answer these problems, our team is exploring an original approach called "opportunistic software composition", which consists in automatically building applications on the fly from components currently available in the environment, without relying on explicit user needs or predefined assembly plans. In this way, applications emerge from the environment, taking advantage of opportunities as they arise. This thesis defines a software architecture for opportunistic software composition and proposes an intelligent system, called "opportunistic composition engine", in order to automatically build relevant applications, both adapted to the user and to the surrounding environment. The opportunistic composition engine periodically detects the components and their services that are present in the ambient environment, builds assemblies of components, and proposes them to the user. It automatically learns the user's preferences according to the situation in order to maximize user satisfaction over time. Learning is done online by reinforcement. It is decentralized within a multi-agent system in which agents interact via a protocol that supports dynamic service discovery and selection. To learn from and for the user, the latter is put in the loop. In this way, he keeps control over his ambient environment, and decides on the relevance of the emerging application before it is deployed. The solution has been implemented and tested. It works in conjunction with an interface that describes the emerging applications to the user and allows him to edit them. The user's actions on this interface are sources of feedback for the engine and serve as an input to the reinforcement learning mechanism
Style APA, Harvard, Vancouver, ISO itp.
7

Robaglia, Benoît-Marie. "Reinforcement Learning for Uncoordinated Multiple Access". Electronic Thesis or Diss., Institut polytechnique de Paris, 2024. http://www.theses.fr/2024IPPAT010.

Pełny tekst źródła
Streszczenie:
Les protocoles de contrôle d'accès au support (MAC) distribués sont fondamentaux dans la communication sans fil, mais les protocoles traditionnels basés sur l'accès aléatoire sont confrontés à des limitations importantes dans le cas d'utilisation de l'internet des objets (IoT). En effet, ils ont du mal à garantir la latence, ce qui les rend inadaptés aux communications ultra-fiables à faible latence (URLLC). Cette thèse aborde ces défis en exploitant le potentiel de l'apprentissage par renforcement profond (DRL), un paradigme dans lequel les agents optimisent leurs actions en interagissant avec un environnement.Cette thèse aborde les principaux défis du problème de l'accès multiple (MA) pour les réseaux URLLC, incluant la latence des protocoles centralisés, les collisions et retransmissions des protocoles sans allocation (GF) ainsi que les complexités pour gérer l'hétérogénéité des appareils et les environnements dynamiques. En outre, la thèse explore l'intégration de nouvelles techniques de couche physique comme l'accès multiple non orthogonal (NOMA).Notre méthodologie applique le DRL pour développer des protocoles intelligents, qui ont déjà montré leur efficacité dans les applications IoT. Dans un premier temps, nous modélisons le problème de l'URLLC dans un paradigme centralisé, où la station de base (BS) orchestre les transmissions des appareils. Cette configuration présente l'avantage d'assurer une communication sans collision, mais introduit une observabilité partielle, car la station de base n'a pas accès à la mémoire et à l'état du canal des utilisateurs. Nous nous attaquons à ce problème en introduisant deux algorithmes : FilteredPPO et NOMA-PPO. Alors que le premier surpasse les algorithmes de référence dans les scénarios avec trafic périodique, le second démontre une performance supérieure à l'état de l'art dans les scénarios avec trafic sporadique. Les troisième et quatrième contributions, SeqDQN et MCA-PPO, étudient l'application de l'apprentissage par renforcement multi-agents (MARL) pour l'URLLC où chaque appareil est équipé d'un algorithme DRL. Alors que SeqDQN explore une méthode pour réduire la non-stationnarité et améliore la scalabilité et l'apprentissage, MCA-PPO présente une solution théoriquement robuste pour le défi de l'accès dynamique multicanal (DMCA) permettant aux utilisateurs d'optimiser l'utilisation de la bande passante et donc d'améliorer les performances URLLC
Distributed Medium Access Control (MAC) protocols are fundamental in wireless communication, yet traditional random access-based protocols face significant limitations dealing with the Internet-of-Things (IoT) use cases. Indeed, they struggle with latency guarantees, making them unsuitable for Ultra Reliable Low Latency Communications (URLLC). This thesis addresses these challenges by leveraging the potential of Deep Reinforcement Learning (DRL), a paradigm where decision-makers optimize actions by interacting with an environment.This thesis tackles key challenges in the Medium Access (MA) problem for URLLC networks, including the latency in centralized protocols, the collision and retransmission issues in Grant-Free (GF) protocols, the complexities to handle device heterogeneity and dynamic environments. Furthermore, the thesis explores the integration of new physical layer techniques like Non-Orthogonal Multiple Access (NOMA).Our methodology applies DRL to develop intelligent protocols, which has already shown effectiveness in addressing IoT applications. Initially, we model the URLLC problem within a centralized paradigm, where the Base Station (BS) orchestrates device transmissions. This setup has the benefit to ensure collision-free communication but introduces partial observability as the BS does not have access to the users' buffer and channel state. We tackle this problem by introducing two algorithms: FilteredPPO and NOMA-PPO. While the former outperforms the benchmarks in scenarios with periodic traffic patterns, the latter demonstrates superior performance over the state-of-the-art baselines on scenarios with sporadic traffic. The third and fourth contributions, SeqDQN and MCA-PPO, study the application of Multi-Agent Reinforcement Learning (MARL) for URLLC where each device is equipped by a DRL algorithm. While SeqDQN explores a method to reduce non-stationarity and enhances scalability and training efficiency, MCA-PPO presents a theoretically robust solution for the Dynamic Multi-Channel Access (DMCA) challenge allowing users to optimize bandwidth utilization, and thus enhancing the URLLC performance
Style APA, Harvard, Vancouver, ISO itp.
8

Bono, Guillaume. "Deep multi-agent reinforcement learning for dynamic and stochastic vehicle routing problems". Thesis, Lyon, 2020. http://www.theses.fr/2020LYSEI096.

Pełny tekst źródła
Streszczenie:
La planification de tournées de véhicules dans des environnements urbains denses est un problème difficile qui nécessite des solutions robustes et flexibles. Les approches existantes pour résoudre ces problèmes de planification de tournées dynamiques et stochastiques (DS-VRPs) sont souvent basés sur les mêmes heuristiques utilisées dans le cas statique et déterministe, en figeant le problème à chaque fois que la situation évolue. Au lieu de cela, nous proposons dans cette thèse d’étudier l’application de méthodes d’apprentissage par renforcement multi-agent (MARL) aux DS-VRPs en s’appuyant sur des réseaux de neurones profonds (DNNs). Plus précisément, nous avons d’abord contribuer à étendre les méthodes basées sur le gradient de la politique (PG) aux cadres des processus de décision de Markov (MDPs) partiellement observables et décentralisés (Dec-POMDPs). Nous avons ensuite proposé un nouveau modèle de décision séquentiel en relâchant la contrainte d’observabilité partielle que nous avons baptisé MDP multi-agent séquentiel (sMMDP). Ce modèle permet de décrire plus naturellement les DS-VRPs, dans lesquels les véhicules prennent la décision de servir leurs prochains clients à l’issu de leurs précédents services, sans avoir à attendre les autres. Pour représenter nos solutions, des politiques stochastiques fournissant aux véhicules des règles de décisions, nous avons développé une architecture de DNN basée sur des mécanismes d’attention (MARDAM). Nous avons évalué MARDAM sur un ensemble de bancs de test artificiels qui nous ont permis de valider la qualité des solutions obtenues, la robustesse et la flexibilité de notre approche dans un contexte dynamique et stochastique, ainsi que sa capacité à généraliser à toute une classe de problèmes sans avoir à être ré-entraînée. Nous avons également développé un banc de test plus réaliste à base d’une simulation micro-traffic, et présenté une preuve de concept de l’applicabilité de MARDAM face à une variété de situations différentes
Routing delivery vehicles in dynamic and uncertain environments like dense city centers is a challenging task, which requires robustness and flexibility. Such logistic problems are usually formalized as Dynamic and Stochastic Vehicle Routing Problems (DS-VRPs) with a variety of additional operational constraints, such as Capacitated vehicles or Time Windows (DS-CVRPTWs). Main heuristic approaches to dynamic and stochastic problems simply consist in restarting the optimization process on a frozen (static and deterministic) version of the problem given the new information. Instead, Reinforcement Learning (RL) offers models such as Markov Decision Processes (MDPs) which naturally describe the evolution of stochastic and dynamic systems. Their application to more complex problems has been facilitated by recent progresses in Deep Neural Networks, which can learn to represent a large class of functions in high dimensional spaces to approximate solutions with high performances. Finding a compact and sufficiently expressive state representation is the key challenge in applying RL to VRPs. Recent work exploring this novel approach demonstrated the capabilities of Attention Mechanisms to represent sets of customers and learn policies generalizing to different configurations of customers. However, all existing work using DNNs reframe the VRP as a single-vehicle problem and cannot provide online decision rules for a fleet of vehicles.In this thesis, we study how to apply Deep RL methods to rich DS-VRPs as multi-agent systems. We first explore the class of policy-based approaches in Multi-Agent RL and Actor-Critic methods for Decentralized, Partially Observable MDPs in the Centralized Training for Decentralized Control (CTDC) paradigm. To address DS-VRPs, we then introduce a new sequential multi-agent model we call sMMDP. This fully observable model is designed to capture the fact that consequences of decisions can be predicted in isolation. Afterwards, we use it to model a rich DS-VRP and propose a new modular policy network to represent the state of the customers and the vehicles in this new model, called MARDAM. It provides online decision rules adapted to the information contained in the state and takes advantage of the structural properties of the model. Finally, we develop a set of artificial benchmarks to evaluate the flexibility, the robustness and the generalization capabilities of MARDAM. We report promising results in the dynamic and stochastic case, which demonstrate the capacity of MARDAM to address varying scenarios with no re-optimization, adapting to new customers and unexpected delays caused by stochastic travel times. We also implement an additional benchmark based on micro-traffic simulation to better capture the dynamics of a real city and its road infrastructures. We report preliminary results as a proof of concept that MARDAM can learn to represent different scenarios, handle varying traffic conditions, and customers configurations
Style APA, Harvard, Vancouver, ISO itp.
9

Basso, Gillian. "Approche à base d'agents pour l'ingénierie et le contrôle de micro-réseaux". Phd thesis, Université de Technologie de Belfort-Montbeliard, 2013. http://tel.archives-ouvertes.fr/tel-00982342.

Pełny tekst źródła
Streszczenie:
La gestion d'énergie est un sujet de plus en plus important dans notre société. Nous faisons actuellement face à un nombre croissant de problèmes tels que l'épuisement des réserves pétrolières, le réchauffement climatique ou encore la diminution de la qualité de l'énergie (principalement due aux coupures pendant les pics de consommation). Les smartgrids sont une des solutions à ces problèmes. En ajoutant une communication bidirectionnelle et de nouvelles capacités en matière de technologies de l'information et de la communication, il est possible de créer un système autonome de gestion intelligente de l'énergie.Les travaux décrits dans ce mémoire s'intéressent particulièrement à la gestion des microgrids à l'aide de systèmes multi-agents (SMA). Les microgrids sont des réseaux de faibles puissances, composés de petits producteurs d'énergie décentralisés (éventuellement renouvelables) et de consommateurs. Ces réseaux peuvent être reliés (ou non) au réseau global ce qui ajoute à leur complexité. De par leurs complexités et leurs répartitions géographiques, les smartgrids, comme les microgrids, ne peuvent pas être gérés facilement par des systèmes centralisés. Les intelligences artificielles distribuées et plus particulièrement les SMA apparaissent comme un moyen cohérent de résoudre les problèmes liés aux smartgrids.Dans un premier temps, nous avons défini une approche mettant en oeuvre des boucles de rétroaction. Une boucle de rétroaction apparaît dans les systèmes complexes qui peuvent être définis avec plusieurs niveaux d'abstraction. Deux niveaux sont ainsi en interaction. Le niveau micro regroupe un ensemble d'agents ayant des comportements qui, une fois combinés, influeront sur l'état du système. Le niveau macro traite ces influences pour définir un nouvel état du système qui influera sur le comportement des agents du niveau micro. Cette boucle de rétroaction permet de séparer les comportements sur plusieurs niveaux.Cette approche est utilisée pour définir un problème de gestion offre-demande dans un microgrid. Ce problème permet de prendre en compte un ensemble d'objectifs qui sont actuellement traités de manière indépendante. Enfin, une application utilisant un SMA a été développée. Cette approche peut s'intégrer dans ce problème. Elle a pour but d'assurer la stabilité du réseau à tout instant grâce au contrôle de systèmes de stockage.Dans un second temps, un simulateur de réseau électrique permettant le contrôle dynamique des périphériques a été développé. Ce simulateur repose sur trois grands principes. Le premier est une modélisation à base d'agents du simulateur lui-même, pour représenter la complexité des réseaux électriques. Le second principe repose sur l'utilisation du paradigme holonique afin de prendre en compte les multiples niveaux inhérents aux réseaux électriques. Enfin, le troisième principe est inspiré du modelé influence/réaction et propose une technique qui permet de gérer les actions simultanées, éventuellement conflictuelles, au sein des SMA.
Style APA, Harvard, Vancouver, ISO itp.
10

Ajmi, Faiza. "Optimisation collaborative par des agents auto-adaptatifs pour résoudre les problèmes d'ordonnancement des patients en inter-intra urgences hospitalières". Thesis, Centrale Lille Institut, 2021. http://www.theses.fr/2021CLIL0019.

Pełny tekst źródła
Streszczenie:
Cette thèse s’attaque à des problèmes d’ordonnancement des patients aux urgences, avec prise en compte des contraintes d’aval, en utilisant des approches d’optimisation collaboratives optimisant le temps d’attente global moyen des patients. Ces approches sont utilisées en intégrant, dans le comportement de chaque agent,une métaheuristique qui évolue efficacement, grâce à deux protocoles d’interaction "amis" et "ennemis". En outre, chaque agent s’auto-adapte à l’aide d’un algorithme d’apprentissage par renforcement adapté a unproblème étudié. Cette auto-adaptation tient compte d’expériences des agents et de leurs connaissances de l’environnement des urgences. Afin d’assurer la continuité d’une prise en charge de qualité des patients,nous proposons également dans cette thèse, une approche conjointe d’ordonnancement et d’affectation des lits d’aval aux patients. Nous illustrons les approches collaboratives proposées et démontrons leur sefficacités sur des données réelles provenant des services des urgences du CHU de Lille obtenues dans le cadre du projet ANR OIILH. Les résultats de simulations donnent des meilleurs ordonnancements par rapport aux scénarios dans lesquels les agents travaillent individuellement ou sans apprentissage.L’application des algorithmes qui gèrent la prise en charge des patients dans les services d’aval, fournit des résultats sous la forme d’un tableau de bord, contenant des informations statiques et dynamiques. Ces informations sont mises à jour en temps réel et permettent aux urgentistes d’orienter plus rapidement les patients vers les structures qui peuvent les accueillir. Ainsi, les résultats des expérimentations montrent que les algorithmes d’IA proposés peuvent améliorer de manière significative l’efficacité de la chaîne des urgences en réduisant le temps d’attente global moyen des patients en inter-intra-urgences
This thesis addresses the scheduling patients in emergency department (ED) considering downstreamconstraints, by using collaborative optimization approaches to optimize the total waiting time of patients.These approaches are used by integrating, in the behavior of each agent, a metaheuristic that evolvesefficiently, thanks to two interaction protocols "friends" and "enemies". In addition, each agent self-adaptsusing a reinforcement learning algorithm adapted to the studied problem. This self-adaptation considersthe agents’ experiences and their knowledge of the ED environment. The learning of the agents allowsto accelerate the convergence by guiding the search for good solutions towards more promising areas inthe search space. In order to ensure the continuity of quality patient care, we also propose in this thesis,a joint approach for scheduling and assigning downstream beds to patients. We illustrate the proposedcollaborative approaches and demonstrate their effectiveness on real data provided from the ED of the LilleUniversity Hospital Center obtained in the framework of the ANR OIILH project. The results obtainedshow that the collaborative Learning approach leads to better results compared to the scenario in whichagents work individually or without learning. The application of the algorithms that manage the patientscare in downstream services, provides results in the form of a dashboard, containing static and dynamicinformation. This information is updated in real time and allows emergency staff to assign patients morequickly to the adequate structures. The results of the simulation show that the proposed AI algorithms cansignificantly improve the efficiency of the emergency chain by reducing the total waiting time of patientsin inter-intra-emergency
Style APA, Harvard, Vancouver, ISO itp.
Oferujemy zniżki na wszystkie plany premium dla autorów, których prace zostały uwzględnione w tematycznych zestawieniach literatury. Skontaktuj się z nami, aby uzyskać unikalny kod promocyjny!

Do bibliografii