Accedi

Bibliografie tematiche / Apprentissage automatique dynamique

Indice

Articoli di riviste
Tesi
Libri

Letteratura scientifica selezionata sul tema "Apprentissage automatique dynamique"

Autore: Grafiati

Pubblicato: 22 febbraio 2025

Cita una fonte nei formati APA, MLA, Chicago, Harvard e in molti altri stili

Scegli il tipo di fonte:

Consulta la lista di attuali articoli, libri, tesi, atti di convegni e altre fonti scientifiche attinenti al tema "Apprentissage automatique dynamique".

Accanto a ogni fonte nell'elenco di riferimenti c'è un pulsante "Aggiungi alla bibliografia". Premilo e genereremo automaticamente la citazione bibliografica dell'opera scelta nello stile citazionale di cui hai bisogno: APA, MLA, Harvard, Chicago, Vancouver ecc.

Puoi anche scaricare il testo completo della pubblicazione scientifica nel formato .pdf e leggere online l'abstract (il sommario) dell'opera se è presente nei metadati.

Articoli di riviste sul tema "Apprentissage automatique dynamique"

1

Rowe, Frantz, e Ojelanki Ngwenyama. "L’enfermement dans les pratiques de big data : une interprétation par la théorie sociale critique". Terminal 138 (2024). http://dx.doi.org/10.4000/12dkk.

Testo completo

Abstract (sommario):

Les géants du capitalisme numérique exploitent des pratiques de big data reposant sur la datafication de nos comportements, sur l’accès permanent à ces données et sur leur traitement par apprentissage automatique. Nous nous enfermons dans ces pratiques et les plateformes associées sans en être pleinement conscients. Cet article propose une théorie de la dynamique causale de cet enfermement représentée à la fois par des boucles de renforcement et synthétisée par trois propositions. L’idéologie de la technique (Marcuse, 1968) conduit le développement d’une fausse conscience (Heidegger, 1954) qui conditionne l’enfermement numérique et conduit à des marchandages faustiens. Tant la fausse conscience, que cet enfermement et les marchandages faustiens sont l’objet de boucles causales de renforcement délétères et inter-reliées constituant une explication plausible de la diminution des libertés des utilisateurs du numérique.

Gli stili APA, Harvard, Vancouver, ISO e altri

Tesi sul tema "Apprentissage automatique dynamique"

1

Quoy, Mathias. "Apprentissage dans les réseaux neuromimétiques à dynamique chaotique". Toulouse, ENSAE, 1994. http://www.theses.fr/1994ESAE0009.

Testo completo

Abstract (sommario):

Nous avons défini un modèle de réseaux de neurones à temps discret possédant une dynamique chaotique. Nous nous sommes intéressés à la mise en évidence au sein de cette classe de réseaux de la plage de valeurs des paramètres pour laquelle la dynamique est chaotique, à la modification de la dynamique sous influence externe, aux règles d'apprentissage associant des cycles limites à des motifs, et à la réduction de dynamique du chaos à des cycles limites (ou à du chaos de plus faible dimension) par apprentissage etpar présentation de motifs. Nous présentons les équations de champ moyen et les simulations numériques permettant d'établir ces résultats. En ce qui concerne l'apprentissage proprement dit, les règles que nous avons choisies sont du type hebbiennes. L'itération continue de ces règles à partir d'un réseau chaotique réduit toujours la dynamique du système successivement sur des attracteurs étrangs de dimension fractale plus petite, puis sur des tores T2, des cycles limites, et finalement un point fixe. On peut donc associer au motif appris un des attracteurs atteint au cours de l'apprentissage. Après apprentissage, la dynamique spontanée du réseau (sans motif présenté) reste chaotique. La présentation d'autres motifs laisse aussi la dynamique du réseau globalement chaotique. Le réseau répond donc successivement au motif appris. La présentation d'un motif bruité entraîne en moyenne la convergence vers un attracteur proche de celui qui a été appris.

Gli stili APA, Harvard, Vancouver, ISO e altri

2

Calvelo, Aros Daniel. "Apprentissage de modèles e la dynamique pour l'aide à la décision en monitorage clinique". Lille 1, 1999. https://pepite-depot.univ-lille.fr/LIBRE/Th_Num/1999/50376-1999-351.pdf.

Testo completo

Abstract (sommario):

L'aide à la décision en milieu clinique passe essentiellement par la mise à disposition du praticien d'information synthétique à partir des données techniquement disponibles. Une méthodologie d'analyse de données en soins intensifs est proposée dans l'objectif de synthétiser l'historique des données du monitorage courant. Elle dégage des moyens de visualisation et d'abstraction, tout en retardant l'introduction de la connaissance d'expert. Les données disponibles sont bruitées, quantifiées, filtrées, intermittentes, ce qui oriente les choix et oblige à adapter les traitements. Une chaîne de traitement en trois étapes est exposée et illustrée à partir de données artificielles et réelles. La première étape repose sur l'extraction de la tendance locale, estimée par régression linéaire suivant une méthode efficace par filtrage et approche incrémentale. Cette méthode nécessite la détermination d'une échelle caractéristique d'évolution pour chaque variable. Pour la définir plusieurs critères sont proposés, formalisés puis évalués. Un critère base sur le test statistique de signification des régressions est retenu. La deuxième étape consiste en la symbolisation de la dynamique locale de chaque variable. Elle est basée sur la projection des données à l'échelle caractéristique dans l'espace tendance Vs. Stabilité. Enfin, une étape d'analyse multivariée construit des modèles symboliques locaux par induction d'arbres de décision. La succession des modèles permet de détecter des changements dans la configuration des relations entre les variables. Après une discussion sur les objectifs, les critères retenus, et les difficultés d'évaluation, nous concluons sur l'intégration de ces techniques dans la plate-forme d'aide au diagnostic Aiddiag. Chaque pallier de la chaîne de traitement propose une méthodologie et une représentation, exploitables à des niveaux d'interprétation de plus en plus élevés, et probablement transposables à d'autres flots de données semblables.

Gli stili APA, Harvard, Vancouver, ISO e altri

3

Gelly, Sylvain. "Une contribution à l'apprentissage par renforcement : application au Computer Go". Paris 11, 2007. http://www.theses.fr/2007PA112227.

Testo completo

Abstract (sommario):

Le domaine de l'Apprentissage par Renforcement (AR) se trouve à l'interface entre la théorie du contrôle, l'apprentissage supervisé et non-supervisé, l'optimisation et les sciences cognitives, et est un domaine très actif de par ses applications et les problèmes non résolus. Cette thèse apporte quelques contributions dans ce domaine, principalement sur trois axes. Le 1er axe correspond à la modélisation de l'environnement, i. E. à l'apprentissage de la fonction de transition entre deux pas de temps. L'apprentissage et l'utilisation de ce modèle se fait efficacement dans les approches factorisées. Les Réseaux Bayesiens sont un moyen de représenter ce type de modèle, et dans ce domaine le travail présenté propose un nouveau critère d'apprentissage, à la fois pour le paramétrique (probabilités conditionnelles) et non-paramétrique (structure). Le 2ème axe est une étude du cas de l'AR en continu (espace d'état et d'action), à partir de l'algorithme de résolution par programmation dynamique. Cette analyse s'attaque à trois étapes fondamentales de cet algorithme: l'optimisation (choix de l'action à partir de la fonction de valeurs (FV)), l'apprentissage supervisé (regression) de la FV et le choix des exemples sur lesquels apprendre (apprentissage actif). Le 3ème axe de contribution correspond au domaine applicatif du jeu de Go, qui est un cas discret et de grande dimension qui reste un grand challenge pour les algorithmes d'AR. Dans ce domaine, les algorithmes utilisés et améliorés ont permis au programme résultant, MoGo de gagner de nombreuses compétitions internationales et devenant par exemple le premier programme jouant à un niveau dan amateur sur plateau 9x9
Reinforcement Learning (RL) is at the interface of control theory, supervised and unsupervised learning, optimization and cognitive sciences. While RL addresses many objectives with major economic impact, it raises deep theoretical and practical difficulties. This thesis brings some contributions to RL, mainly on three axis. The first axis corresponds to environment modeling, i. E. Learning the transition function between two time steps. Factored approaches give an efficiently framework for the learning and use of this model. The Bayesian Networks are a tool to represent such a model, and this work brings new learning criterion, either in parametric learning (conditional probabilities) and non parametric (structure). The second axis is a study in continuous space and action RL, thanks to the dynamic programming algorithm. This analysis tackles three fundamental steps: optimization (action choice from the value function), supervised learning (regression) of the value function and choice of the learning examples (active learning). The third axis tackles the applicative domain of the game of Go, as a high dimensional discrete control problem, one of the greatest challenge in Machine Learning. The presented algorithms with their improvements made the resulting program, MoGo, win numerous international competitions, becoming for example the first go program playing at an amateur dan level on 9x9

Gli stili APA, Harvard, Vancouver, ISO e altri

4

Soula, Hédi. "Dynamique et plasticité dans les réseaux de neurones à impulsions : étude du couplage temporel réseau / agent / environnement". Lyon, INSA, 2005. http://theses.insa-lyon.fr/publication/2005ISAL0056/these.pdf.

Testo completo

Abstract (sommario):

Dans ce travail, une approche de "vie artificielle" est utilisée pour étudier le support neural des comportements. Un comportement est issu d'une bonne adéquation entre le système de contrôle, les capacités sensori-motrices de l'agent et de l'environnement. Dans un paradigme dynamique, un comportement est ainsi un attracteur dans l'espace perception/action - composé de la dynamique interne du contrôleur et de celle obtenue par l'évolution de l'agent. La dynamique neurale est à l'origine de la dynamique interne. L'apprentissage de comportement revient donc à coupler ces deux dynamiques. Nous introduisons, dans un premier temps, une étude détaillée de la dynamique nerveuse dans le cas de réseaux de neurones à impulsions. En mode spontané (c'est-à-dire sans entrées), ces réseaux opèrent de manière non triviale. Selon les paramètres de la distribution de poids synaptiques, nous sommes en mesure d'estimer complètement l'activité de décharge. On montre l'existence d'une bifurcation pour le paramètre de couplage : la variance de la distribution. Nous montrons aussi que ce facteur de couplage mesure le charactère chaotique du fonctionnement du réseau. Pour apprendre des comportement, nous utilisons un algorithme biologiquement plausible la Spike-Time Dependent Plasticity qui permet de coupler la dynamique neurale. Nous montrons en dynamique spontanée l'influence des paramètres d'apprentissage sur le fonctionnement du réseau. Nous montrons que la STDP permet de rester dans un régime "au bord du chaos". Dans le but de valider cette approche, nous utilisons le réseau pour controler un robot qui doit apprendre à éviter les obstacles en servant uniquement du flot visuel
An «artificial life » approach is conducted in order to assess the neural basis of behaviours. Behaviour is the consequence of a good concordance between the controller, the agent’s sensori-motors capabilities and the environment. Within a dynamical system paradigm, behaviours are viewed as attractors in the perception/action space – derived from the composition of the internal and external dynamics. Since internal dynamics is originated by the neural dynamics, learning behaviours therefore consists on coupling external and internal dynamics by modifying network’s free parameters. We begin by introducing a detailed study of the dynamics of large networks of spiking neurons. In spontaneous mode (i. E. Without any input), these networks have a non trivial functioning. According to the parameters of the weight distribution and provided independence hypotheses, we are able to describe completely the spiking activity. Among other results, a bifurcation is predicted according to a coupling factor (the variance of the distribution). We also show the influence of this parameter on the chaotic dynamics of the network. To learn behaviours, we use a biologically plausible learning paradigm – the Spike-Timing Dependent Plasticity (STDP) that allows us to couple neural and external dynamics. Applying shrewdly this learning law enables the network to remain “at the edge of chaos” which corresponds to an interesting state of activity for learning. In order to validate our approach, we use these networks to control an agent whose task is to avoid obstacles using only the visual flow coming from its linear camera. We detail the results of the learning process for both simulated and real robotics platform

Gli stili APA, Harvard, Vancouver, ISO e altri

5

Soula, Hédi Favrel Joel Beslon Guillaume. "Dynamique et plasticité dans les réseaux de neurones à impulsions étude du couplage temporel réseau / agent / environnement /". Villeurbanne : Doc'INSA, 2005. http://docinsa.insa-lyon.fr/these/pont.php?id=soula.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

6

Liu, Zongyi. "Self-Adaptive Bandwidth Control for Balanced QoS and Energy Aware Optimization in Wireless Sensor Network". Thesis, Toulouse, INSA, 2017. http://www.theses.fr/2017ISAT0034/document.

Testo completo

Abstract (sommario):

Dans le domaine des réseaux de capteurs multimédias sans fil (WMSN), le flux fortement saturé augmente la probabilité de collision et de congestion dans la transmission de données, ce qui dégrade considérablement la performance de la qualité de service (QoS). La technique de déploiement multicanaux est souvent appliquée à la transmission en parallèle pour garantir la QoS. Cependant, comment faire le compromis entre l'exigence QoS et l'efficacité énergétique est un défi pour WMSN énergie-limité. L'analyse théorique de la couche MAC et de la structure de la couche PHY basée sur la norme IEEE 802.15.4, vise à étudier le modèle analytique cross-layer afin de mieux comprendre la relation entre les paramètres du réseau de capteurs et la performance, ouvrant ainsi la voie à de nouvelles améliorations. Recherche d'optimisation multi-canaux. Trouver un indicateur de performance efficace et concevoir une méthode de collecte ou d'estimation de performance efficace basée sur les métriques correspondantes, qui pourraient être utilisées comme entrée de paramètre du mécanisme d'affectation multicanaux. Le système de contrôle dynamique complet est conçu pour une tâche d'attribution multicanal basée sur des techniques d'intelligence de calcul léger et efficace. Nous présentons un mécanisme d'attribution multicouches à bande passante dynamique à fuzzy (MCDB_FLS). La bande passante proactive disponible dans la couche croisée est estimée comme paramètre pour le contrôle d'admission de déploiement multicanal. Une approche axée sur l'apprentissage par renforcement est proposée pour une prise de décision judicieuse dans la mission d'allocation multicanaux. En outre, le modèle de seuil de bande passante basé sur la logique floue fournit une optimisation dynamique sur le contrôle d'admission du système. Les simulations montrent que le MCDB_FLS fonctionne mieux que la référence sur les mesures de QoS et l'efficacité énergétique, réalise le compromis entre l'efficacité énergétique et l'amélioration de la QoS. Enfin, nous introduisons l'intégration de l'approche incrémentielle d'apprentissage automatique dans le mécanisme d'affectation multicanaux avec la Deep Q Network (DQMC). En outre, l'initialisation du poids par action est implémentée sur la base d'un classificateur d'apprentissage supervisé multi-classes avec une approche par empilement. DQMC améliorer la capacité d'auto-adaptatif et de contrôle intelligent pour apprendre le modèle de l'environnement différent de multi-tâches WMSNs
In the Wireless Multimedia Sensor Networks (WMSNs) field, highly saturated flow increases the probability of collision and congestion in data transmission which dramatically degrade the performance of Quality of Service (QoS). Multi-channels deployment technique is often applied to parallel transmission for QoS guarantee. However, how to make trade-off between QoS requirement and energy efficiency is a challenges to energy-constrained WMSNs. Theoretical analysis of MAC layer and PHY layer structure based on IEEE 802.15.4 standard, aim to study on the cross-layer analytical model in order to provide stronger understanding on the relationship between sensor network parameters and performance, pave the way for new enhancements in succedent multi-channel optimization research. Find effective performance indicator and design efficient performance collection or estimation approach based on the corresponding metrics, which could be used as the parameter input of multi-channel assignment mechanism. Comprehensive dynamically control system is designed for multi-channel assignment task based on light weight and high efficient computation intelligence techniques. We present a fuzzy-based dynamic bandwidth multi-channel assignment mechanism (MCDB_FLS). Cross-layer proactive available bandwidth is estimated as parameters for multi-channel deployment admission control. Reinforcement learning-based approach is proposed for more wisely decision-making in multi- channel allocation mission. Furthermore, fuzzy logic-based bandwidth threshold model provides dynamic optimization on system admission control. Simulations show the MCDB_FLS performs better than benchmark on the metrics of QoS and energy efficiency, achieves the trade-off between energy efficiency and QoS improvement. Finally, we introduce the integration of incremental machine learning approach into multi-channel assignment mechanism with Deep Q Network reinforcement learning method (DQMC). Besides, fully action weight initialization is implemented based on multi-class supervised learning classifier with stacking ensemble approach. DQMC improve the ability of self-adaptive and smart control to learn pattern from different environment of multi-tasks WMSNs

Gli stili APA, Harvard, Vancouver, ISO e altri

7

Munos, Rémi. "Apprentissage par renforcement, étude du cas continu". Paris, EHESS, 1997. http://www.theses.fr/1997EHESA021.

Testo completo

Abstract (sommario):

Le probleme aborde est comment concevoir des methodes permettant a des systemes artificiels d' << apprendre par l'experience >>, c'est a dire de resoudre une tache sans etre explicitement programme pour cela, mais seulement a partir du schema d'apprentissage : essais -> erreur ou succes ii s'agit de definir des methodes, sous forme d'algorithmes, permettant la modification des parametres internes du systeme afin de definir des prises de decisions pertinentes. L'approche developpee est celle de << l'apprentissage par renforcement >> qui se definit naturellement sous la forme d'un probleme de controle optimal pour lequel les donnees de la dynamique d'etat sont a priori (au moins partiellement) inconnues du systeme. Cette these est une etude formelle du cas ou l'espace des etats possibles ainsi que le temps auquel les decisions sont prises sont des variable continues ; la preoccupation majeure de ce travail etant l'etude de la convergences des methodes employees. Nous decrivons le formalisme du controle optimal et presentons la methode de la programmation dynamique : definition de la fonction valeur et enonce l'equation de hamiltonjacobi-bellman associee. Nous introduisons les notions desolutions de viscosite et decrivons des methodes d'approximation numeriques a partir de schemas convergents. Puis nous donnons un theoreme de convergence d'algorithmes bases sur les schemas precedents -ce qui represente la contribution majeure de ce travail. Ce theoreme fournit une methode tres generale pour concevoir des algorithmes d'apprentissage par renforcement convergents. Enfin nous illustrons la methode avec divers exemples d'algorithmes varies portant sur des dynamiques d'etat deterministes ou stochastiques, selon des methodes dites directes ou indirectes et a partir de schemas bases sur des methodes aux differences finies ou aux elements finis.

Gli stili APA, Harvard, Vancouver, ISO e altri

8

Nasri, Ridha. "Paramétrage Dynamique et Optimisation Automatique des Réseaux Mobiles 3G et 3G+". Phd thesis, Université Pierre et Marie Curie - Paris VI, 2009. http://tel.archives-ouvertes.fr/tel-00494190.

Testo completo

Abstract (sommario):

La télécommunication radio mobile connait actuellement une évolution importante en termes de diversité de technologies et de services fournis à l'utilisateur final. Il apparait que cette diversité complexifie les réseaux cellulaires et les opérations d'optimisation manuelle du paramétrage deviennent de plus en plus compliquées et couteuses. Par conséquent, les couts d'exploitation du réseau augmentent corrélativement pour les operateurs. Il est donc essentiel de simplifier et d'automatiser ces taches, ce qui permettra de réduire les moyens consacrés à l'optimisation manuelle des réseaux. De plus, en optimisant ainsi de manière automatique les réseaux mobiles déployés, il sera possible de retarder les opérations de densification du réseau et l'acquisition de nouveaux sites. Le paramétrage automatique et optimal permettra donc aussi d'étaler voire même de réduire les investissements et les couts de maintenance du réseau. Cette thèse introduit de nouvelles méthodes de paramétrage automatique (auto-tuning) des algorithmes RRM (Radio Resource Management) dans les réseaux mobiles 3G et au delà du 3G. L'auto-tuning est un processus utilisant des outils de contrôle comme les contrôleurs de logique floue et d'apprentissage par renforcement. Il ajuste les paramètres des algorithmes RRM afin d'adapter le réseau aux fluctuations du trafic. Le fonctionnement de l'auto-tuning est basé sur une boucle de régulation optimale pilotée par un contrôleur qui est alimenté par les indicateurs de qualité du réseau. Afin de trouver le paramétrage optimal du réseau, le contrôleur maximise une fonction d'utilité, appelée aussi fonction de renforcement. Quatre cas d'études sont décrits dans cette thèse. Dans un premier temps, l'auto-tuning de l'algorithme d'allocation des ressources radio est présenté. Afin de privilégier les utilisateurs du service temps réel (voix), une bande de garde est réservée pour eux. Cependant dans le cas ou le trafic temps réel est faible, il est important d'exploiter cette ressource pour d'autres services. L'auto-tuning permet donc de faire un compromis optimal de la qualité perçue dans chaque service en adaptant les ressources réservées en fonction du trafic de chaque classe du service. Le second cas est l'optimisation automatique et dynamique des paramètres de l'algorithme du soft handover en UMTS. Pour l'auto-tuning du soft handover, un contrôleur est implémenté logiquement au niveau du RNC et règle automatiquement les seuils de handover en fonction de la charge radio de chaque cellule ainsi que de ses voisines. Cette approche permet d'équilibrer la charge radio entre les cellules et ainsi augmenter implicitement la capacité du réseau. Les simulations montrent que l'adaptation des seuils du soft handover en UMTS augmente la capacité de 30% par rapport au paramétrage fixe. L'approche de l'auto-tuning de la mobilité en UMTS est étendue pour les systèmes LTE (3GPP Long Term Evolution) mais dans ce cas l'auto-tuning est fondé sur une fonction d'auto-tuning préconstruite. L'adaptation des marges de handover en LTE permet de lisser les interférences intercellulaires et ainsi augmenter le débit perçu pour chaque utilisateur du réseau. Finalement, un algorithme de mobilité adaptative entre les deux technologies UMTS et WLAN est proposé. L'algorithme est orchestré par deux seuils, le premier est responsable du handover de l'UMTS vers le WLAN et l'autre du handover dans le sens inverse. L'adaptation de ces deux seuils permet une exploitation optimale et conjointe des ressources disponibles dans les deux technologies. Les résultats de simulation d'un réseau multi-systèmes exposent également un gain important en capacité.

Gli stili APA, Harvard, Vancouver, ISO e altri

9

Amadou, Boubacar Habiboulaye. "Classification Dynamique de données non-stationnaires :Apprentissage et Suivi de Classes évolutives". Phd thesis, Université des Sciences et Technologie de Lille - Lille I, 2006. http://tel.archives-ouvertes.fr/tel-00106968.

Testo completo

Abstract (sommario):

La plupart des processus naturels ou artificiels ont des comportements évolutifs décrits par des données non-stationnaires. La problématique étudiée dans cette thèse concerne la classification dynamique de données non-stationnaires. Nous proposons une description générique de classifieurs dynamiques conçue à l'aide d'un réseau neuronal à architecture évolutive. Elle est élaborée en quatre procédures d'apprentissage : création, adaptation, fusion, et évaluation. Deux algorithmes sont développés à partir de cette description générique. Le premier est une nouvelle version de l'algorithme AUDyC (AUto-adaptive and Dynamical Clustering). Il utilise un modèle de mélange décrit suivant l'approche multimodale. Le second, nommé SAKM (Self-Adaptive Kernel Machine), est basé sur les SVM et méthodes à noyau. Ces deux algorithmes sont dotés de règles de mise à jour récursives permettant la modélisation adaptative et le suivi de classes évolutives. Ils disposent de capacités d'auto-adaptation en environnement dynamique et de bonnes performances en terme de convergence et de complexité algorithmique. Ces dernières sont prouvées théoriquement et montrées par la simulation des algorithmes.

Gli stili APA, Harvard, Vancouver, ISO e altri

10

Alami, Réda. "Bandits à Mémoire pour la prise de décision en environnement dynamique. Application à l'optimisation des réseaux de télécommunications". Electronic Thesis or Diss., université Paris-Saclay, 2021. http://www.theses.fr/2021UPASG063.

Testo completo

Abstract (sommario):

Dans cette thèse de doctorat, nous étudions le problème du bandit manchot non stationnaire où le comportement de non-stationnarité de l'environnement est caractérisé par plusieurs changements brusques appelés "points de changement". Nous proposons les bandits à mémoire : une combinaison entre un algorithme pour le bandit manchot stochastique et le détecteur Bayésien de point de changement. L'analyse de ce dernier a toujours été un problème ouvert dans la communauté de la théorie statistique et de l'apprentissage séquentiel. Pour cette raison, nous dérivons une variante du détecteur Bayésien de point de changement qui est plus facile à analyser mathématiquement en termes de taux de fausses alarmes et de délai de détection (qui sont les critères les plus courants pour la détection de point de changement). Ensuite, nous introduisons le problème d'exploration décentralisée dans le cadre du bandit manchot où un ensemble de joueurs collaborent pour identifier le meilleur bras en interagissant de manière asynchrone avec le même environnement stochastique. Nous proposons une première solution générique appelée élimination décentralisée qui utilise n'importe quel algorithme d'identification du meilleur bras comme sous-programme avec la garantie que l'algorithme assure la confidentialité, avec un faible coût de communication. Enfin, nous effectuons une évaluation des stratégies de bandit manchot dans deux contextes différents de réseaux de télécommunications. Tout d'abord, dans le contexte LoRaWAN (Long Range Wide Area Network), nous proposons d'utiliser des algorithmes de bandit manchot à la place de l'algorithme par défaut qui porte le nom d’ADR (Adaptive Data Rate) afin de minimiser la consommation d'énergie et les pertes de paquets des terminaux. Ensuite, dans le contexte IEEE 802.15.4-TSCH, nous effectuons une évaluation de 9 algorithmes de bandits manchot afin de sélectionner ceux qui choisissent les canaux les plus performants, en utilisant les données collectées via la plateforme FIT IoT-LAB. L'évaluation des performances suggère que notre proposition peut améliorer considérablement le taux de livraison des paquets par rapport à la procédure TSCH par défaut, augmentant ainsi la fiabilité et l'efficacité énergétique des transmissions
In this PhD thesis, we study the non-stationary multi-armed bandit problem where the non-stationarity behavior of the environment is characterized by several abrupt changes called "change-points". We propose Memory Bandits: a combination between an algorithm for the stochastic multi-armed bandit and the Bayesian Online Change-Point Detector (BOCPD). The analysis of the latter has always been an open problem in the statistical and sequential learning theory community. For this reason, we derive a variant of the Bayesian Online Change-point detector which is easier to mathematically analyze in term of false alarm rateand detection delay (which are the most common criteria for online change-point detection). Then, we introduce the decentralized exploration problem in the multi-armed bandit paradigm where a set of players collaborate to identify the best arm by asynchronously interacting with the same stochastic environment. We propose a first generic solution called decentralized elimination: which uses any best arm identification algorithm as a subroutine with the guar-antee that the algorithm ensures privacy, with a low communication cost. Finally, we perform an evaluation of the multi-armed bandit strategies in two different context of telecommunication networks. First, in LoRaWAN (Long Range Wide Area Network) context, we propose to use multi-armed bandit algorithms instead of the default algorithm ADR (Adaptive Data Rate) in order to minimize the energy consumption and the packet losses of end-devices. Then, in a IEEE 802.15.4-TSCH context, we perform an evaluation of 9 multi-armed bandit algorithms in order to select the ones that choose high-performance channels, using data collected through the FIT IoT-LAB platform. The performance evaluation suggests that our proposal can significantly improve the packet delivery ratio compared to the default TSCH operation, thereby increasing the reliability and the energy efficiency of the transmissions

Gli stili APA, Harvard, Vancouver, ISO e altri

Più fonti

Libri sul tema "Apprentissage automatique dynamique"

1

Agnès, Guillot, e Daucé Emmanuel, a cura di. Approche dynamique de la cognition artificielle. Paris: Hermès science publications, 2002.

Cerca il testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Offriamo sconti su tutti i piani premium per gli autori le cui opere sono incluse in raccolte letterarie tematiche. Contattaci per ottenere un codice promozionale unico!