Academic literature on the topic 'Bandit à plusieurs bras'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the lists of relevant articles, books, theses, conference reports, and other scholarly sources on the topic 'Bandit à plusieurs bras.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Journal articles on the topic "Bandit à plusieurs bras"

1

Leboyer, M., T. D’Amato, A. Malafosse, D. Campion, and F. Gheysen. "Génétique épidémiologique des troubles de l’humeur: une nouvelle voie de recherches?" Psychiatry and Psychobiology 4, no. 4 (1989): 193–202. http://dx.doi.org/10.1017/s0767399x00002753.

Full text
Abstract:
RésuméLes récents progrès de la biologie moléculaire offrent l’espoir d’une meilleure compréhension de la composante génétique des maladies mentales, la dépression en particulier. L’accès à un nombre quasiment illimité de marqueurs génétiques polymorphes et couvrant le génome, accroît l’efficacité des techniques de liaison génétique (linkage) qui permettent l’étude de la cotransmission des marqueurs génétiques et du trait clinique dans des familles dont plusieurs membres sont malades. D’ores et déjà, en ce qui concerne les troubles de l’humeur, 2 pistes ont été mises en évidence: celle d’une liaison à l’extrémité distale du bras long du chromosome X (Mendlewicz et al., 1987) et celle d’une liaison à l’extrémité du bras court du chromosome 11 (Egeland et al., 1987). Toutefois, ces résultats n’ont pas été constamment répliqués, ce qui soulève le problème de l’hétérogénéité étiologique des troubles dépressifs.
APA, Harvard, Vancouver, ISO, and other styles
2

Breda, Giulia, and Swanie Potot. "Tri des migrants, racisme et solidarités aux frontières européennes : enquêtes en Pologne." Revue européenne des migrations internationales 40 - n°2 et 3 (2024): 149–69. http://dx.doi.org/10.4000/12hu3.

Full text
Abstract:
Cette note de recherche s’appuie sur deux courtes enquêtes menées aux frontières polonaises en janvier et juillet 2022. Elle met en perspective ce qui a été dépeint comme une « guerre hybride », orchestrée par la Biélorussie à l’encontre de l’Europe, instrumentalisant quelques dizaines de milliers de migrants en quête de mieux être, et l’exode de plusieurs millions d’Ukrainiens accueillis à bras ouverts par l’ensemble de l’Union européenne. Ce faisant, le papier interroge d’une part l’incidence du contexte politique sur les activités des personnes solidaires et d’autre part, le poids du racisme dans l’accueil des étrangers en Europe.
APA, Harvard, Vancouver, ISO, and other styles
3

Bengeni, D., P. Lim, and A. Belaud. "Qualité des eaux de trois bras morts de la Garonne variabilité spatio-temporelle)." Revue des sciences de l'eau 5, no. 2 (April 12, 2005): 131–56. http://dx.doi.org/10.7202/705125ar.

Full text
Abstract:
Pendant deux années, des mesures et analyses d'eau ont été faites mensuellement sur une station de la Garonne et sur trois bras morts différant par leur communication avec le fleuve. La variabilité spatio-temporelle a été dressée à partir de 14 variables physico-chimiques susceptibles d'influer les équilibres chimiques de l'eau et la vie aquatique. Les données ont fait l'objet d'une Analyse en Composantes principales précédée par une analyse de variance entre saisons et entre stations de mesures afin de déterminer l'importance des hétérogénéités spatiale et temporelle des données. L'eau du fleuve est soumise à un cycle climatique annuel de température et de débit. De brèves fortes eaux de printemps alternent avec de longues périodes de débits stables et inférieurs aux moyennes établies sur plusieurs décennies. Par rapport aux charges de sulfates et de chlorures prises comme référence du drainage du bassin versant, les flux de nitrates ont un pic accentué au printemps, résultant des activités agricoles. Les phosphates présentent aussi un accroissement automnal qui pourrait traduire un cycle annuel de minéralisation-déminéralisation. Les matières organiques s'élèvent en rapport au taux de chlorophylle a. L'eau de Garonne est de bonne qualité et conforme à la typologie habituelle, hormis des taux déclassants d'ammoniaque provenant de l'agglomération toulousaine et dont l'autoépuration est souvent incomplète. Par rapport à la Garonne, les trois bras morts sont caractérisés par un cycle thermique accentué en été. Mise en évidence par l'ACP, la minéralisation des eaux de ces trois bras morts évolue selon un cycle saisonnier parallèlement aux fluctuations de débit de la Garonne. Elle indique un gradient de minéralisation croissante de l'hiver au printemps. La qualité de l'eau lors des fortes eaux printanières est homogénéisée et imposée par le fleuve. En phases de faibles débits, la qualité de l'eau évolue parallèlement à celle de la Garonne (concentrations des substances) pour un bras mort ventilé par une communication amont et aval. En revanche, les deux bras morts en simple communication aval présentent un retard à la concentration de l'eau d'autant plus évident que la communication est étroite. Les substances fertilisantes (nitrates, phosphates, ...) augmentant de l'amont vers l'aval dans ces deux derniers bras morts, sont en été en concentration inférieure par rapport au fleuve, en raison : 1) du remplissage printanier par des eaux diluées, puis du retard estival à l’équilibrage par simple communication aval et 2) de la consommation par les organismes végétaux aquatiques. L'élude des différences spatio-temporelles met ainsi en évidence un gradient saisonnier de minéralisation, un gradient aval-amont de productivité et un gradient aval-amont de réchauffement estival. La productivité apparaît donc liée au réchauffement estival plutôt qu'à la minéralisation ou aux teneurs en substances fertilisantes.
APA, Harvard, Vancouver, ISO, and other styles
4

Marquis, Dominique. "Un homme et son journal : comment Jules-Paul Tardivel « domestiqua » La Vérité." Mens 13, no. 2 (July 23, 2014): 35–57. http://dx.doi.org/10.7202/1025982ar.

Full text
Abstract:
En 1881, Jules-Paul Tardivel lance à Québec La Vérité, un journal de combat ultramontain. Tardivel porte ce journal à bout de bras, mais il n'est pas seul : il est soutenu par un réseau ultramontain encore très actif à cette époque. En 1890, Tardivel fait face à des difficultés matérielles telles que la survie du journal est sérieusement mise en péril. Les amis ultramontains de Tardivel sont alors mis à contribution pour trouver une solution. Plusieurs propositions sont évoquées, mais Tardivel, ne voulant pas partager la direction du journal, trouvera finalement une solution lui permettant de demeurer le seul maître à bord. Cette incursion dans l'histoire de ce journal, rendue possible grâce à une volumineuse correspondance, permet de comprendre un aspect du rôle du réseau ultramontain dans la construction de La Vérité.
APA, Harvard, Vancouver, ISO, and other styles
5

Dejean, Frédéric. "De la visibilité des lieux du religieux en contexte urbain : l’exemple des églises protestantes évangéliques à Montréal." Studies in Religion/Sciences Religieuses 49, no. 3 (June 9, 2020): 408–31. http://dx.doi.org/10.1177/0008429820924012.

Full text
Abstract:
Dans des pages restées fameuses du tome 2 de ses Études de sociologie religieuse, Gabriel Le Bras affirmait que « l’attraction des villes a une influence ruineuse sur la religion des ruraux (…) Je suis pour ma part convaincu que, sur cent ruraux qui s’établissent à Paris, il y en a à peu près quatre-vingt-dix qui, au sortir de la gare Montparnasse cessent d’être des pratiquants » (Le Bras, 1956 : 480). Cette citation souligne la place de la ville dans des travaux de recherche qui ont fait de l’espace urbain la scène privilégiée du processus de sécularisation. Il s’agissait alors de montrer l’effacement progressif de la religion, de même que la difficulté des institutions religieuses à composer avec des réalités sociales nouvelles. Pourtant, des sociologues, historiens ou géographes, insistent désormais sur le rôle pivot que les villes occupent dans les dynamiques religieuses contemporaines. Plusieurs d’entre eux montrent avec raison que les groupes religieux acquièrent une visibilité inédite et s’adaptent aux réalités urbaines et à leurs mutations rapides. Dans les pages qui suivent, je traite des Églises protestantes évangéliques montréalaises et met en lumière leurs dimensions spatiales. À travers cet exemple je souhaite montrer que ces Églises s’insèrent dans la trame urbaine existante en déployant un « régime de visibilité » (Lussault, 2003) largement fondé sur une logique d’invisibilisation, qui résulte à la fois de qualités propres au protestantisme et d’un effort d’adaptation à des contraintes urbaines externes.
APA, Harvard, Vancouver, ISO, and other styles
6

Le Bras, Hervé. "Dix ans de perspectives de la population étrangère : une perspective." Population Vol. 52, no. 1 (January 1, 1997): 103–33. http://dx.doi.org/10.3917/popu.p1997.52n1.0133.

Full text
Abstract:
Résumé Le Bras (Hervé). -Dix ans de perspectives de la population étrangère : une perspective Depuis une dizaine d'années, plusieurs projections de la population étrangère résidant en France ont vu le jour. Avec le recul du temps, il est possible de les comparer aux observations et aux estimations de cette même population étrangère qu'elles cherchaient à prévoir. On montrera que les désaccords ou les accords tiennent à la manière dont le code de la nationalité est pris en compte dans les projections. Par ce biais, les attentes implicites ou explicites des projecteurs se matérialisent dans leurs résultats. On verra aussi comment s'effectue à cette occasion le passage d'une conception démographique centrée sur l'« immigré » à une conception juridique centrée sur la « nationalité », et parfois à une conception biologique par la négation des possibilités d'acquisition de la nationalité française. On proposera pour finir un moyen simple d'effectuer des projections de population étrangère, de manière à dédramatiser la boite noire des calculs sur ordinateur.
APA, Harvard, Vancouver, ISO, and other styles
7

DOSTIE, GAÉTANE. "Considérations sur la forme et le sens. Pis en français québécois. Une simple variante de puis? Un simple remplaçant de et?" Journal of French Language Studies 14, no. 2 (July 2004): 113–28. http://dx.doi.org/10.1017/s0959269504001607.

Full text
Abstract:
Plusieurs travaux ont été consacrés à ce jour à puis (Chevalier et Molho, 1986; Hansen, 1998; Reyle, 1998; Bras, Le Draoulec et Vieu, 2001). En revanche, à l'exception de quelques études ciblées (Laurendeau, 1982 et 1983; Laks, 1983), pis a généralement été tenu pour une variante dans la prononciation de puis et a rarement été examiné pour lui-même. L'objectif du présent article, consacré à pis dans son usage en français québécois, est double. Il s'agit:– de dégager les spécificités sémantiques du marqueur lorsqu'il est connecteur (propositionnel et textuel). Cela conduit à le situer par rapport à et et à proposer une hypothèse, basée sur l'opposition ‘connecteur associatif/connecteur dissociatif’, susceptible d'expliquer pourquoi les marqueurs en cause se trouvent en distribution complémentaire dans l'oral familier, bien qu'ils expriment tous deux un type de connexion neutre;– d'identifier les sens de pis lorsqu'il est marqueur discursif et de mettre en évidence les liens qui les unissent entre eux, de même que les liens qui les rattachent à l'emploi où le marqueur agit à titre de connecteur.
APA, Harvard, Vancouver, ISO, and other styles
8

Fronczak, Stéphane. "Ransomware : le dossier comprendre l’ennemi." Revue Cyber & Conformité N° 1, no. 1 (February 1, 2021): 25–30. http://dx.doi.org/10.3917/cyco.001.0027.

Full text
Abstract:
Il était une fois un bandit de grand chemin nommé Ransomware … Voilà qui pourrait débuter la narration qui va suivre concernant ce malandrin, un brigand des Temps modernes. S’il n’est plus question des guerres qui ont opposé si longtemps la France à l’Angleterre, l’analogie avec les cybercriminels n’est pas si éloignée de cela. Sans doute cela est-il dû au fait qu’il s’agisse d’attaques perpétrées par des bandes d’assaillants ayant pour unique objectif la remise de fonds, l’obtention d’un butin, et ce, sur les chemins que sont nos autoroutes de l’information, nos réseaux sociaux, nos routes d’échanges numériques. L’actualité SI & IT, cyber et criminelle fait la part belle depuis plusieurs années à ce phénomène. Le rançongiciel ne distingue pas ses victimes (quelques exceptions dernièrement) mais s’affranchit de toutes frontières, règles, lois, pour n’user que de celles lui permettant d’atteindre son objectif. Car ne perdons pas de vue que les auteurs d’attaques par rançongiciels poursuivent des objectifs liés à la déstabilisation et à la terreur au sein d’une entreprise ou chez un particulier.
APA, Harvard, Vancouver, ISO, and other styles
9

Mokhtari, Mathieu. "Capitoline Wolf or Draco? Politicizing the Ancient Past and Materializing the Autochthony in Twenty-First Century Romania." Passés politisés, no. 9 (December 15, 2023): 31–46. http://dx.doi.org/10.35562/frontieres.1833.

Full text
Abstract:
Cet article propose d’analyser l’instrumentalisation politique du passé antique en Roumanie à travers deux cas d’étude distincts mais complémentaires. Le premier porte sur les fouilles archéologiques s’étant déroulées sur la place principale de la ville de Cluj-Napoca. Mises en œuvre à l’instigation du maire d’extrême droite, leur but avoué était de mettre au jour des vestiges de l’époque romaine. S’en est suivi un véritable bras de fer entre le maire et des membres de la minorité hongroise de la ville pour qui ce lieu revêt un fort caractère symbolique. Ce chantier a ainsi subi de nombreuses interruptions en raison des vicissitudes politiques et la contestation s’est poursuivie jusqu’à la fin des années 2000. Le deuxième cas s’intéresse aux circonstances politiques qui ont mené à la construction, dans la petite ville transylvaine d’Orăștie au début de ce siècle, de plusieurs monuments ayant pour sujet commun le passé préromain de la région. Notre travail consiste à étudier les prises de position des parties en présence afin de mettre en évidence l’usage politique de l’histoire ancienne qui cherche, dans le premier cas, à relier ces vestiges romains aux Roumains actuels et donc affirmer l’antériorité de leur présence en Transylvanie face aux Hongrois et, dans le second, à soutenir l’importance de l’élément dace dans l’identité roumaine.
APA, Harvard, Vancouver, ISO, and other styles
10

Achilleas, Philippe. "La bataille de la 5G et le droit international." Annuaire français de droit international 66, no. 1 (2020): 709–31. http://dx.doi.org/10.3406/afdi.2020.5489.

Full text
Abstract:
Résumé : La sécurité des systèmes d’information, désormais considérée comme une question de souveraineté, a pris une soudaine dimension politique avec l’arrivée de la cinquième génération de téléphonie mobile (5G) dont le déploiement a commencé en 2020, selon le calendrier fixé par l’UIT. La prise de conscience des enjeux de cybersécurité est liée à la montée en puissance rapide de la Chine et de son fleuron technologique Huawei dans l’écosystème numérique. Les États-Unis, déjà engagés dans un bras de fer commercial avec Pékin, ont pris une série de mesures visant à limiter la dynamique technologique de la Chine. Depuis, plusieurs pays ont adopté des mesures de contrôle et de restriction visant les équipements chinois. L’objectif est double : prévenir les atteintes à la sécurité nationale par le biais des infrastructures de télécommunications et soutenir l’émergence d’écosystèmes 5G souverains. La Chine inquiète, car elle ne partage pas les valeurs des États-Unis et de l’Union européenne en matière de libertés numériques. Pourtant, aucune preuve ne permet clairement de corroborer les accusations d’espionnage numérique proférées à l’encontre de Pékin. Dès lors, cette contribution vise à déterminer si la 5G, et plus particulièrement la position dominante des équipementiers chinois, représente une menace pour les autres États et pour les personnes afin de mieux apprécier la portée et la licéité des mesures de protection adoptées par les gouvernements.
APA, Harvard, Vancouver, ISO, and other styles

Dissertations / Theses on the topic "Bandit à plusieurs bras"

1

Robledo, Relaño Francisco. "Algorithmes d'apprentissage par renforcement avancé pour les problèmes bandits multi-arches." Electronic Thesis or Diss., Pau, 2024. http://www.theses.fr/2024PAUU3021.

Full text
Abstract:
Cette thèse présente des avancées dans les algorithmes d'apprentissage par renforcement (RL) pour la gestion des ressources et des politiques dans les problèmes de bandit multiarmé sans repos (RMAB). Nous développons des algorithmes à travers deux approches dans ce domaine. Premièrement, pour les problèmes avec des actions discrètes et binaires, ce qui est le cas original de RMAB, nous avons développé QWI et QWINN. Ces algorithmes calculent les indices de Whittle, une heuristique qui découple les différents processus RMAB, simplifiant ainsi la détermination de la politique. Deuxièmement, pour les problèmes avec des actions continues, qui se généralisent aux processus de décision de Markov faiblement couplés (MDP), nous proposons LPCA. Cet algorithme utilise une relaxation lagrangienne pour découpler les différents PDM.Les algorithmes QWI et QWINN sont présentés comme des méthodes à deux échelles de temps pour le calcul des indices de Whittle pour les problèmes RMAB. Dans nos résultats, nous montrons mathématiquement que les estimations des indices de Whittle de l'algorithme QWI convergent vers les valeurs théoriques. QWINN, une extension de QWI, incorpore des réseaux neuronaux pour calculer les valeurs Q utilisées pour calculer les indices de Whittle. Grâce à nos résultats, nous présentons les propriétés de convergence locale du réseau neuronal utilisé dans QWINN. Nos résultats montrent que QWINN est plus performant que QWI en termes de taux de convergence et d'évolutivité.Dans le cas de l'action continue, l'algorithme LPCA applique une relaxation lagrangienne pour découpler les processus de décision liés, ce qui permet un calcul efficace des politiques optimales sous contrainte de ressources. Nous proposons deux méthodes d'optimisation différentes, l'évolution différentielle et les stratégies d'optimisation gourmande, pour gérer efficacement l'allocation des ressources. Dans nos résultats, LPCA montre des performances supérieures à d'autres approches RL contemporaines.Les résultats empiriques obtenus dans différents environnements simulés valident l'efficacité des algorithmes proposés.Ces algorithmes représentent une contribution significative au domaine de l'allocation des ressources dans le cadre de l'apprentissage par renforcement et ouvrent la voie à de futures recherches sur des cadres d'apprentissage par renforcement plus généralisés et évolutifs
This thesis presents advances in Reinforcement Learning (RL) algorithms for resource and policy management in Restless Multi-Armed Bandit (RMAB) problems. We develop algorithms through two approaches in this area. First, for problems with discrete and binary actions, which is the original case of RMAB, we have developed QWI and QWINN. These algorithms compute Whittle indices, a heuristic that decouples the different RMAB processes, thereby simplifying the policy determination. Second, for problems with continuous actions, which generalize to Weakly Coupled Markov Decision Processes (MDPs), we propose LPCA. This algorithm employs a Lagrangian relaxation to decouple the different MDPs.The QWI and QWINN algorithms are introduced as two-timescale methods for computing Whittle indices for RMAB problems. In our results, we show mathematically that the estimates of Whittle indices of QWI converge to the theoretical values. QWINN, an extension of QWI, incorporates neural networks to compute the Q-values used to compute the Whittle indices. Through our results, we present the local convergence properties of the neural network used in QWINN. Our results show how QWINN outperforms QWI in terms of convergence rates and scalability.In the continuous action case, the LPCA algorithm applies a Lagrangian relaxation to decouple the linked decision processes, allowing for efficient computation of optimal policies under resource constraints. We propose two different optimization methods, differential evolution and greedy optimization strategies, to efficiently handle resource allocation. In our results, LPCA shows superior performance over other contemporary RL approaches.Empirical results from different simulated environments validate the effectiveness of the proposed algorithms.These algorithms represent a significant contribution to the field of resource allocation in RL and pave the way for future research into more generalized and scalable reinforcement learning frameworks
APA, Harvard, Vancouver, ISO, and other styles
2

Hadiji, Hédi. "On some adaptivity questions in stochastic multi-armed bandits." Thesis, université Paris-Saclay, 2020. http://www.theses.fr/2020UPASM021.

Full text
Abstract:
Cette thèse s'inscrit dans le domaine des statistiques séquentielles. Le cadre principal étudié est celui des bandits stochastiques à plusieurs bras, cadre idéal qui modélise le dilemme exploration-exploitation face à des choix répétés. La thèse est composée de quatre chapitres, précédés d'une introduction. Dans la première partie du corps de la thèse, on présente un nouvel algorithme capable d'atteindre des garanties optimales à la fois d'un point de vue distribution-dépendent et distribution-free. Les deux chapitres suivants sont consacrés à des questions dites d'adaptation. D'abord, on propose un algorithme capable de s'adapter à la régularité inconnue dans des problèmes de bandits continus, mettant en évidence le coût polynomial de l'adaptation en bandits continus. Ensuite, on considère un problème d'adaptation au supports pour des problèmes de bandits à K bras, à distributions de paiements bornés dans des intervalles inconnus. Enfin, dans un dernier chapitre un peu à part, on étudie un cadre légèrement différent de bandits préservant la diversité. On montre que le regret optimal dans ce cadre croît à des vitesses différentes des vitesses classiques, avec notamment la possibilité d'atteindre un regret constant sous certaines hypothèses
The main topics adressed in this thesis lie in the general domain of sequential learning, and in particular stochastic multi-armed bandits. The thesis is divided into four chapters and an introduction. In the first part of the main body of the thesis, we design a new algorithm achieving, simultaneously, distribution-dependent and distribution-free optimal guarantees. The next two chapters are devoted to adaptivity questions. First, in the context of continuum-armed bandits, we present a new algorithm which, for the first time, does not require the knowledge of the regularity of the bandit problem it is facing. Then, we study the issue of adapting to the unknown support of the payoffs in bounded K-armed bandits. We provide a procedure that (almost) obtains the same guarantees as if it was given the support in advance. In the final chapter, we study a slightly different bandit setting, designed to enforce diversity-preserving conditions on the strategies. We show that the optimal regert in this setting at a speed that is quite different from the traditional bandit setting. In particular, we observe that bounded regret is possible under some specific hypotheses
APA, Harvard, Vancouver, ISO, and other styles
3

Iacob, Alexandra. "Scalable Model-Free Algorithms for Influencer Marketing." Electronic Thesis or Diss., université Paris-Saclay, 2023. http://www.theses.fr/2023UPASG012.

Full text
Abstract:
Motivés par les scénarios de diffusion de l'information et de publicité dans le les réseaux sociaux, nous étudions un problème de maximisation de l'influence (MI) dans lequel on suppose que l'on en sait peu sur le réseau de diffusion ou sur le modèle qui détermine comment l'information peut se propager.Dans un tel environnement incertain, on peut se concentrer sur des campagnes de diffusion à plusieurs tours, avec l'objectif de maximiser le nombre d'utilisateurs distincts qui sont influencés ou activés, à partir d'une base de nœuds influents.Au cours d'une campagne, les graines de propagation sont sélectionnées séquentiellement lors de tours consécutifs, et les commentaires sont collectés sous la forme des nœuds activés à chaque tour.L'impact (récompense) d'un tour est alors quantifié par le nombre de nœuds nouvellement activés. En général, il faut maximiser la propagation totale de la campagne, comme la somme des récompenses des tours.Nous considérons deux sous-classes de d'IM, emph{cimp} (CIMP) et emph{ecimp} (ECIMP), où (i) la récompense d'un tour d'une campagne en cours consiste uniquement en de nouvelles activations (non observées lors des tours précédents de cette campagne),(ii) le contexte du tour et les données historiques des tours précédents peuvent être exploités pour apprendre la meilleure politique, et(iii) ECIMP est CIMP répété plusieurs fois, ce qui permet d'apprendre également des campagnes précédentes.Ce problème est directement motivé par les scénarios du monde réel de la diffusion de l'information dans le marketing d'influence, où (i) seule la première / unique activation d'un utilisateur cible présente un intérêt (et cette activation persistera comme une activation acquise, latente, tout au long de la campagne).(ii) de précieuses informations secondaires sont disponibles pour l'agent d'apprentissageDans ce contexte, une approche d'exploration-exploitation pourrait être utilisée pour apprendre les principaux paramètres de diffusion sous-jacents, tout en exécutant les campagnes.Pour CIMP, nous décrivons et comparons deux méthodes de bandits à bras multiples contextuels, avec des limites supérieures de confiance sur le potentiel restant des influenceurs, l'une utilisant un modèle linéaire généralisé et l'estimateur de Good-Turing pour le potentiel restant, et l'autre adaptant directement l'algorithme LinUCB à notre cadre.Pour ECIMP, nous proposons l'algorithmelgtlsvi qui implémente le principe d'optimisme face à l'incertitude pour l'apprentissage par renforcement, avec approximation linéaire.L'agent d'apprentissage estime pour chaque nœud de départ son potentiel restant avec un estimateur de Good-Turing, modifié par une fonction Q estimée. Nous montrons qu'ils surpassent les performances des méthodes de base utilisant les idées les plus récentes, sur des données synthétiques et réelles, tout en présentant un comportement différent et complémentaire, selon les scénarios dans lesquels ils sont déployés
Motivated by scenarios of information diffusion and advertising in social media, we study an emph{influence maximization} (IM) problem in which little is assumed to be known about the diffusion network or about the model that determines how information may propagate. In such a highly uncertain environment, one can focus on emph{multi-round diffusion campaigns}, with the objective to maximize the number of distinct users that are influenced or activated, starting from a known base of few influential nodes.During a campaign, spread seeds are selected sequentially at consecutive rounds, and feedback is collected in the form of the activated nodes at each round.A round's impact (reward) is then quantified as the number of emph{newly activated nodes}.Overall, one must maximize the campaign's total spread, as the sum of rounds' rewards.We consider two sub-classes of IM, emph{cimp} (CIMP) and emph{ecimp} (ECIMP), where (i) the reward of a given round of an ongoing campaign consists of only the extit{new activations} (not observed at previous rounds within that campaign), (ii) the round's context and the historical data from previous rounds can be exploited to learn the best policy, and (iii) ECIMP is CIMP repeated multiple times, offering the possibility of learning from previous campaigns as well.This problem is directly motivated by the real-world scenarios of information diffusion in emph{influencer marketing}, where (i) only a target user's emph{first} / unique activation is of interest (and this activation will emph{persist} as an acquired, latent one throughout the campaign), and (ii) valuable side-information is available to the learning agent.In this setting, an explore-exploit approach could be used to learn the key underlying diffusion parameters, while running the campaigns.For CIMP, we describe and compare two methods of emph{contextual multi-armed bandits}, with emph{upper-confidence bounds} on the remaining potential of influencers, one using a generalized linear model and the Good-Turing estimator for remaining potential (glmucb), and another one that directly adapts the LinUCB algorithm to our setting (linucb).For ECIMP, we propose the algorithmlgtlsvi, which implements the extit{optimism in the face of uncertainty} principle for episodic reinforcement learning with linear approximation. The learning agent estimates for each seed node its remaining potential with a Good-Turing estimator, modified by an estimated Q-function.We show that they outperform baseline methods using state-of-the-art ideas, on synthetic and real-world data, while at the same time exhibiting different and complementary behavior, depending on the scenarios in which they are deployed
APA, Harvard, Vancouver, ISO, and other styles
4

Besson, Lilian. "Multi-Players Bandit Algorithms for Internet of Things Networks." Thesis, CentraleSupélec, 2019. http://www.theses.fr/2019CSUP0005.

Full text
Abstract:
Dans cette thèse de doctorat, nous étudions les réseaux sans fil et les appareils reconfigurables qui peuvent accéder à des réseaux de type radio intelligente, dans des bandes non licenciées et sans supervision centrale. Nous considérons notamment des réseaux actuels ou futurs de l’Internet des Objets (IoT), avec l’objectif d’augmenter la durée de vie de la batterie des appareils, en les équipant d’algorithmes d’apprentissage machine peu coûteux mais efficaces, qui leur permettent d’améliorer automatiquement l’efficacité de leurs communications sans fil. Nous proposons deux modèles de réseaux IoT, et nous montrons empiriquement, par des simulations numériques et une validation expérimentale réaliste, le gain que peuvent apporter nos méthodes, qui se reposent sur l’apprentissage par renforcement. Les différents problèmes d’accès au réseau sont modélisés avec des Bandits Multi-Bras (MAB), mais l’analyse de la convergence d’un grand nombre d’appareils jouant à un jeu collaboratif sans communication ni aucune coordination reste délicate, lorsque les appareils suivent tous un modèle d’activation aléatoire. Le reste de ce manuscrit étudie donc deux modèles restreints, d’abord des banditsmulti-joueurs dans des problèmes stationnaires, puis des bandits mono-joueur non stationnaires. Nous détaillons également une autre contribution, la bibliothèque Python open-source SMPyBandits, qui permet des simulations numériques de problèmes MAB, qui couvre les modèles étudiés et d’autres
In this PhD thesis, we study wireless networks and reconfigurable end-devices that can access Cognitive Radio networks, in unlicensed bands and without central control. We focus on Internet of Things networks (IoT), with the objective of extending the devices’ battery life, by equipping them with low-cost but efficient machine learning algorithms, in order to let them automatically improve the efficiency of their wireless communications. We propose different models of IoT networks, and we show empirically on both numerical simulations and real-world validation the possible gain of our methods, that use Reinforcement Learning. The different network access problems are modeled as Multi-Armed Bandits (MAB), but we found that analyzing the realistic models was intractable, because proving the convergence of many IoT devices playing a collaborative game, without communication nor coordination is hard, when they all follow random activation patterns. The rest of this manuscript thus studies two restricted models, first multi-players bandits in stationary problems, then non-stationary single-player bandits. We also detail another contribution, SMPyBandits, our open-source Python library for numerical MAB simulations, that covers all the studied models and more
APA, Harvard, Vancouver, ISO, and other styles
5

Jedor, Matthieu. "Bandit algorithms for recommender system optimization." Thesis, université Paris-Saclay, 2020. http://www.theses.fr/2020UPASM027.

Full text
Abstract:
Dans cette thèse de doctorat, nous étudions l'optimisation des systèmes de recommandation dans le but de fournir des suggestions de produits plus raffinées pour un utilisateur.La tâche est modélisée à l'aide du cadre des bandits multi-bras.Dans une première partie, nous abordons deux problèmes qui se posent fréquemment dans les systèmes de recommandation : le grand nombre d'éléments à traiter et la gestion des contenus sponsorisés.Dans une deuxième partie, nous étudions les performances empiriques des algorithmes de bandit et en particulier comment paramétrer les algorithmes traditionnels pour améliorer les résultats dans les environnements stationnaires et non stationnaires qui l'on rencontre en pratique.Cela nous amène à analyser à la fois théoriquement et empiriquement l'algorithme glouton qui, dans certains cas, est plus performant que l'état de l'art
In this PhD thesis, we study the optimization of recommender systems with the objective of providing more refined suggestions of items for a user to benefit.The task is modeled using the multi-armed bandit framework.In a first part, we look upon two problems that commonly occured in recommendation systems: the large number of items to handle and the management of sponsored contents.In a second part, we investigate the empirical performance of bandit algorithms and especially how to tune conventional algorithm to improve results in stationary and non-stationary environments that arise in practice.This leads us to analyze both theoretically and empirically the greedy algorithm that, in some cases, outperforms the state-of-the-art
APA, Harvard, Vancouver, ISO, and other styles
6

Ménard, Pierre. "Sur la notion d'optimalité dans les problèmes de bandit stochastique." Thesis, Toulouse 3, 2018. http://www.theses.fr/2018TOU30087/document.

Full text
Abstract:
Cette thèse s'inscrit dans les domaines de l'apprentissage statistique et de la statistique séquentielle. Le cadre principal est celui des problèmes de bandit stochastique à plusieurs bras. Dans une première partie, on commence par revisiter les bornes inférieures sur le regret. On obtient ainsi des bornes non-asymptotiques dépendantes de la distribution que l'on prouve de manière très simple en se limitant à quelques propriétés bien connues de la divergence de Kullback-Leibler. Puis, on propose des algorithmes pour la minimisation du regret dans les problèmes de bandit stochastique paramétrique dont les bras appartiennent à une certaine famille exponentielle ou non-paramétrique en supposant seulement que les bras sont à support dans l'intervalle unité, pour lesquels on prouve l'optimalité asymptotique (au sens de la borne inférieure de Lai et Robbins) et l'optimalité minimax. On analyse aussi la complexité pour l'échantillonnage séquentielle visant à identifier la distribution ayant la moyenne la plus proche d'un seuil fixé, avec ou sans l'hypothèse que les moyennes des bras forment une suite croissante. Ce travail est motivé par l'étude des essais cliniques de phase I, où l'hypothèse de croissance est naturelle. Finalement, on étend l'inégalité de Fano qui contrôle la probabilité d'évènements disjoints avec une moyenne de divergences de Kullback-leibler à des variables aléatoires arbitraires bornées sur l'intervalle unité. Plusieurs nouvelles applications en découlent, les plus importantes étant une borne inférieure sur la vitesse de concentration de l'a posteriori Bayésien et une borne inférieure sur le regret pour un problème de bandit non-stochastique
The topics addressed in this thesis lie in statistical machine learning and sequential statistic. Our main framework is the stochastic multi-armed bandit problems. In this work we revisit lower bounds on the regret. We obtain non-asymptotic, distribution-dependent bounds and provide simple proofs based only on well-known properties of Kullback-Leibler divergence. These bounds show in particular that in the initial phase the regret grows almost linearly, and that the well-known logarithmic growth of the regret only holds in a final phase. Then, we propose algorithms for regret minimization in stochastic bandit models with exponential families of distributions or with distribution only assumed to be supported by the unit interval, that are simultaneously asymptotically optimal (in the sense of Lai and Robbins lower bound) and minimax optimal. We also analyze the sample complexity of sequentially identifying the distribution whose expectation is the closest to some given threshold, with and without the assumption that the mean values of the distributions are increasing. This work is motivated by phase I clinical trials, a practically important setting where the arm means are increasing by nature. Finally we extend Fano's inequality, which controls the average probability of (disjoint) events in terms of the average of some Kullback-Leibler divergences, to work with arbitrary unit-valued random variables. Several novel applications are provided, in which the consideration of random variables is particularly handy. The most important applications deal with the problem of Bayesian posterior concentration (minimax or distribution-dependent) rates and with a lower bound on the regret in non-stochastic sequential learning
APA, Harvard, Vancouver, ISO, and other styles
7

Degenne, Rémy. "Impact of structure on the design and analysis of bandit algorithms." Thesis, Université de Paris (2019-....), 2019. http://www.theses.fr/2019UNIP7179.

Full text
Abstract:
Cette thèse porte sur des problèmes d'apprentissage statistique séquentiel, dits bandits stochastiques à plusieurs bras. Dans un premier temps un algorithme de bandit est présenté. L'analyse de cet algorithme, comme la majorité des preuves usuelles de bornes de regret pour algorithmes de bandits, utilise des intervalles de confiance pour les moyennes des bras. Dans un cadre paramétrique,on prouve des inégalités de concentration quantifiant la déviation entre le paramètre d'une distribution et son estimation empirique, afin d'obtenir de tels intervalles. Ces inégalités sont exprimées en fonction de la divergence de Kullback-Leibler. Trois extensions du problème de bandits sont ensuite étudiées. Premièrement on considère le problème dit de semi-bandit combinatoire, dans lequel un algorithme choisit un ensemble de bras et la récompense de chaque bras est observée. Le regret minimal atteignable dépend alors de la corrélation entre les bras. On considère ensuite un cadre où on change le mécanisme d'obtention des observations provenant des différents bras. Une source de difficulté du problème de bandits est la rareté de l'information: seul le bras choisi est observé. On montre comment on peut tirer parti de la disponibilité d'observations supplémentaires gratuites, ne participant pas au regret. Enfin, une nouvelle famille d'algorithmes est présentée afin d'obtenir à la fois des guaranties de minimisation de regret et d'identification du meilleur bras. Chacun des algorithmes réalise un compromis entre regret et temps d'identification. On se penche dans un deuxième temps sur le problème dit d'exploration pure, dans lequel un algorithme n'est pas évalué par son regret mais par sa probabilité d'erreur quant à la réponse à une question posée sur le problème. On détermine la complexité de tels problèmes et on met au point des algorithmes approchant cette complexité
In this Thesis, we study sequential learning problems called stochastic multi-armed bandits. First a new bandit algorithm is presented. The analysis of that algorithm uses confidence intervals on the mean of the arms reward distributions, as most bandit proofs do. In a parametric setting, we derive concentration inequalities which quantify the deviation between the mean parameter of a distribution and its empirical estimation in order to obtain confidence intervals. These inequalities are presented as bounds on the Kullback-Leibler divergence. Three extensions of the stochastic multi-armed bandit problem are then studied. First we study the so-called combinatorial semi-bandit problem, in which an algorithm chooses a set of arms and the reward of each of these arms is observed. The minimal attainable regret then depends on the correlation between the arm distributions. We consider then a setting in which the observation mechanism changes. One source of difficulty of the bandit problem is the scarcity of information: only the arm pulled is observed. We show how to use efficiently eventual supplementary free information (which do not influence the regret). Finally a new family of algorithms is introduced to obtain both regret minimization and est arm identification regret guarantees. Each algorithm of the family realizes a trade-off between regret and time needed to identify the best arm. In a second part we study the so-called pure exploration problem, in which an algorithm is not evaluated on its regret but on the probability that it returns a wrong answer to a question on the arm distributions. We determine the complexity of such problems and design with performance close to that complexity
APA, Harvard, Vancouver, ISO, and other styles
8

Kaufmann, Emilie. "Analyse de stratégies bayésiennes et fréquentistes pour l'allocation séquentielle de ressources." Thesis, Paris, ENST, 2014. http://www.theses.fr/2014ENST0056/document.

Full text
Abstract:
Dans cette thèse, nous étudions des stratégies d’allocation séquentielle de ressources. Le modèle statistique adopté dans ce cadre est celui du bandit stochastique à plusieurs bras. Dans ce modèle, lorsqu’un agent tire un bras du bandit, il reçoit pour récompense une réalisation d’une distribution de probabilité associée au bras. Nous nous intéressons à deux problèmes de bandit différents : la maximisation de la somme des récompenses et l’identification des meilleurs bras (où l’agent cherche à identifier le ou les bras conduisant à la meilleure récompense moyenne, sans subir de perte lorsqu’il tire un «mauvais» bras). Nous nous attachons à proposer pour ces deux objectifs des stratégies de tirage des bras, aussi appelées algorithmes de bandit, que l’on peut qualifier d’optimales. La maximisation des récompenses est équivalente à la minimisation d’une quantité appelée regret. Grâce à une borne inférieure asymptotique sur le regret d’une stratégie uniformément efficace établie par Lai et Robbins, on peut définir la notion d’algorithme asymptotiquement optimal comme un algorithme dont le regret atteint cette borne inférieure. Dans cette thèse, nous proposons pour deux algorithmes d’inspiration bayésienne, Bayes-UCB et Thompson Sampling, une analyse à temps fini dans le cadre des modèles de bandit à récompenses binaires, c’est-à-dire une majoration non asymptotique de leur regret. Cette majoration permetd’établir l’optimalité asymptotique des deux algorithmes. Dans le cadre de l’identification des meilleurs bras, on peut chercher à déterminer le nombre total d’échantillons des bras nécessaires pour identifier, avec forte probabilité, le ou les meilleurs bras, sans la contrainte de maximiser la somme des observations. Nous définissons deux termes de complexité pour l’identification des meilleurs bras dans deux cadres considérés dans la littérature, qui correspondent à un budget fixé ou à un niveau de confiance fixé. Nous proposons de nouvelles bornes inférieures sur ces complexités, et nous analysons de nouveaux algorithmes, dont certains atteignent les bornes inférieures dans des cas particuliers de modèles de bandit à deux bras, et peuvent donc être qualifiés d’optimaux
In this thesis, we study strategies for sequential resource allocation, under the so-called stochastic multi-armed bandit model. In this model, when an agent draws an arm, he receives as a reward a realization from a probability distribution associated to the arm. In this document, we consider two different bandit problems. In the reward maximization objective, the agent aims at maximizing the sum of rewards obtained during his interaction with the bandit, whereas in the best arm identification objective, his goal is to find the set of m best arms (i.e. arms with highest mean reward), without suffering a loss when drawing ‘bad’ arms. For these two objectives, we propose strategies, also called bandit algorithms, that are optimal (or close to optimal), in a sense precised below. Maximizing the sum of rewards is equivalent to minimizing a quantity called regret. Thanks to an asymptotic lower bound on the regret of any uniformly efficient algorithm given by Lai and Robbins, one can define asymptotically optimal algorithms as algorithms whose regret reaches this lower bound. In this thesis, we propose, for two Bayesian algorithms, Bayes-UCB and Thompson Sampling, a finite-time analysis, that is a non-asymptotic upper bound on their regret, in the particular case of bandits with binary rewards. This upper bound allows to establish the asymptotic optimality of both algorithms. In the best arm identification framework, a possible goal is to determine the number of samples of the armsneeded to identify, with high probability, the set of m best arms. We define a notion of complexity for best arm identification in two different settings considered in the literature: the fixed-budget and fixed-confidence settings. We provide new lower bounds on these complexity terms and we analyse new algorithms, some of which reach the lower bound in particular cases of two-armed bandit models and are therefore optimal
APA, Harvard, Vancouver, ISO, and other styles
9

Kaufmann, Emilie. "Analyse de stratégies bayésiennes et fréquentistes pour l'allocation séquentielle de ressources." Electronic Thesis or Diss., Paris, ENST, 2014. http://www.theses.fr/2014ENST0056.

Full text
Abstract:
Dans cette thèse, nous étudions des stratégies d’allocation séquentielle de ressources. Le modèle statistique adopté dans ce cadre est celui du bandit stochastique à plusieurs bras. Dans ce modèle, lorsqu’un agent tire un bras du bandit, il reçoit pour récompense une réalisation d’une distribution de probabilité associée au bras. Nous nous intéressons à deux problèmes de bandit différents : la maximisation de la somme des récompenses et l’identification des meilleurs bras (où l’agent cherche à identifier le ou les bras conduisant à la meilleure récompense moyenne, sans subir de perte lorsqu’il tire un «mauvais» bras). Nous nous attachons à proposer pour ces deux objectifs des stratégies de tirage des bras, aussi appelées algorithmes de bandit, que l’on peut qualifier d’optimales. La maximisation des récompenses est équivalente à la minimisation d’une quantité appelée regret. Grâce à une borne inférieure asymptotique sur le regret d’une stratégie uniformément efficace établie par Lai et Robbins, on peut définir la notion d’algorithme asymptotiquement optimal comme un algorithme dont le regret atteint cette borne inférieure. Dans cette thèse, nous proposons pour deux algorithmes d’inspiration bayésienne, Bayes-UCB et Thompson Sampling, une analyse à temps fini dans le cadre des modèles de bandit à récompenses binaires, c’est-à-dire une majoration non asymptotique de leur regret. Cette majoration permetd’établir l’optimalité asymptotique des deux algorithmes. Dans le cadre de l’identification des meilleurs bras, on peut chercher à déterminer le nombre total d’échantillons des bras nécessaires pour identifier, avec forte probabilité, le ou les meilleurs bras, sans la contrainte de maximiser la somme des observations. Nous définissons deux termes de complexité pour l’identification des meilleurs bras dans deux cadres considérés dans la littérature, qui correspondent à un budget fixé ou à un niveau de confiance fixé. Nous proposons de nouvelles bornes inférieures sur ces complexités, et nous analysons de nouveaux algorithmes, dont certains atteignent les bornes inférieures dans des cas particuliers de modèles de bandit à deux bras, et peuvent donc être qualifiés d’optimaux
In this thesis, we study strategies for sequential resource allocation, under the so-called stochastic multi-armed bandit model. In this model, when an agent draws an arm, he receives as a reward a realization from a probability distribution associated to the arm. In this document, we consider two different bandit problems. In the reward maximization objective, the agent aims at maximizing the sum of rewards obtained during his interaction with the bandit, whereas in the best arm identification objective, his goal is to find the set of m best arms (i.e. arms with highest mean reward), without suffering a loss when drawing ‘bad’ arms. For these two objectives, we propose strategies, also called bandit algorithms, that are optimal (or close to optimal), in a sense precised below. Maximizing the sum of rewards is equivalent to minimizing a quantity called regret. Thanks to an asymptotic lower bound on the regret of any uniformly efficient algorithm given by Lai and Robbins, one can define asymptotically optimal algorithms as algorithms whose regret reaches this lower bound. In this thesis, we propose, for two Bayesian algorithms, Bayes-UCB and Thompson Sampling, a finite-time analysis, that is a non-asymptotic upper bound on their regret, in the particular case of bandits with binary rewards. This upper bound allows to establish the asymptotic optimality of both algorithms. In the best arm identification framework, a possible goal is to determine the number of samples of the armsneeded to identify, with high probability, the set of m best arms. We define a notion of complexity for best arm identification in two different settings considered in the literature: the fixed-budget and fixed-confidence settings. We provide new lower bounds on these complexity terms and we analyse new algorithms, some of which reach the lower bound in particular cases of two-armed bandit models and are therefore optimal
APA, Harvard, Vancouver, ISO, and other styles
10

Clement, Benjamin. "Adaptive Personalization of Pedagogical Sequences using Machine Learning." Thesis, Bordeaux, 2018. http://www.theses.fr/2018BORD0373/document.

Full text
Abstract:
Les ordinateurs peuvent-ils enseigner ? Pour répondre à cette question, la recherche dans les Systèmes Tuteurs Intelligents est en pleine expansion parmi la communauté travaillant sur les Technologies de l'Information et de la Communication pour l'Enseignement (TICE). C'est un domaine qui rassemble différentes problématiques et réunit des chercheurs venant de domaines variés, tels que la psychologie, la didactique, les neurosciences et, plus particulièrement, le machine learning. Les technologies numériques deviennent de plus en plus présentes dans la vie quotidienne avec le développement des tablettes et des smartphones. Il semble naturel d'utiliser ces technologies dans un but éducatif. Cela amène de nombreuses problématiques, telles que comment faire des interfaces accessibles à tous, comment rendre des contenus pédagogiques motivants ou encore comment personnaliser les activités afin d'adapter le contenu à chacun. Au cours de cette thèse, nous avons développé des méthodes, regroupées dans un framework nommé HMABITS, afin d'adapter des séquences d'activités pédagogiques en fonction des performances et des préférences des apprenants, dans le but de maximiser leur vitesse d'apprentissage et leur motivation. Ces méthodes utilisent des modèles computationnels de motivation intrinsèque pour identifier les activités offrant les plus grands progrès d'apprentissage, et utilisent des algorithmes de Bandits Multi-Bras pour gérer le compromis exploration/exploitation à l'intérieur de l'espace d'activité. Les activités présentant un intérêt optimal sont ainsi privilégiées afin de maintenir l'apprenant dans un état de Flow ou dans sa Zone de Développement Proximal. De plus, certaines de nos méthodes permettent à l'apprenant de faire des choix sur des caractéristiques contextuelles ou le contenu pédagogique de l'application, ce qui est un vecteur d'autodétermination et de motivation. Afin d'évaluer l'efficacité et la pertinence de nos algorithmes, nous avons mené plusieurs types d'expérimentation. Nos méthodes ont d'abord été testées en simulation afin d'évaluer leur fonctionnement avant de les utiliser dans d'actuelles applications d'apprentissage. Pour ce faire, nous avons développé différents modèles d'apprenants, afin de pouvoir éprouver nos méthodes selon différentes approches, un modèle d'apprenant virtuel ne reflétant jamais le comportement d'un apprenant réel. Les résultats des simulations montrent que le framework HMABITS permet d'obtenir des résultats d'apprentissage comparables et, dans certains cas, meilleurs qu'une solution optimale ou qu'une séquence experte. Nous avons ensuite développé notre propre scénario pédagogique et notre propre serious game afin de tester nos algorithmes en situation réelle avec de vrais élèves. Nous avons donc développé un jeu sur la thématique de la décomposition des nombres, au travers de la manipulation de la monnaie, pour les enfants de 6 à 8 ans. Nous avons ensuite travaillé avec le rectorat et différentes écoles de l'académie de bordeaux. Sur l'ensemble des expérimentations, environ 1000 élèves ont travaillé sur l'application sur tablette. Les résultats des études en situation réelle montrent que le framework HMABITS permet aux élèves d'accéder à des activités plus diverses et plus difficiles, d'avoir un meilleure apprentissage et d'être plus motivés qu'avec une séquence experte. Les résultats montrent même que ces effets sont encore plus marqués lorsque les élèves ont la possibilité de faire des choix
Can computers teach people? To answer this question, Intelligent Tutoring Systems are a rapidly expanding field of research among the Information and Communication Technologies for the Education community. This subject brings together different issues and researchers from various fields, such as psychology, didactics, neurosciences and, particularly, machine learning. Digital technologies are becoming more and more a part of everyday life with the development of tablets and smartphones. It seems natural to consider using these technologies for educational purposes. This raises several questions, such as how to make user interfaces accessible to everyone, how to make educational content motivating and how to customize it to individual learners. In this PhD, we developed methods, grouped in the aptly-named HMABITS framework, to adapt pedagogical activity sequences based on learners' performances and preferences to maximize their learning speed and motivation. These methods use computational models of intrinsic motivation and curiosity-driven learning to identify the activities providing the highest learning progress and use Multi-Armed Bandit algorithms to manage the exploration/exploitation trade-off inside the activity space. Activities of optimal interest are thus privileged with the target to keep the learner in a state of Flow or in his or her Zone of Proximal Development. Moreover, some of our methods allow the student to make choices about contextual features or pedagogical content, which is a vector of self-determination and motivation. To evaluate the effectiveness and relevance of our algorithms, we carried out several types of experiments. We first evaluated these methods with numerical simulations before applying them to real teaching conditions. To do this, we developed multiple models of learners, since a single model never exactly replicates the behavior of a real learner. The simulation results show the HMABITS framework achieves comparable, and in some cases better, learning results than an optimal solution or an expert sequence. We then developed our own pedagogical scenario and serious game to test our algorithms in classrooms with real students. We developed a game on the theme of number decomposition, through the manipulation of money, for children aged 6 to 8. We then worked with the educational institutions and several schools in the Bordeaux school district. Overall, about 1000 students participated in trial lessons using the tablet application. The results of the real-world studies show that the HMABITS framework allows the students to do more diverse and difficult activities, to achieve better learning and to be more motivated than with an Expert Sequence. The results show that this effect is even greater when the students have the possibility to make choices
APA, Harvard, Vancouver, ISO, and other styles

Book chapters on the topic "Bandit à plusieurs bras"

1

Lorre-Johnston, Christine. "Gayatri Chakravorty Spivak." In Gayatri Chakravorty Spivak, 67–87. Hermann, 2023. http://dx.doi.org/10.3917/herm.renau.2023.02.0067.

Full text
Abstract:
Le concept de « worlding » chez Spivak. Dé-crire, Ré-inscrire, Re-monder Cet essai propose une exégèse du concept de worlding tel qu’emprunté à Martin Heidegger et transformé par Gayatri Spivak dans le milieu des années 1980, et donne un aperçu de la manière dont il a été ensuite de nouveau approprié par d’autres critiques. L’analyse de cette démarche constitue ainsi un éclairage sur « la méthode Spivak », laquelle consiste à s’emparer de mots et de concepts pour en faire des outils de production d’une théorie critique qui refuse la clôture, prend à bras-le-corps les discontinuités, et continue de proposer de nouvelles directions de pensée, constituant en cela par elle-même une forme de worlding , c’est-à-dire la composition située et propre d’un ordre du monde. Dans deux essais publiés en 1985 (« Three Women’s Texts and a Critique of Imperialism » et « The Rani of Sirmur: An Essay on Reading the Archives »), Spivak reprend le concept de composition du monde exploré dans l’essai de Martin Heidegger, De l’origine de l’œuvre d’art (1935), pour le transférer du monde artistique au monde colonial, l’investissant ainsi d’un caractère fortement politique. Elle opère simultanément une deuxième substitution, en appliquant les principes de la déconstruction au contexte colonial, se donnant ainsi les moyens d’une critique radicale de l’Occident et du colonialisme ; là où Derrida parle d’écriture, Spivak parle de « discours colonial ». Sur la force de ce concept théorique, la traduction est éclairante. Le texte de Heidegger fut d’abord donné comme conférence et existe en plusieurs versions au début et milieu des années 1930. Là où Heidegger s’efforce de décrire ce qu’est un monde créé par une œuvre d’art, il constate qu’il n’est pas une somme d’éléments, mais un agent à part entière : « Welt weltet » (Heidegger, 1985, p. 22), traduit en anglais par : « The world worlds » (Heidegger, 1935, p. 44 ; italiques dans le texte). La traduction française (de Nicolas Rialland, 2002), évitant de recourir au néologisme verbal par lequel le monde devient agent, opte pour la prudence et passe par une périphrase, tout en ne perdant pas de vue le texte original : « Le monde rassemble et ordonne en monde ( Welt Weltet ) » (Heidegger, 2002, p. 23). En comparaison, la formulation en anglais, fondée sur la verbalisation du nom « monde » et sa répétition, le redoublant comme sujet et verbe d’action, bénéficie d’une véritable force d’énergie critique. Ce texte, en quatre parties, examine tour à tour l’emprunt du concept de worlding de Spivak à Heidegger et l’adaptation qu’elle en a faite au contexte (post)colonial ; la place de la pensée de la déconstruction dans ce geste critique et la réaction des critiques postcoloniaux dans leur ensemble ; plus spécifiquement, la réponse des critiques postcoloniaux n’habitant ni le tiers-monde ( Third World ), ni l’Occident ( First World ), mais la zone ambivalente des anciennes colonies de peuplement ( settler colonies ), à la fois colonisées et colonisatrices ; et plus récemment, la reconfiguration des questionnements liés au worlding dans le cadre d’une mondialisation que Spivak requalifie de « planétarité » ( planetarity ), en réponse aux limites du cadre de l’État-nation, et toujours dans une dynamique de critique évolutive. On peut conclure en constatant que dans la vision de Spivak, la critique est toujours provisoire, réactive, en réponse à des évolutions contemporaines rapides.
APA, Harvard, Vancouver, ISO, and other styles
2

"« Les nouvelles formes habitent et conditionne en le suicide, comme pas mal de d’expression qui apparaissent partie leur scolarité et leur filles de la cité. Quand tu vis là-chez les jeunes Maghrébins de accès au monde professionnel. dedans, tu es convaincue que France portent souvent la Dans une monographie, un ça été voulu comme ça, qu’on marque d’une longue jeune qui avait vécu dans les t’as mis sur la touche [4] pour expérience et d’un profond années soixante dans le plus que t’y restes, pour que tu te sentiment d’exclusion sociale, grand bidonville de la région sentes jamais chez toi, tu es là économique et politique. […] parisienne, « La Folie » à près de la sortie, et à tout Dans l’analyse de ce sentiment Nanterre, raconte: moment, on peut te mettre d’exclusion qu’expriment un – « Vraiment, je me carrément dehors ». (Malika, 25 grand nombre de ces jeunes, demande, qui est-ce qui a pu ans, Marseille) Pour d’autres plusieurs significations inventer le bidonville? Un jeunes, ceux qui ont grandi apparaissent: ils se sentent sadique certainement (…). Les dans les grands ensembles et exclus parce qu’ils sont ordures, on les laissait; les rats, les ZUP [5] qui ont été d’origine maghrébine, enfants on les laissait; les gosses construites à tour de bras [6] de manœuvres et d’ouvriers, tombaient malades, ils avaient dans les années soixante, le jeunes dans une société pas de place pour apprendre à sentiment d’être exclu est le vieillissante que leur jeunesse marcher. On avait honte, on même, mais il est différent effraie; ce sentiment était sales, et pourtant on dans sa nature: si on les a d’exclusion commence pour essayait d’être propres pour pas parqués à la périphérie des certains très tôt à l’école, qu’on sache [2] qu’on était du villes, ce n’est pas pour les ensuite, c’est le lieu bidonville ». exclure totalement de l’espace d’habitation, le manque de Plusieurs histoires allant urbain et social, mais pour les loisirs et de moyens, des dans le même sens sont empêcher d’y entrer. frustrations quotidiennes de racontées par des jeunes des leurs désirs et rêves d’enfants cités de transit de la région." In Francotheque: A resource for French studies, 61. Routledge, 2014. http://dx.doi.org/10.4324/978020378416-8.

Full text
APA, Harvard, Vancouver, ISO, and other styles

Conference papers on the topic "Bandit à plusieurs bras"

1

Hascoet, E., G. Valette, G. Le Toux, and S. Boisramé. "Proposition d’un protocole de prise en charge implanto-portée de patients traités en oncologie tête et cou suite à une étude rétrospective au CHRU de Brest." In 66ème Congrès de la SFCO. Les Ulis, France: EDP Sciences, 2020. http://dx.doi.org/10.1051/sfco/20206602009.

Full text
Abstract:
L’organisation de la réhabilitation maxillo-faciale implanto-portée en oncologie tête et cou reste sujet à débat. Il n’existe pas de consensus quant au moment de la réhabilitation implantaire (pendant ou à distance de l’exérèse) ou quant aux prérequis anatomiques qui garantissent son succès. Le but de cette étude est de mettre en place un protocole de prise en charge implanto-portée de patients ayant été traités en oncologie tête et cou. Il s’agit d’une étude rétrospective entre 2013 et 2017, analysant la réhabilitation implantoportée de neuf patients traités pour un cancer tête et cou par chirurgie et radiothérapie (groupe 1 : 5 patients) ou par chirurgie seule (groupe 2 : 4 patients). Les critères étudiés étaient les données personnelles des patients, leurs antécédents oncologiques, les bilans oraux pré-opératoires effectués, les thérapeutiques utilisées ainsi que le suivi. Tous les patients ont été traités pour des carcinomes épidermödes majoritairement situés au niveau du plancher buccal. Ils présentaient tous une limitation de la mobilité linguale, une absence de vestibule et des tissus crestaux mobiles. Les projets prothétiques prévoyaient de réaliser pour sept patients une prothèse amovible complète mandibulaire stabilisée sur implants et pour deux patients des couronnes unitaires sur implant. Les patients ayant recu un lambeau libre de péroné latéral ont bénéficié d’une greffe d’apposition associée à un lambeau de FAMM. Les deux greffes ont permises la pose des implants. Sur neuf patients, cinq ont bénéficié d’une libération linguale, six ont recu une vestibuloplastie et huit ont eu une greffe épithélio-conjonctive péri-implantaire. Les implants ont été posés sous anesthésie générale avec un guide chirurgical pointeur. Il s’agissait d’implants Tissu Level RN SLA Roxolid (Straumann, Basel, Suisse). Pour les patients du groupe 2, la pose des implants a eu lieu en même temps que la vestibuloplastie. Lors de cette étude quatre patients étaient réhabilités par une prothèse sur implants. Le groupe 2 n’a pas présenté de complications. Deux patients du groupe 1 ont nécessité plusieurs libérations linguales et deux implants ne se sont pas ostéointégrés dans ce groupe. Lors de chirurgies en deux temps, des greffes épithélio-conjonctives crestales ont dû être réalisées pendant la vestibuloplastie puis pendant la pose implantaire. Deux greffes osseuses ont été réalisées chez deux patients ayant été irradiés bien que cela soit contre indiqué dans la littérature (Raoul 2009). Une greffe osseuse d’apposition peut donc être une solution viable chez ces patients afin de limiter le bras de levier prothétique. Cette étude a permis de mettre en exergue : l’importance de prévoir en amont la réhabilitation implantoportée lors de la reconstruction pour une optimisation du positionnement du greffon osseux et l’intérêt d’effectuer dans le même temps vestibuloplastie, pose des implants et aménagement péri-implantaire pour la pérennité implantaire. Cette étude rétrospective a permis de proposer un protocole de prise en charge standardisé de la réhabilitation implanto-portée de patients traités pour un cancer tête et cou.
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography