Academic literature on the topic 'Safe Reinforcement Learning'
Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles
Consult the lists of relevant articles, books, theses, conference reports, and other scholarly sources on the topic 'Safe Reinforcement Learning.'
Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.
You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.
Journal articles on the topic "Safe Reinforcement Learning"
Horie, Naoto, Tohgoroh Matsui, Koichi Moriyama, Atsuko Mutoh, and Nobuhiro Inuzuka. "Multi-objective safe reinforcement learning: the relationship between multi-objective reinforcement learning and safe reinforcement learning." Artificial Life and Robotics 24, no. 3 (February 8, 2019): 352–59. http://dx.doi.org/10.1007/s10015-019-00523-3.
Full textYang, Yongliang, Kyriakos G. Vamvoudakis, and Hamidreza Modares. "Safe reinforcement learning for dynamical games." International Journal of Robust and Nonlinear Control 30, no. 9 (March 25, 2020): 3706–26. http://dx.doi.org/10.1002/rnc.4962.
Full textXu, Haoran, Xianyuan Zhan, and Xiangyu Zhu. "Constraints Penalized Q-learning for Safe Offline Reinforcement Learning." Proceedings of the AAAI Conference on Artificial Intelligence 36, no. 8 (June 28, 2022): 8753–60. http://dx.doi.org/10.1609/aaai.v36i8.20855.
Full textGarcía, Javier, and Fernando Fernández. "Probabilistic Policy Reuse for Safe Reinforcement Learning." ACM Transactions on Autonomous and Adaptive Systems 13, no. 3 (March 28, 2019): 1–24. http://dx.doi.org/10.1145/3310090.
Full textMannucci, Tommaso, Erik-Jan van Kampen, Cornelis de Visser, and Qiping Chu. "Safe Exploration Algorithms for Reinforcement Learning Controllers." IEEE Transactions on Neural Networks and Learning Systems 29, no. 4 (April 2018): 1069–81. http://dx.doi.org/10.1109/tnnls.2017.2654539.
Full textKarthikeyan, P., Wei-Lun Chen, and Pao-Ann Hsiung. "Autonomous Intersection Management by Using Reinforcement Learning." Algorithms 15, no. 9 (September 13, 2022): 326. http://dx.doi.org/10.3390/a15090326.
Full textMazouchi, Majid, Subramanya Nageshrao, and Hamidreza Modares. "Conflict-Aware Safe Reinforcement Learning: A Meta-Cognitive Learning Framework." IEEE/CAA Journal of Automatica Sinica 9, no. 3 (March 2022): 466–81. http://dx.doi.org/10.1109/jas.2021.1004353.
Full textCowen-Rivers, Alexander I., Daniel Palenicek, Vincent Moens, Mohammed Amin Abdullah, Aivar Sootla, Jun Wang, and Haitham Bou-Ammar. "SAMBA: safe model-based & active reinforcement learning." Machine Learning 111, no. 1 (January 2022): 173–203. http://dx.doi.org/10.1007/s10994-021-06103-6.
Full textSerrano-Cuevas, Jonathan, Eduardo F. Morales, and Pablo Hernández-Leal. "Safe reinforcement learning using risk mapping by similarity." Adaptive Behavior 28, no. 4 (July 18, 2019): 213–24. http://dx.doi.org/10.1177/1059712319859650.
Full textAndersen, Per-Arne, Morten Goodwin, and Ole-Christoffer Granmo. "Towards safe reinforcement-learning in industrial grid-warehousing." Information Sciences 537 (October 2020): 467–84. http://dx.doi.org/10.1016/j.ins.2020.06.010.
Full textDissertations / Theses on the topic "Safe Reinforcement Learning"
Magnusson, Björn, and Måns Forslund. "SAFE AND EFFICIENT REINFORCEMENT LEARNING." Thesis, Örebro universitet, Institutionen för naturvetenskap och teknik, 2019. http://urn.kb.se/resolve?urn=urn:nbn:se:oru:diva-76588.
Full textFörprogrammering av en robot kan vara effektiv i viss utsträckning, men eftersom en människa har programmerat roboten kommer den bara att vara lika effektiv som programmet är skrivet. Problemet kan lösas genom att använda maskininlärning. Detta gör att roboten kan lära sig det effektivaste sättet på sitt sätt. Denna avhandling är fortsättning på ett tidigare arbete som täckte utvecklingen av ramverket Safe-To-Explore-State-Spaces (STESS) för säker robot manipulation. Denna avhandling utvärderar effektiviteten hos Q-Learning with normalized advantage function (NAF), en deep reinforcement learning algoritm, när den integreras med ramverket STESS. Det gör detta genom att utföra en 2D-uppgift där roboten flyttar sitt verktyg på ett plan från punkt A till punkt B i en förbestämd arbetsyta. För att testa effektiviteten presenterades olika scenarier för roboten. Inga hinder, hinder med sfärisk form och hinder med cylindrisk form. Deep reinforcement learning algoritmen visste bara startpositionen och STESS-fördefinierade arbetsytan och begränsade de områden som roboten inte fick beträda. Genom att uppfylla dessa hinder kunde roboten utforska och lära sig det mest effektiva sättet att utföra sin uppgift. Resultaten visar att NAF-algoritmen i simulering lär sig snabbt och effektivt, samtidigt som man undviker hindren utan kollision.
Mason, George. "Safe reinforcement learning using formally verified abstract policies." Thesis, University of York, 2018. http://etheses.whiterose.ac.uk/22450/.
Full textIakovidis, Grigorios. "Safe Reinforcement Learning for Remote Electrical Tilt Optimization." Thesis, KTH, Skolan för elektroteknik och datavetenskap (EECS), 2021. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-294161.
Full textJusteringen av den vertikala lutningsvinkeln hos basstationens antenner, även kallad Remote Electrical Tilt (RET) optimering, är en enkel och effektiv metod för att optimera moderna telenät. Förstärkningsinlärning är en maskininlärningsram som kan lösa komplexa problem som RET-optimering tack vare dess förmåga att lära sig av erfarenhet och anpassa sig till dynamiska miljöer. Konventionella förstärkningsinlärning metoder innebär emellertid försök och felprocesser som kan leda till korta perioder av dålig nätverksprestanda, vilket är oacceptabelt förmobilnätoperatörerna. Denna otillförlitlighet har hindrat förstärkningsinlärning lösningar från att användas i verkliga mobila nätverk. I denna hypotes formulerar vi problemet med RET-optimering som ett problem med Säker Förstärkningsinlärning(SF) och försöker utbilda en förstärkningsinlärning policy som kan erbjuda garantier för förbättrad prestanda i förhållande till en befintlig grundläggandepolicy. Vi använder en nyligen genomförd SF-metod som kallas Safe PolicyImprovement by Baseline Bootstrapping (SPIBB) för att förbättra en baslinje genom att utbilda en förstärkningsinlärning agent på en offlinedatabaserad datamängdmed miljöinteraktioner som samlats in vid baslinjen. Vi utvärderar vår lösning med hjälp av en simulerad miljö och visar att den är effektiv när det gäller att förbättra politiken för tippuppdatering på ett säkert sätt, vilket ger en mer tillförlitligförstärkningsinlärning lösning på problemet med RET-optimering och eventuellt möjliggör framtida realglobal driftsättning.
Geramifard, Alborz 1980. "Practical reinforcement learning using representation learning and safe exploration for large scale Markov decision processes." Thesis, Massachusetts Institute of Technology, 2012. http://hdl.handle.net/1721.1/71455.
Full textCataloged from PDF version of thesis.
Includes bibliographical references (p. 157-168).
While creating intelligent agents who can solve stochastic sequential decision making problems through interacting with the environment is the promise of Reinforcement Learning (RL), scaling existing RL methods to realistic domains such as planning for multiple unmanned aerial vehicles (UAVs) has remained a challenge due to three main factors: 1) RL methods often require a plethora of data to find reasonable policies, 2) the agent has limited computation time between interactions, and 3) while exploration is necessary to avoid convergence to the local optima, in sensitive domains visiting all parts of the planning space may lead to catastrophic outcomes. To address the first two challenges, this thesis introduces incremental Feature Dependency Discovery (iFDD) as a representation expansion method with cheap per-timestep computational complexity that can be combined with any online, value-based reinforcement learning using binary features. In addition to convergence and computational complexity guarantees, when coupled with SARSA, iFDD achieves much faster learning (i.e., requires much less data samples) in planning domains including two multi-UAV mission planning scenarios with hundreds of millions of state-action pairs. In particular, in a UAV mission planning domain, iFDD performed more than 12 times better than the best competitor given the same number of samples. The third challenge is addressed through a constructive relationship between a planner and a learner in order to mitigate the learning risk while boosting the asymptotic performance and safety of an agent's behavior. The framework is an instance of the intelligent cooperative control architecture where a learner initially follows a safe policy generated by a planner. The learner incrementally improves this baseline policy through interaction, while avoiding behaviors believed to be risky. The new approach is demonstrated to be superior in two multi-UAV task assignment scenarios. For example in one case, the proposed method reduced the risk by 8%, while improving the performance of the planner up to 30%.
by Alborz Geramifard.
Ph.D.
Heidenreich, Caroline. "Safe learning for control: Combining disturbance estimation, reachability analysis and reinforcement learning with systematic exploration." Thesis, KTH, Reglerteknik, 2017. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-214080.
Full textMaskininlärning för att uppnå en reglerstrategi för ett delvis okända systemär ett problem med en mångfald av tillämpningar i olika ingenjörvetenskapligaområden. I de esta praktiska scenarier vill man att inlärningsprocessen skaavsluta snabbt utan att bryta inte mot givna bivillkor. Särkild lockande är detatt lära in en reglerstrategi direkt från experiment eftersom man då kringgårnödvändigheten att härleda en exakt modell av systemet först. Den största utmaningenmed denna metod är att säkerställa att säkerhetsrelaterade bivillkorär uppfyllda under hela inlärningsprocessen.Detta examensarbete undersöker ett tillvägagångssätt att uppnå säker maskininlärning som bygger på en delvis känd modell av tillståndsrummet och betraktarde okända dynamikerna som en additiv begränsad störning. Baseratpå en initial konservativ uppskattning av störningen, beräknas en säker tillståndsmängd och en motsvarande reglerstragi genom använding av Hamilton-Jacobi-Isaacs nåbarhetsanalys. Inom den beräknade tillståndsmängden används en variant av Q-inlärning som systematiskt utforskar okända delar av tillståndsrummet för att lära in en reglerstrategi. När systemet stöter på gränsenav den säkra tillståndsmängden, tillämpas istället en säkerhetsbevarande reglerstrategiför att få systemet tillbaka till säkerhet. Den första uppskattningenav störningen uppdateras kontinuerligt genom Gaussprocessregression baseradpå uppmätt data. Nya, mindre konservativa uppskattningar används för attöka storleken på den säkra tillståndsmängden. Så vitt vi vet är detta examensarbetedet första försöket att kombinera dessa teoretiska metoder, frånförstärkningsinlärning och nåbarhetsanalys, för att uppnå säker inlärning.Vi utvärderar vår metod på ett inverterat pendelsystem. Den föreslagnaalgoritmen klarar av att lära in en reglerstrategi som inte bryter mot i förvägspecierade bivillkor. Vi iakttar att prestandan kan förbättras avsevärt om viintegrerar systematisk utforskning för att säkerställa att den optimala reglerstrateginlärs in överallt i den säkra tillståndsmängden. Slutligen diskuterar vinågra lovande inriktingar för framtida forskning utöver omfattningen av dettaarbete.
Ohnishi, Motoya. "Safey-aware Adaptive Reinforcement Learning with Applications to Brushbot Navigation." Thesis, KTH, Reglerteknik, 2018. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-226591.
Full textDet här examensarbetet presenterar ett ramverk för självlärande säkerhetskritiskareglersystem. Ramverket är baserat på en kombination av adaptivmodellinärning och barriär-certifikat, och kan hantera system med ickestationärdynamik. För att extrahera den dynamiska strukturen hos modellenanvänder vi en gles optimeringsteknik och den resulterande modellenanvänds sedan i kombination med barriär-certifikat som endast begränsarden återkopplade styrlagen när systemsäkerheten är i fara. Under milda antagandenvisar vi att optimeringsproblemet som måste lösas för att hittaden optimala styråtgärden i varje tidpunkt är konvext, och att prestandanhos den inlärda styrlagen förbättras monotont. Dessutom omformulerar vivärdefunktions-approximationsproblemet så att det kan lösas med en godtyckligmetod för kärnbaserad funktionsskattning. Vi använder sedan enledande teknik för kärnbaserad adaptiv filtrering för värdefunktionsapproximationeni vår algoritm. Det resulterande ramverket verifieras slutligenexperimentellt på en borst-robot, vars dynamik är okänd och mycket komplex.
Ho, Chang-An, and 何長安. "Safe Reinforcement Learning based Sequential Perturbation Learning Algorithm." Thesis, 2009. http://ndltd.ncl.edu.tw/handle/63234750154932788712.
Full text國立交通大學
電機與控制工程系所
97
This article is about sequential perturbation learning architecture through safe reinforcement learning (SRL-SP) which based on the concept of linear search to apply perturbations on each weight value of the neural network. The evaluation of value of function between pre-perturb and post-perturb network is executed after the perturbations are applied, so as to update the weights. Applying perturbations can avoid the solution form the phenomenon which falls into the hands of local solution and oscillating in the solution space that decreases the learning efficiency. Besides, in the reinforcement learning structure, use the Lyapunov design methods to set the learning objective and pre-defined set of the goal state. This method would greatly reduces the learning time, in other words, it can rapidly guide the plant’s state into the goal state. During the simulation, use the n-mass inverted pendulum model to perform the experiment of humanoid robot model. To prove the method in this article is more effective in learning.
Everitt, Tom. "Towards Safe Artificial General Intelligence." Phd thesis, 2018. http://hdl.handle.net/1885/164227.
Full textJayant, Ashish. "Model-based Safe Deep Reinforcement Learning and Empirical Analysis of Safety via Attribution." Thesis, 2022. https://etd.iisc.ac.in/handle/2005/5849.
Full textNA
Hsu, Yung-Chi, and 徐永吉. "Improved Safe Reinforcement Learning Based Self Adaptive Evolutionary Algorithms for Neuro-Fuzzy Controller Design." Thesis, 2009. http://ndltd.ncl.edu.tw/handle/43659775487135397105.
Full text國立交通大學
電機與控制工程系所
97
In this dissertation, improved safe reinforcement learning based self adaptive evolutionary algorithms (ISRL-SAEAs) are proposed for TSK-type neuro-fuzzy controller design. The ISRL-SAEAs can improve not only the reinforcement signal designed but also traditional evolutionary algorithms. There are two parts in the proposed ISRL-SAEAs. In the first part, the SAEAs are proposed to solve the following problems: 1) all the fuzzy rules are encoded into one chromosome; 2) the number of fuzzy rules has to be assigned in advance; and 3) the population cannot evaluate each fuzzy rule locally. The second part of the ISRL-SAEAs is the ISRL. In the ISRL, two different strategies (judgment and evaluation) are used to design the reinforcement signal. Moreover the Lyapunov stability is considered in ISRL. To demonstrate the performance of the proposed method, the inverted pendulum control system and tandem pendulum control system are presented. As shown in simulation, the ISRL-SAEAs perform better than other reinforcement evolution methods.
Books on the topic "Safe Reinforcement Learning"
Trappenberg, Thomas P. Fundamentals of Machine Learning. Oxford University Press, 2019. http://dx.doi.org/10.1093/oso/9780198828044.001.0001.
Full textBook chapters on the topic "Safe Reinforcement Learning"
Zhang, Jianyi, and Paul Weng. "Safe Distributional Reinforcement Learning." In Lecture Notes in Computer Science, 107–28. Cham: Springer International Publishing, 2022. http://dx.doi.org/10.1007/978-3-030-94662-3_8.
Full textNeufeld, Emery A., Ezio Bartocci, and Agata Ciabattoni. "On Normative Reinforcement Learning via Safe Reinforcement Learning." In PRIMA 2022: Principles and Practice of Multi-Agent Systems, 72–89. Cham: Springer International Publishing, 2022. http://dx.doi.org/10.1007/978-3-031-21203-1_5.
Full textFulton, Nathan, and André Platzer. "Verifiably Safe Off-Model Reinforcement Learning." In Tools and Algorithms for the Construction and Analysis of Systems, 413–30. Cham: Springer International Publishing, 2019. http://dx.doi.org/10.1007/978-3-030-17462-0_28.
Full textBragg, John, and Ibrahim Habli. "What Is Acceptably Safe for Reinforcement Learning?" In Developments in Language Theory, 418–30. Cham: Springer International Publishing, 2018. http://dx.doi.org/10.1007/978-3-319-99229-7_35.
Full textBacci, Edoardo, and David Parker. "Probabilistic Guarantees for Safe Deep Reinforcement Learning." In Lecture Notes in Computer Science, 231–48. Cham: Springer International Publishing, 2020. http://dx.doi.org/10.1007/978-3-030-57628-8_14.
Full textCheng, Jiangchang, Fumin Yu, Hongliang Zhang, and Yinglong Dai. "Skill Reward for Safe Deep Reinforcement Learning." In Communications in Computer and Information Science, 203–13. Singapore: Springer Singapore, 2022. http://dx.doi.org/10.1007/978-981-19-0468-4_15.
Full textLiu, Shaofan, and Shiliang Sun. "Safe Offline Reinforcement Learning Through Hierarchical Policies." In Advances in Knowledge Discovery and Data Mining, 380–91. Cham: Springer International Publishing, 2022. http://dx.doi.org/10.1007/978-3-031-05936-0_30.
Full textCohen, Max, and Calin Belta. "Safe Exploration in Model-Based Reinforcement Learning." In Adaptive and Learning-Based Control of Safety-Critical Systems, 133–63. Cham: Springer International Publishing, 2023. http://dx.doi.org/10.1007/978-3-031-29310-8_8.
Full textPecka, Martin, and Tomas Svoboda. "Safe Exploration Techniques for Reinforcement Learning – An Overview." In Modelling and Simulation for Autonomous Systems, 357–75. Cham: Springer International Publishing, 2014. http://dx.doi.org/10.1007/978-3-319-13823-7_31.
Full textCohen, Max, and Calin Belta. "Temporal Logic Guided Safe Model-Based Reinforcement Learning." In Adaptive and Learning-Based Control of Safety-Critical Systems, 165–92. Cham: Springer International Publishing, 2023. http://dx.doi.org/10.1007/978-3-031-29310-8_9.
Full textConference papers on the topic "Safe Reinforcement Learning"
Padakandla, Sindhu, Prabuchandran K. J, Sourav Ganguly, and Shalabh Bhatnagar. "Data Efficient Safe Reinforcement Learning." In 2022 IEEE International Conference on Systems, Man, and Cybernetics (SMC). IEEE, 2022. http://dx.doi.org/10.1109/smc53654.2022.9945313.
Full textIsele, David, Alireza Nakhaei, and Kikuo Fujimura. "Safe Reinforcement Learning on Autonomous Vehicles." In 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2018. http://dx.doi.org/10.1109/iros.2018.8593420.
Full textCalvo-Fullana, Miguel, Luiz F. O. Chamon, and Santiago Paternain. "Towards Safe Continuing Task Reinforcement Learning." In 2021 American Control Conference (ACC). IEEE, 2021. http://dx.doi.org/10.23919/acc50511.2021.9482748.
Full textJia, Yan, John Burden, Tom Lawton, and Ibrahim Habli. "Safe Reinforcement Learning for Sepsis Treatment." In 2020 IEEE International Conference on Healthcare Informatics (ICHI). IEEE, 2020. http://dx.doi.org/10.1109/ichi48887.2020.9374367.
Full textYang, Tsung-Yen, Tingnan Zhang, Linda Luu, Sehoon Ha, Jie Tan, and Wenhao Yu. "Safe Reinforcement Learning for Legged Locomotion." In 2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2022. http://dx.doi.org/10.1109/iros47612.2022.9982038.
Full textKim, Dohyeong, Jaeseok Heo, and Songhwai Oh. "SafeTAC: Safe Tsallis Actor-Critic Reinforcement Learning for Safer Exploration." In 2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2022. http://dx.doi.org/10.1109/iros47612.2022.9982140.
Full textYang, Wen-Chi, Giuseppe Marra, Gavin Rens, and Luc De Raedt. "Safe Reinforcement Learning via Probabilistic Logic Shields." In Thirty-Second International Joint Conference on Artificial Intelligence {IJCAI-23}. California: International Joint Conferences on Artificial Intelligence Organization, 2023. http://dx.doi.org/10.24963/ijcai.2023/637.
Full textRahman, Md Asifur, Tongtong Liu, and Sarra Alqahtani. "Adversarial Behavior Exclusion for Safe Reinforcement Learning." In Thirty-Second International Joint Conference on Artificial Intelligence {IJCAI-23}. California: International Joint Conferences on Artificial Intelligence Organization, 2023. http://dx.doi.org/10.24963/ijcai.2023/54.
Full textUmemoto, Takumi, Tohgoroh Matsui, Atsuko Mutoh, Koichi Moriyama, and Nobuhiro Inuzuka. "Safe Reinforcement Learning in Continuous State Spaces." In 2019 IEEE 8th Global Conference on Consumer Electronics (GCCE). IEEE, 2019. http://dx.doi.org/10.1109/gcce46687.2019.9014637.
Full textYang, Yongliang, Kyriakos G. Vamvoudakis, Hamidreza Modares, Wei He, Yixin Yin, and Donald C. Wunsch. "Safe Intermittent Reinforcement Learning for Nonlinear Systems." In 2019 IEEE 58th Conference on Decision and Control (CDC). IEEE, 2019. http://dx.doi.org/10.1109/cdc40024.2019.9030210.
Full textReports on the topic "Safe Reinforcement Learning"
Miles, Gaines E., Yael Edan, F. Tom Turpin, Avshalom Grinstein, Thomas N. Jordan, Amots Hetzroni, Stephen C. Weller, Marvin M. Schreiber, and Okan K. Ersoy. Expert Sensor for Site Specification Application of Agricultural Chemicals. United States Department of Agriculture, August 1995. http://dx.doi.org/10.32747/1995.7570567.bard.
Full text