Articles de revues sur le sujet « Off-Policy learning »
Créez une référence correcte selon les styles APA, MLA, Chicago, Harvard et plusieurs autres
Consultez les 50 meilleurs articles de revues pour votre recherche sur le sujet « Off-Policy learning ».
À côté de chaque source dans la liste de références il y a un bouton « Ajouter à la bibliographie ». Cliquez sur ce bouton, et nous générerons automatiquement la référence bibliographique pour la source choisie selon votre style de citation préféré : APA, MLA, Harvard, Vancouver, Chicago, etc.
Vous pouvez aussi télécharger le texte intégral de la publication scolaire au format pdf et consulter son résumé en ligne lorsque ces informations sont inclues dans les métadonnées.
Parcourez les articles de revues sur diverses disciplines et organisez correctement votre bibliographie.
Meng, Wenjia, Qian Zheng, Gang Pan et Yilong Yin. « Off-Policy Proximal Policy Optimization ». Proceedings of the AAAI Conference on Artificial Intelligence 37, no 8 (26 juin 2023) : 9162–70. http://dx.doi.org/10.1609/aaai.v37i8.26099.
Texte intégralSchmitt, Simon, John Shawe-Taylor et Hado van Hasselt. « Chaining Value Functions for Off-Policy Learning ». Proceedings of the AAAI Conference on Artificial Intelligence 36, no 8 (28 juin 2022) : 8187–95. http://dx.doi.org/10.1609/aaai.v36i8.20792.
Texte intégralXu, Da, Yuting Ye, Chuanwei Ruan et Bo Yang. « Towards Robust Off-Policy Learning for Runtime Uncertainty ». Proceedings of the AAAI Conference on Artificial Intelligence 36, no 9 (28 juin 2022) : 10101–9. http://dx.doi.org/10.1609/aaai.v36i9.21249.
Texte intégralPeters, James F., et Christopher Henry. « Approximation spaces in off-policy Monte Carlo learning ». Engineering Applications of Artificial Intelligence 20, no 5 (août 2007) : 667–75. http://dx.doi.org/10.1016/j.engappai.2006.11.005.
Texte intégralYu, Jiayu, Jingyao Li, Shuai Lü et Shuai Han. « Mixed experience sampling for off-policy reinforcement learning ». Expert Systems with Applications 251 (octobre 2024) : 124017. http://dx.doi.org/10.1016/j.eswa.2024.124017.
Texte intégralCetin, Edoardo, et Oya Celiktutan. « Learning Pessimism for Reinforcement Learning ». Proceedings of the AAAI Conference on Artificial Intelligence 37, no 6 (26 juin 2023) : 6971–79. http://dx.doi.org/10.1609/aaai.v37i6.25852.
Texte intégralKong, Seung-Hyun, I. Made Aswin Nahrendra et Dong-Hee Paek. « Enhanced Off-Policy Reinforcement Learning With Focused Experience Replay ». IEEE Access 9 (2021) : 93152–64. http://dx.doi.org/10.1109/access.2021.3085142.
Texte intégralLi, Lihong. « A perspective on off-policy evaluation in reinforcement learning ». Frontiers of Computer Science 13, no 5 (17 juin 2019) : 911–12. http://dx.doi.org/10.1007/s11704-019-9901-7.
Texte intégralLuo, Biao, Huai-Ning Wu et Tingwen Huang. « Off-Policy Reinforcement Learning for $ H_\infty $ Control Design ». IEEE Transactions on Cybernetics 45, no 1 (janvier 2015) : 65–76. http://dx.doi.org/10.1109/tcyb.2014.2319577.
Texte intégralSun, Mingfei, Sam Devlin, Katja Hofmann et Shimon Whiteson. « Deterministic and Discriminative Imitation (D2-Imitation) : Revisiting Adversarial Imitation for Sample Efficiency ». Proceedings of the AAAI Conference on Artificial Intelligence 36, no 8 (28 juin 2022) : 8378–85. http://dx.doi.org/10.1609/aaai.v36i8.20813.
Texte intégralJain, Arushi, Gandharv Patil, Ayush Jain, Khimya Khetarpal et Doina Precup. « Variance Penalized On-Policy and Off-Policy Actor-Critic ». Proceedings of the AAAI Conference on Artificial Intelligence 35, no 9 (18 mai 2021) : 7899–907. http://dx.doi.org/10.1609/aaai.v35i9.16964.
Texte intégralHao, Longyan, Chaoli Wang et Yibo Shi. « Quadratic Tracking Control of Linear Stochastic Systems with Unknown Dynamics Using Average Off-Policy Q-Learning Method ». Mathematics 12, no 10 (14 mai 2024) : 1533. http://dx.doi.org/10.3390/math12101533.
Texte intégralGelada, Carles, et Marc G. Bellemare. « Off-Policy Deep Reinforcement Learning by Bootstrapping the Covariate Shift ». Proceedings of the AAAI Conference on Artificial Intelligence 33 (17 juillet 2019) : 3647–55. http://dx.doi.org/10.1609/aaai.v33i01.33013647.
Texte intégralXiao, Teng, et Suhang Wang. « Towards Off-Policy Learning for Ranking Policies with Logged Feedback ». Proceedings of the AAAI Conference on Artificial Intelligence 36, no 8 (28 juin 2022) : 8700–8707. http://dx.doi.org/10.1609/aaai.v36i8.20849.
Texte intégralLi, Jinna, Hamidreza Modares, Tianyou Chai, Frank L. Lewis et Lihua Xie. « Off-Policy Reinforcement Learning for Synchronization in Multiagent Graphical Games ». IEEE Transactions on Neural Networks and Learning Systems 28, no 10 (octobre 2017) : 2434–45. http://dx.doi.org/10.1109/tnnls.2016.2609500.
Texte intégralZhang, Hengrui, Youfang Lin, Shuo Shen, Sheng Han et Kai Lv. « Enhancing Off-Policy Constrained Reinforcement Learning through Adaptive Ensemble C Estimation ». Proceedings of the AAAI Conference on Artificial Intelligence 38, no 19 (24 mars 2024) : 21770–78. http://dx.doi.org/10.1609/aaai.v38i19.30177.
Texte intégralZhang, Shangtong, Bo Liu et Shimon Whiteson. « Mean-Variance Policy Iteration for Risk-Averse Reinforcement Learning ». Proceedings of the AAAI Conference on Artificial Intelligence 35, no 12 (18 mai 2021) : 10905–13. http://dx.doi.org/10.1609/aaai.v35i12.17302.
Texte intégralAli, Raja Farrukh, Kevin Duong, Nasik Muhammad Nafi et William Hsu. « Multi-Horizon Learning in Procedurally-Generated Environments for Off-Policy Reinforcement Learning (Student Abstract) ». Proceedings of the AAAI Conference on Artificial Intelligence 37, no 13 (26 juin 2023) : 16150–51. http://dx.doi.org/10.1609/aaai.v37i13.26935.
Texte intégralTennenholtz, Guy, Uri Shalit et Shie Mannor. « Off-Policy Evaluation in Partially Observable Environments ». Proceedings of the AAAI Conference on Artificial Intelligence 34, no 06 (3 avril 2020) : 10276–83. http://dx.doi.org/10.1609/aaai.v34i06.6590.
Texte intégralNakamura, Yutaka, Takeshi Mori, Yoichi Tokita, Tomohiro Shibata et Shin Ishii. « Off-Policy Natural Policy Gradient Method for a Biped Walking Using a CPG Controller ». Journal of Robotics and Mechatronics 17, no 6 (20 décembre 2005) : 636–44. http://dx.doi.org/10.20965/jrm.2005.p0636.
Texte intégralWang, Mingyang, Zhenshan Bing, Xiangtong Yao, Shuai Wang, Huang Kai, Hang Su, Chenguang Yang et Alois Knoll. « Meta-Reinforcement Learning Based on Self-Supervised Task Representation Learning ». Proceedings of the AAAI Conference on Artificial Intelligence 37, no 8 (26 juin 2023) : 10157–65. http://dx.doi.org/10.1609/aaai.v37i8.26210.
Texte intégralCao, Jiaqing, Quan Liu, Fei Zhu, Qiming Fu et Shan Zhong. « Gradient temporal-difference learning for off-policy evaluation using emphatic weightings ». Information Sciences 580 (novembre 2021) : 311–30. http://dx.doi.org/10.1016/j.ins.2021.08.082.
Texte intégralTian, Chang, An Liu, Guan Huang et Wu Luo. « Successive Convex Approximation Based Off-Policy Optimization for Constrained Reinforcement Learning ». IEEE Transactions on Signal Processing 70 (2022) : 1609–24. http://dx.doi.org/10.1109/tsp.2022.3158737.
Texte intégralKarimpanal, Thommen George, et Erik Wilhelm. « Identification and off-policy learning of multiple objectives using adaptive clustering ». Neurocomputing 263 (novembre 2017) : 39–47. http://dx.doi.org/10.1016/j.neucom.2017.04.074.
Texte intégralKiumarsi, Bahare, Frank L. Lewis et Zhong-Ping Jiang. « H∞ control of linear discrete-time systems : Off-policy reinforcement learning ». Automatica 78 (avril 2017) : 144–52. http://dx.doi.org/10.1016/j.automatica.2016.12.009.
Texte intégralLi, Jinna, Zhenfei Xiao et Ping Li. « Discrete-Time Multi-Player Games Based on Off-Policy Q-Learning ». IEEE Access 7 (2019) : 134647–59. http://dx.doi.org/10.1109/access.2019.2939384.
Texte intégralKiumarsi, Bahare, Wei Kang et Frank L. Lewis. « H∞ Control of Nonaffine Aerial Systems Using Off-policy Reinforcement Learning ». Unmanned Systems 04, no 01 (janvier 2016) : 51–60. http://dx.doi.org/10.1142/s2301385016400069.
Texte intégralLian, Bosen, Wenqian Xue, Yijing Xie, Frank L. Lewis et Ali Davoudi. « Off-policy inverse Q-learning for discrete-time antagonistic unknown systems ». Automatica 155 (septembre 2023) : 111171. http://dx.doi.org/10.1016/j.automatica.2023.111171.
Texte intégralKim, Man-Je, Hyunsoo Park et Chang Wook Ahn. « Nondominated Policy-Guided Learning in Multi-Objective Reinforcement Learning ». Electronics 11, no 7 (28 mars 2022) : 1069. http://dx.doi.org/10.3390/electronics11071069.
Texte intégralChaudhari, Shreyas, David Arbour, Georgios Theocharous et Nikos Vlassis. « Distributional Off-Policy Evaluation for Slate Recommendations ». Proceedings of the AAAI Conference on Artificial Intelligence 38, no 8 (24 mars 2024) : 8265–73. http://dx.doi.org/10.1609/aaai.v38i8.28667.
Texte intégralZhang, Ruiyi, Tong Yu, Yilin Shen et Hongxia Jin. « Text-Based Interactive Recommendation via Offline Reinforcement Learning ». Proceedings of the AAAI Conference on Artificial Intelligence 36, no 10 (28 juin 2022) : 11694–702. http://dx.doi.org/10.1609/aaai.v36i10.21424.
Texte intégralXu, Z., L. Cao et X. Chen. « Deep Reinforcement Learning with Adaptive Update Target Combination ». Computer Journal 63, no 7 (15 août 2019) : 995–1003. http://dx.doi.org/10.1093/comjnl/bxz066.
Texte intégralShahid, Asad Ali, Dario Piga, Francesco Braghin et Loris Roveda. « Continuous control actions learning and adaptation for robotic manipulation through reinforcement learning ». Autonomous Robots 46, no 3 (9 février 2022) : 483–98. http://dx.doi.org/10.1007/s10514-022-10034-z.
Texte intégralHollenstein, Jakob, Georg Martius et Justus Piater. « Colored Noise in PPO : Improved Exploration and Performance through Correlated Action Sampling ». Proceedings of the AAAI Conference on Artificial Intelligence 38, no 11 (24 mars 2024) : 12466–72. http://dx.doi.org/10.1609/aaai.v38i11.29139.
Texte intégralRen, He, Jing Dai, Huaguang Zhang et Kun Zhang. « Off-policy integral reinforcement learning algorithm in dealing with nonzero sum game for nonlinear distributed parameter systems ». Transactions of the Institute of Measurement and Control 42, no 15 (6 juillet 2020) : 2919–28. http://dx.doi.org/10.1177/0142331220932634.
Texte intégralLevine, Alexander, et Soheil Feizi. « Goal-Conditioned Q-learning as Knowledge Distillation ». Proceedings of the AAAI Conference on Artificial Intelligence 37, no 7 (26 juin 2023) : 8500–8509. http://dx.doi.org/10.1609/aaai.v37i7.26024.
Texte intégralYang, Hyunjun, Hyeonjun Park et Kyungjae Lee. « A Selective Portfolio Management Algorithm with Off-Policy Reinforcement Learning Using Dirichlet Distribution ». Axioms 11, no 12 (23 novembre 2022) : 664. http://dx.doi.org/10.3390/axioms11120664.
Texte intégralSuttle, Wesley, Zhuoran Yang, Kaiqing Zhang, Zhaoran Wang, Tamer Başar et Ji Liu. « A Multi-Agent Off-Policy Actor-Critic Algorithm for Distributed Reinforcement Learning ». IFAC-PapersOnLine 53, no 2 (2020) : 1549–54. http://dx.doi.org/10.1016/j.ifacol.2020.12.2021.
Texte intégralStanković, Miloš S., Marko Beko et Srdjan S. Stanković. « Distributed Gradient Temporal Difference Off-policy Learning With Eligibility Traces : Weak Convergence ». IFAC-PapersOnLine 53, no 2 (2020) : 1563–68. http://dx.doi.org/10.1016/j.ifacol.2020.12.2184.
Texte intégralLi, Jinna, Zhenfei Xiao, Tianyou Chai, Frank L. Lewis et Sarangapani Jagannathan. « Off-Policy Q-Learning for Anti-Interference Control of Multi-Player Systems ». IFAC-PapersOnLine 53, no 2 (2020) : 9189–94. http://dx.doi.org/10.1016/j.ifacol.2020.12.2180.
Texte intégralKim et Park. « Exploration with Multiple Random ε-Buffers in Off-Policy Deep Reinforcement Learning ». Symmetry 11, no 11 (1 novembre 2019) : 1352. http://dx.doi.org/10.3390/sym11111352.
Texte intégralChen, Ning, Shuhan Luo, Jiayang Dai, Biao Luo et Weihua Gui. « Optimal Control of Iron-Removal Systems Based on Off-Policy Reinforcement Learning ». IEEE Access 8 (2020) : 149730–40. http://dx.doi.org/10.1109/access.2020.3015801.
Texte intégralHachiya, Hirotaka, Takayuki Akiyama, Masashi Sugiayma et Jan Peters. « Adaptive importance sampling for value function approximation in off-policy reinforcement learning ». Neural Networks 22, no 10 (décembre 2009) : 1399–410. http://dx.doi.org/10.1016/j.neunet.2009.01.002.
Texte intégralZuo, Guoyu, Qishen Zhao, Kexin Chen, Jiangeng Li et Daoxiong Gong. « Off-policy adversarial imitation learning for robotic tasks with low-quality demonstrations ». Applied Soft Computing 97 (décembre 2020) : 106795. http://dx.doi.org/10.1016/j.asoc.2020.106795.
Texte intégralGivchi, Arash, et Maziar Palhang. « Off-policy temporal difference learning with distribution adaptation in fast mixing chains ». Soft Computing 22, no 3 (30 janvier 2017) : 737–50. http://dx.doi.org/10.1007/s00500-017-2490-1.
Texte intégralLiu, Mushuang, Yan Wan, Frank L. Lewis et Victor G. Lopez. « Adaptive Optimal Control for Stochastic Multiplayer Differential Games Using On-Policy and Off-Policy Reinforcement Learning ». IEEE Transactions on Neural Networks and Learning Systems 31, no 12 (décembre 2020) : 5522–33. http://dx.doi.org/10.1109/tnnls.2020.2969215.
Texte intégralPritchett, Lant, et Justin Sandefur. « Learning from Experiments when Context Matters ». American Economic Review 105, no 5 (1 mai 2015) : 471–75. http://dx.doi.org/10.1257/aer.p20151016.
Texte intégralChen, Zaiwei. « A Unified Lyapunov Framework for Finite-Sample Analysis of Reinforcement Learning Algorithms ». ACM SIGMETRICS Performance Evaluation Review 50, no 3 (30 décembre 2022) : 12–15. http://dx.doi.org/10.1145/3579342.3579346.
Texte intégralNarita, Yusuke, Kyohei Okumura, Akihiro Shimizu et Kohei Yata. « Counterfactual Learning with General Data-Generating Policies ». Proceedings of the AAAI Conference on Artificial Intelligence 37, no 8 (26 juin 2023) : 9286–93. http://dx.doi.org/10.1609/aaai.v37i8.26113.
Texte intégralKim, MyeongSeop, Jung-Su Kim, Myoung-Su Choi et Jae-Han Park. « Adaptive Discount Factor for Deep Reinforcement Learning in Continuing Tasks with Uncertainty ». Sensors 22, no 19 (25 septembre 2022) : 7266. http://dx.doi.org/10.3390/s22197266.
Texte intégral