Revision as of 04:57, 7 July 2025 edit Cosmia Nebula (talk \| contribs) Extended confirmed users 11,296 edits →References: navbox Tag: Visual edit ← Previous edit		Revision as of 20:51, 25 July 2025 edit undo Headbomb (talk \| contribs) Edit filter managers, Autopatrolled, Extended confirmed users, Page movers, File movers, New page reviewers, Pending changes reviewers, Rollbackers, Template editors 473,066 edits ce Next edit →
Line 80: * {{Cite book \|last=Bertsekas \|first=Dimitri P. \|title=Reinforcement learning and optimal control \|date=2019 \|publisher=Athena Scientific \|isbn=978-1-886529-39-7 \|edition=2 \|___location=Belmont, Massachusetts}} * {{Cite book \|last=Grossi \|first=Csaba \|title=Algorithms for Reinforcement Learning \|date=2010 \|publisher=Springer International Publishing \|isbn=978-3-031-00423-0 \|edition=1 \|series=Synthesis Lectures on Artificial Intelligence and Machine Learning \|___location=Cham}} * {{Cite journal \|last1=Grondman \|first1=Ivo \|last2=Busoniu \|first2=Lucian \|last3=Lopes \|first3=Gabriel A. D. \|last4=Babuska \|first4=Robert \|date=November 2012 \|title=A Survey of Actor-Critic Reinforcement Learning: Standard and Natural Policy Gradients \|url=https://ieeexplore.ieee.org/document/6392457 \|journal=IEEE Transactions on Systems, Man, and Cybernetics, - Part C: (Applications and Reviews) \|volume=42 \|issue=6 \|pages=1291–1307 \|doi=10.1109/TSMCC.2012.2218595 \|issn=1094-6977}} {{Artificial intelligence navbox}} [[Category:Reinforcement learning]]

Actor-critic algorithm: Difference between revisions