Revision as of 05:57, 21 January 2025 edit Cosmia Nebula (talk \| contribs) Extended confirmed users 11,296 edits mNo edit summary Tag: 2017 wikitext editor ← Previous edit		Revision as of 05:58, 21 January 2025 edit undo Cosmia Nebula (talk \| contribs) Extended confirmed users 11,296 edits →References Tag: 2017 wikitext editor Next edit →
Line 81: * {{Cite book \|last=Bertsekas \|first=Dimitri P. \|title=Reinforcement learning and optimal control \|date=2019 \|publisher=Athena Scientific \|isbn=978-1-886529-39-7 \|edition=2 \|___location=Belmont, Massachusetts}} * {{Cite book \|last=Grossi \|first=Csaba \|title=Algorithms for Reinforcement Learning \|date=2010 \|publisher=Springer International Publishing \|isbn=978-3-031-00423-0 \|edition=1 \|series=Synthesis Lectures on Artificial Intelligence and Machine Learning \|___location=Cham}} * {{Cite journal \|last=Grondman \|first=Ivo \|last2=Busoniu \|first2=Lucian \|last3=Lopes \|first3=Gabriel A. D. \|last4=Babuska \|first4=Robert \|date=2012-11 \|title=A Survey of Actor-Critic Reinforcement Learning: Standard and Natural Policy Gradients \|url=http://ieeexplore.ieee.org/document/6392457/ \|journal=IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews) \|volume=42 \|issue=6 \|pages=1291–1307 \|doi=10.1109/TSMCC.2012.2218595 \|issn=1094-6977}} [[Category:Reinforcement learning]]

Actor-critic algorithm: Difference between revisions