Reinforcement Learning 阅读小记
书名:Reinforcement Learning:Theory and Algorithms 作者:Alekh Agarwal,Nan Jiang,Sham M. Kakade 出版:WORKING DRAFT: Text not yet at the level of publication. 出版时间:October 27, 2019
因为是没打算出版的课程讲稿,这本讲Markov Decision Processes的时候明显比之前那本机车得多(……)。 后面讲 R-MAX-γ的时候我甚至想顶不住了走了走了。如果对model-based和model-free完全没了解,会变得非常痛苦,不过好歹还是看完了。
有在线配套课程:https://rltheorybook.github.io/ 不过需要申请。
四个主题: (1)MDPs,计算,统计,泛化 (2)可证明的有效探索,和高维RL (3)直接策略优化,如策略梯度 (4)控制,离线RL,和模仿学习
早上小行星先生问我要不要问GPT4点问题,付费快排到了。 我想了很久还是让它评价下自己吧,提了一些有关于AIGC产业发展和价值链构成的问题。 不过对于多模态我们都还挺感兴趣,扔一个现金流量表进去看看它是从什么角度分析的(首先这玩意儿它能不能很好的建立分析逻辑还都是未知数),然后评估一下我们什么时候失业(……)。 3.5出来之后我看RL之类的书明显少了一些,已经完全没学Python的兴趣了。 所以这本看的时候重点已经不是在理解所有数学过程(这对我来说也很难,毕竟我也是个数学废物),理解背后的逻辑就好了。 在很多人还没充分了解RL的时候,似乎已经不用了解太多了呢……