Decision Making Under Uncertainty and Reinforcement Learning 阅读小记

2023年12月1日

书名：Decision Making Under Uncertainty and Reinforcement Learning 作者：Christos Dimitrakakis ；Ronald Ortner 出版时间：2020-02-20

又开始看RL的分享资料了，也是本允许公开传阅的教材。作为教材来讲很不错，挺适合入门学习的。

为什么又开始看RL——本聚类受害者在阅读了10255篇P之后终于忍不住了！纵深领域的知识图谱构建到底要遇到多大阻力啊？被反复鞭打，搞不好聚类咱可以不搞了。无监督在专业知识领域真的信息灾难！鬼知道我萎了校正数据多少个晚上没有好好干正事，今年的H文任务都没完成全是因为这个！

回头来说，这本开篇就提到了基本思想：用概率来表示不确定性。这点我和小行星先生聊过很多，他提到的多是在估值领域，点值与概率分布的问题。每次都会被我以现实世界需要的不是结果而是背锅人堵了回去。那就不提估值，回到RL本身，如何跳出现有置信度的圈子让计算机更为人性化地理解可能性？暂时不太好跳出来，还是得建模。所以从置信度到可能性到建模，本身就是一个认为干预的过程。作者引入门的例子非常好，但是我觉得可以再加一些东西，开篇就说明白现阶段我们探索的进度还不足以处理复杂问题。就比如在这个抛硬币的例子上加几句。“加入硬币立起来我就去……”是非常经典的开玩笑式决策了，但是对于计算机而言，这并不是开玩笑。一旦要求把硬币立起来这一结果加入计算机的观测，那完全会造成灾难。这个时候其实就更容易理解“估计”与“似然”。模拟真实世界存在的偏差总是被忽略，但是在RL领域，这种偏差本身就是认为干预的结果，却在很多时候造成了“干多了自己都信了”的结论。从自然科学角度，现有的硬币抛落后，理论上的确存在立起来的可能性，这种“双面二选一”与数学上的随机结果之间是有偏差的。所以无论是讲什么过程，贝叶斯也好，基于贝叶斯的RL也好，始终都要记得这一点。

也就到了第二个问题，如何理解作为一个算法构建者的权衡。——这些可能是实际课堂上会展开的，我没去听课不能确认到底是怎么论述的。从我个人理解的角度，这种权衡很像算法界的思维方式，决定了一个新模型的上限。哦，下限当然就是一些老生常谈的东西。少点屎山吧兄弟们，别搞信息污染了。所以从实际工作的角度，一般接受咨询需要引导创新点的时候我都会和格子佬们这么沟通。但是现实是残酷的，多得是屎山仔，有权力做权衡的人就那么些个。而难就难在第三点，数据交互对决策的影响。

我们现在谈论GPT4.0，并不是看什么宫变商业笑话，它受诟病的一点之一就是作为人工智能，对于生物与环境的交互模仿的太差劲。这点在3.5/3.0表现得更为明显，一旦涉及实时性话题就会直接跳出来说对不起我的数据不支持这个时间范围。所以当数据采集是交互模式是，决策不得不跟着发生变化，虽然这种变化很多时候都是使用人乐见其成的。但是这又不仅仅是泛化能力这个单一话题，牵扯到了更复杂的外部性因素。回到我的专业领域，有一个五十年来都没解决的问题，非专利文献著录项如何标准化、如何索引的问题。从光盘迈入云计算已经二十多年了，这一问题根本就不是技术层面的问题，而是其他外部性因素导致的。但是这一问题对RL和其他人工智能领域造成的阻碍已经有目共睹。抛开这些外部性因素我们目前能做的，很难不说是屎上雕花的工作。

就比如，我认为“做一个好的提问者”本身就是倒退、是本末倒置的观点。虽然很多人觉得这仅仅是现阶段对于模型能力和训练强度的一个妥协，但是这已经不是“目标设置”能力的问题，终点的规划固然重要，无论是RL本身还是从社会学角度考虑这都没问题。但是我越来越难接受用规则来裹胁一切。所以明年的阅读书目中我规划了一些经典重读，比如十年前就看过的课本。

当然，这本教材里讲了非常实用的内容，但是我不是厨子不用全部都消化掉。比如函数逼近特性与维数灾难、Thompson抽样等等。感觉有趣的是，作者最后也提到，在实践中外部性的问题是必须纳入考量的。——对嘛，私权与效率的博弈，一直都在的啊。