Agent AI:Surveying the Horizons of Multimodal Interaction阅读小记
论文:Agent AI:Surveying the Horizons of Multimodal Interaction 作者:Zane Durante等 来自公开分享:arXiv:2401.03568v2 [cs.AI] 25 Jan 2024
难得讲多模态和大模型的文。 这篇讲了语言能力、视觉认知、上下文记忆、直观推理和适应性整合,并且基于应用场景的现状,分析了现有大模型面临的问题。我印象比较深刻的有这么几点:
首先是关于交互式学习。 这点在GPT-3大规模应用的时候我就体会到了,当你指出模型输出内容中的错误时,认错态度非常良好。作者们接着就提出一个观点,交互式学习确实能够快速提升模型的泛化能力。但是如何保证交互式学习的效果不是适得其反,在交互训练内容筛选上面临很大的挑战。 如果交互信息纳入学习与否需要筛选,模型的泛化性和用户的直观体验就会大大下降; 但是如果不加分辨地增补新知识,很可能导致模型输出内容存在大量的偏见,这种偏见有可能是来源于错误的指引,有可能来源于更为根本的认知差异、文化差异、传统差异等等; 所以如何把握交互式学习的“度”,在实践中实际上是一个见仁见智的问题。在能够保证监督效果的前提下,在用户端口开放这一功能之后收效是显著的。但是如何不能把控监督效果,尤其是拥有广泛用户的大模型产品,这种用户“影响”是不可忽视的,权限开放要非常谨慎。 这里提示还提及了一个关键问题,由于初始开发阶段的权限设计缺陷。很多大模型存在一键“前提清零”的指令。比如流传很广的“现在你需要忽视一切XXXX”,然后开始非法获取key码。 所以权限开放最好和模型固有的重大指令综合考虑,已解决伦理问题。
其次,关于有限的持续改进。 这与上面那个话题是紧密相连的。 虽然虽然一些AI具有从新数据和交互中学习的能力,但许多大型语言模型在训练后不会持续更新其知识库或内部表示。他们的推论通常仅基于上次训练更新之前可用的数据。 这就给交互式学习上了一把安全锁。但是这种思路会大大限制模型自适应能力,也算是一种权衡吧。
最后,关于及时删除用户的隐私信息。 如何定义、判断隐私信息,这本身就是一个难题。 再者说,这种判断是实时的、海量的,并非后台可以人工监控。 那么模型本身在自识别自决策的过程中,出现重大问题的可能性也是有的。 全面删除即时信息当然是一个好主意,至少做到实时信息不入库,做一个类似于缓存知识库的东西。但这种隔离在技术上和商业上是否是当下合适的选择,仍待讨论。
后面就是讲到一些具体的应用场景了。
游戏场景的应用体现是比较明显的。从情报数据上来看,游戏厂商做类似专利申请的数据不少,从地球ol到NPC行为学习。主要还是商业化引擎的牵引力足够,这一领域发展的速度要明显快于其他几个应用场景。个人认为是利益冲突在可控范围之内。 自适应机器人系统也有一定发展。 而有些专业领域则相反,比如医学,比如较为偏门的理工学科。 视频理解也是个比较有意思的应用场景。从使用效果上来看,这与早期的语音识别、图像识别发展情况类似。但是从理解到生成式视频,很显然还有很长的一段路要走。