硅谷大佬都在聊的 AI Agents是真热还是虚火？

发布时间：2023-08-04 16:57 浏览次数：次作者：小编

　　如果一篇论文提出了某种不同的训练方法，OpenAI 内部会嗤之以鼻，认为都是我们玩剩下的。但是当新的 AI Agents 论文出来的时候，我们会十分认真且兴奋地讨论。普通人、创业者和极客在构建 AI Agents 方面相比 OpenAI 这样的公司更有优势。 OpenAI 联合创始人，前 TeslaAI 总监 Andrej Karpathy 说道。

　　Karpathy 的公开发言为 AI Agents 添了不少热度。但他的判断并非一家之言。

　　早在 3 月份，AutoGPT 就在 GitHub 上获得 7.4 万星，并快速成为史上 Star 数量增长最快的开源项目；而后发布的 BabyAGI、AgentGPT 更如雨后春笋般涌现：订购披萨、整理邮箱、创建博客，甚至举办一场情人节派对……

　　越来越多的 AI Agents 出现在人们生活的各个场景下，热潮迅速开始从硅谷蔓延。

　　自主执行、独立运作，AI Agents 被科技人士给予极高的期待，认为其是变革社会的生产力工具。更有人将其视作通往通用人工智能（AGI）时代的开始。

　　大模型是 AI Agents 的前提，有了足够好的硬件基础后，才能去发展 AI Agents。真格基金管理合伙人戴雨森对「甲子光年」表示。

　　严格来说，市面上只有 ChatGPT 一个合格的大模型底座。受制于模型算力，国内仍然缺乏 AI Agents 的开发土壤。

　　未来美好，现实残酷。技术研发与创业投资等都在摇摆中进行。AI Agents 的红利期何时真的伴随大模型浪潮而来，谁都不得而知。但可以肯定的是，改变已悄然开始。

　　与其把 AI Agents 当作 ChatGPT 升级版，不如将它视作人类的数字助理更为合适。

　　它不仅告诉你如何做，更会帮你做。作为一种媒介，AI Agents 代替人类与 GPT 等大语言模型（Large Language model, LLM）进行反复交互，只要给定目标，它便可以模拟智能行为，自主创建任务、重新确定任务列表优先级、完成首要任务，并循环直到目标达成。

　　与传统的人工智能不同，AI Agents可以在没有人类控制的情况下独立运行。通过接入 API，AI Agents 甚至可以浏览网页、使用应用程序、读写文件、使用信用卡付款等等。

　　简单来说，只需要给它一个目标，AI Agents就能完成剩下的全部工作。例如 HyperWrite 研发的 AI agent 通过 Chrome 浏览器的控制程序来自动帮你订购披萨。

　　这种想象放在科幻电影里并不难，但在人工智能探索历程上，已经持续了将近半个世纪。

　　早在 20 世纪 80 年代，计算机科学家就开始探索如何开发一个可以像人类一样交互的智能软件。但苦于数据和算力限制，AI Agents 缺乏必要的现实条件。

　　斯坦福大学计算机科学博士 Joon Park 曾在访谈中表示：我们一直在朝着那个方向努力，但过去几十年的所有方法，甚至都没有接近我们现在借助 LLM 所实现的效果 ...... 这就是为什么我们忘记了这一愿景。但当 LLM 出现时，我们意识到机会来了。

　　大语言模型是 AI Agents 的核心大脑。通过拆解复杂任务，可以将复杂的用户需求拆解为可实现的任务方式。

　　一方面，大模型的训练建立在互联网的基础上包含了大量的人类行为数据，弥补了构建可信 AI Agents 的关键要素。

　　另一方面，在可观的知识容量下，大模型涌现出优秀的上下文学习能力、推理能力。通过建立思维链来实现模型的连续思考和决策，AI Agents 可以分析复杂问题，并将其拆解成简单、细化的子任务。

　　与此同时，LLM 以语言作为媒介也改变了前端的交互形式。BV 百度风投 AI 应用赛道负责人，投资副总裁温永腾告诉「甲子光年」：BV 百度风投很早就开始关注 AI Agents 的发展，通过研判，我们认为原先的图形用户界面（GUI）有可能转变为语言用户界面（LanguageUI），AI Agents 的前端应用将存在于所有可能与人类交互的前端形式之中。

　　只是拆解任务，还远远算不上智能。LLM 驱动下的AI Agents，离不开三个关键组件：

　　三个组件配合下，AI Agents 不仅能像人一样思考，也能像人一样行动。

　　就像人类一样，在从事复杂任务时，每一步之间往往会有一个推理过程。AI Agents 也会借助 ReAct 组件（Reasoning and Acting），将大模型的推理能力和行为决策紧密结合起来，使语言模型可以根据知识进行有逻辑地计划安排。

　　Reflexition 框架则为 AI Agents 提供动态记忆与自我反思的能力。通过语言反馈而非更新权重的方式来强化 Language Agents，让它可以改进过去的行动决策、纠正过往的错误以不断提高自身表现。

　　在信息获取、储存、保留、检索的进程上，AI Agents 也力图模仿人类的记忆构成，构建高效的内存系统。

　　模拟人类记忆方式，AI Agents 会将感觉记忆、短期记忆、长期记忆，分别表示为原始输入的学习嵌入（如文本、图像等）、上下文学习、外部向量储存。任务与结果会储存在记忆模块中，当信息被调用时，储存在记忆中的信息会回到与用户的对话中，由此创造出更加紧密的上下文环境。

　　人类最显著的特征之一就是使用和创造工具。通过配备外部工具，使用 API 来调用各种接口，AI Agents 能够模拟人类使用工具，完成更复杂的任务。

　　虽然技术层面并未完全成熟，诸如数据管理、长期记忆等问题仍在解决。但 AI Agents 自主执行、迭代优化、解放双手的能力也让走红成为必然。

　　ChatGPT 的诞生，实现了 AI 与人类进行多轮对话，并提供信息和建议的功能。Copilot 的推出，使 AI 足以承担为人类完成工作初稿的能力，例如 Github Copilot、Microsoft 365 Copilot、Midjourney，分别成为人们在编程、办公、图像生成领域中的智能副驾。

　　告诉 AI 完成一件任务，它就能完成一件任务——撰写文案、回答问题，或者生成一张人类肉眼难以分辨真假的照片。而与此同时，人们也往往需要为 AI 的每一步行动提供具体清晰的提示。

　　此时的 AI 就像是初来乍到，没有任何经验，需要手把手教导的实习生。但是，如果你想要一个听指令办事，执行中遇到困难自己解决，尽量不给人添麻烦的好员工呢？

　　3、4 月份，Camel、AutoGPT、BabyAGI、西部世界小镇等多个 AI Agents 集中爆发，似乎让人们看到了这样的可能。

　　OpenAI 联合创始人兼 CEO Sam Altman 曾在多个场合表示，构建庞大 AI 模型的时代已经结束，智能体才是挑战。

　　在一篇介绍自主智能体的文章中，作者 Octane AI（一家数据营销平台提供商）联合创始人兼 CEO Matt Schlicht 收集了来自业界、学术界、投资界等上百余人的观点和看法，有来自 Meta、Nvidia、Stability AI 等大公司或 AI 初创公司的专家，也有斯坦福 CS 的教员和投资了包括 Hugging Face 在内的 AI 投资人，绝大多数都表达了对 AI Agents 潜能的期待和展望，甚至将其称为原始 AGI。

　　图灵奖获得者 Yoshua Bengio 在今年 5 月发布的博文《危害人类的 AI 是如何出现的》中就提及，人类能控制 AI Agents 总任务、总目标，并不意味着人类能控制 AI Agents 凭借自己的智慧分解出来的子任务、子目标，除非 AI 对齐（alignment）的研究取得突破，否则人类就没有强有力的安全保障。

　　智能体的集体出现，大佬的追捧和质疑，AI Agents 的浪潮迅速且火热。

　　当时的业界潮流是通过强化学习（reinforcement learning）的方法来训练和改进 AI Agents，主要应用于游戏场景，特别是一些对抗性、具有明显输赢双方的比赛中。但如果想要在真实世界中实现通用性，却是一个悬而未决的问题。

　　之后的几年，OpenAI 转向大语言模型，GPT 系列的相继推出，大模型成为各家科技厂商争先涌入的赛道，也正是大模型的发展，让 AI Agents 有了突破瓶颈、重新发展的契机。

　　相较于几年前局限在游戏场景，在大模型的基础上 AI Agents 可以实现什么？BV 百度风投 AI 应用赛道负责人，投资副总裁温永腾向「甲子光年」表示：我们看到的不仅仅是技术进步使得 AI 在理解用户意图、收集信息以及执行任务的能力大大增强，更重要的是，AI Agents 完全有能力重构未来的应用生态。

　　在 AutoGPT 推出后不久，已经有不少网友使用 AutoGPT 来搭建自动化的个人助理。例如 FirstSales.io 的创始人兼 CEO Udit Goenka 发帖称，他利用 AutoGPT 搭建了一个勘探引擎，可以搜索去年获得种子轮投资的公司，并能描述创建列表的详细信息。

　　真格基金管理合伙人戴雨森告诉「甲子光年」：Agent 是一个让生产力真正能大幅提高的方向，因为如果还是人做事情，人总是有限的。

　　AI Agents 将会成为日常生活和工作中的生产力工具。Matt Schlicht 写道，从管理社交媒体账号、投资市场，到出版最好的儿童读物，AI Agents 将存在于各个行业和每一项可以被想象出的任务之中。例如 aomni，是一款可以在网络上查找任何主题信息的 AI Agent，会通过创建列表，一项一项完成用户的目标。

　　不同于 ChatGPT、Claude 通用人工智能的定位，Pi 主打高情商、情感陪伴、提供情绪价值。Pi 还会记住和用户的历史对话，除了参与并辅助人们的工作与生活，还会学习联系朋友和家人的方式与用户建立联结。目前 Inflection AI 已获得超 15 亿美元的投资，超越了 Anthropic，仅次于 OpenAI。

　　Building a kind of JARVIS（构建类似于 JARVIS），这是 Andrej Karpathy 在 Twitter 上最新更新的简介，JARVIS 是漫威超级英雄钢铁侠的一位人工智能助手，具备独立思考的能力，能帮主人处理各种事务，计算各种信息。

　　外媒《The Information》指出，Sam Altman 曾在 5 月私下告诉部分开发者，OpenAI 希望将 ChatGPT 打造成个人工作助手，并有知情人士指出，OpenAI 一直在关注如何使用聊天机器人来创建自主的AI Agents，相关功能很有可能部署在 ChatGPT 助手中。

　　早在 4 月，Zuckerberg 就曾对投资者表示，Meta 看到了以有用且有意义的方式向数十亿人介绍 AI Agents 的机会，但此时他并没有说明具体的应用。

　　而在 6 月一次与员工举行的全体会议上，Zuckerberg 宣布了一系列处于不同开发阶段的技术，其中一个就是将带来具有不同个性和能力的 AI Agnts 来提供帮助或娱乐，最初主要用于 Messenger 和 WhatsApp。

　　在 7 月初的 WAIC 现场，阿里云就发布了旗下第一个智能体—— ModelScopeGPT，面向开发者群体，并将在未来推出一系列智能体以应对多种应用场景。

　　华为在该领域也有涉及，但更侧重于具身智能（Embodied AI），即大模型与机器人的结合。

　　除了大厂，AI Agents 也是创业者们的机会。OpenAI 联合创始人 Karpathy 特意在此前的演讲中提到：普通人、创业者和极客在构建 AI Agents 方面相比 OpenAI 这样的公司更有优势。

　　BV 百度风投 AI 应用赛道负责人，投资副总裁温永腾表示，BV 团队目前也对初创企业在 AI Agents 领域中的机会持乐观态度。

　　未来的应用生态将是多元化的，而非由单一巨头主导。AI Agents 的出现带来了一次范式转移的机会，许多传统应用都面临被颠覆改造的可能性。在这个过程中，初创公司有大量的机会去开垦新的领域。对于每一个特定的任务，AI Agents 都有大量的优化空间，包括特定算法与服务的构建、用户数据以及产品设计等方面，都是初创公司可以建立差异化优势的地方。

　　此外，当前 AI Agents 的生态还不够明确，这为初创企业提供了有利的发展机会，因为它们并不需要在一个已经确定的规则下进行竞争，从这个角度上来看，初创企业与大公司是站在同一起跑线上的，并且初创企业更为灵活，可以很快进行产品的调整。

　　凭借在人工智能领域布局多年所积累的认知，BV 百度风投并不认为模型公司会垄断应用层的机会。因为对于底层模型公司来说，构建生态的意义远大于垄断某一应用，如果底层模型公司采取排他性的策略来获取应用层的竞争优势，可能会对其自身的生态造成伤害。底层模型公司可能会在他们关注的一两个领域构建强大的 AI Agents，但他们没有必要在所有领域都与初创企业竞争。

　　但不可否认的是，目前为止，除了许多演示之外，AI Agents 并没有真正的产品出现。

　　真格基金管理合伙人戴雨森将 AI 和人类协作的程度类比为自动驾驶的不同阶段，AI Agents 就好比自动驾驶的 L4 阶段。但就如同 L4 一样，AI Agents 容易想象、演示，却难以实现，AI Agents 的真正应用还在不确定的未来。

　　将 AI 和人类协作的程度类比自动驾驶的不同阶段（图源：戴雨森即刻账号 @yusen）

　　戴雨森强调，想要实现可用的 AI Agents，还需要大幅提高大模型的能力，即使是对处于顶层的 OpenAI 来说，在延迟、性能上也有很高的提升空间。

　　如果用蒸汽机来打比方的线度才能产生蒸汽，如果 AI Agents 的智力还没有达到一定的程度，水只烧到了 50 度，即使已经花费了很多能源，依然无法产生蒸汽，依然是 0。

　　AI Agents 赛道的发令枪已经打响，只不过，这绝对不是短短几个月内的冲刺，而是注定要长达几年，甚至跨越十年的长跑马拉松。

2202年了居然有人在互联网这么上班？

财经早餐：央行明确存量房贷利率要降息比亚迪前7月新能源汽车销量暴增8881%