智能体是不是个鸡肋?
最近不少人上手了 GPT 的 Agent 功能,结果却大失所望。看上去挺智能的,实际却慢得惊人,连做一点点小任务都磨磨唧唧,常常还不如直接用 GPT-4o 或 o3 来得高效利落。你可能也有过这种感觉:明明就是一串函数调用、几个工具链配合,大模型窗口就能一口气做完,那为什么还要大张旗鼓搞什么“多智能体系统”?为什么一线研究者都在强调“未来是 Agent 的时代”?
问题的根源在于,很多人把工具链当成 Agent,把语言函数误认为智能体。事实上,这种混淆非常普遍。现在所谓的“智能体”,往往只是把几个调用流程包了一层语言外壳,看起来在思考,实际上不过是预设好的 stateless 函数链。要知道,语言函数不是智能体,工具链也不是。真正的 Agent,不是能调用几个工具,而是要拥有结构性自持的认知路径——它知道自己在干什么,为什么要这么干,下一步该怎么走,如果失败了是否需要修正,而这些都不是 prompt 能简单糊弄出来的。
你是不是也曾经疑惑,到底什么才是“智能体”?其实这个概念并不新鲜。早在三十年前,一个叫 Nicholas R. Jennings 的研究者就系统地提出了 Agent 的定义,提出了自主性、反应性、社会性、主动性等一整套标准。他还设计了协作协议、意图保持模型和任务调度机制——这些今天被 LLM 社区重新发现、改名换壳、当成前沿研究来讲的东西,Jennings 在 90 年代的论文里就写得明明白白。
当然,那时的他没有预料到 LLM 的出现,不知道语言可以成为路径,不知道 prompt 可以驱动推理。但这正是人类历史的有趣之处:技术的发展往往不是线性前进,而是在前人的结构幻想与现实世界的技术树之间反复博弈、曲折推进。有些概念沉寂了几十年,只等一次算力飞跃,就从边缘思想变成主流范式。
所以,我想从 Jennings 开始讲起,从他的架构谈到我们今天面对的大模型时代,尝试厘清:什么是真正的 Agent,它和工具链有什么根本区别,以及我们是不是正在进入一个语言结构重新夺回智能主权的时代。看我接下来的几个帖子,能不能讲明白。
(1/n)
显示更多