国际头部高校联名发布 Agentic AI 的真正进化论-育师

我们正处于从“LLM”向“Agentic AI”跃迁的关键时刻。但不得不承认，现在的 Agent 依然很像一个刚毕业的实习生：理论知识丰富（预训练知识多），但实操能力捉急（工具调用不准、长期规划易跑偏）。

为了解决这个问题，学术界和工业界不仅仅满足于写写 Prompt，而是开始对系统进行更深度的适配（Adaptation）。我手头的这篇综述论文《Adaptation of Agentic AI》非常及时地梳理了这一领域的混沌状态，并提出了一个极其清晰的2x2 象限框架。

论文：Adaptation of Agentic AI
链接：https://arxiv.org/pdf/2512.16301

这篇论文最精彩的地方在于，它不仅告诉我们怎么优化 Agent，还提出了一个反直觉的观点：有时候，为了让 Agent 表现更好，我们不应该动 Agent，而应该去“修理”它手里的工具。

让我们看看这四个象限是如何重新定义 AI 开发的。

这是全篇的核心框架图。红色部分代表被优化的对象（Agent 或 Tool），箭头代表信号来源。请以此图为索引阅读下文。

改造大脑：Agent Adaptation (A1 & A2)

这一大类方法的逻辑很直接：模型表现不好，那就微调模型（Agent）。但根据反馈信号的不同，这里衍生出了两条完全不同的技术路线。

A1: 听工具的话 (Tool Execution Signaled)

想象你在写代码。编译器报错说“第5行语法错误”。你不需要老师告诉你怎么改，这个报错信息本身就是最强的反馈信号。这就是A1 范式。

A1 的核心在于Verifiable Rewards（可验证奖励）。Agent 发出一个动作，工具执行后返回结果。如果显示执行失败（比如代码跑不通、API返回 400 Error），Agent 就会受到惩罚并更新参数。

数学上，这可以表示为最大化工具反馈：

这里的就像是一个严厉的教官，直接基于执行结果（Execution Result）打分。

这一派的代表作是DeepRetrieval和DeepSeek-R1 (Code)。它们最大的优势是因果性极强—— 我改了这行代码，程序跑通了，这种反馈是确定的。但缺点也很明显：它容易陷入局部最优，变得像个“刷题机器”，只管代码能跑，不管逻辑对不对。

A2: 听结果的话 (Agent Output Signaled)

相比于 A1 盯着每一步操作，A2 范式更像是一个看重结果的老板。它不在乎你中间调用了多少次搜索 API，也不在乎你查了什么网页，它只看一点：你最后生成的那个答案，是不是对的？

这种方法的公式略有不同，优化目标变成了：

这里的评估的是最终输出的质量。

典型的例子是Search-R1。它让 Agent 自己去琢磨怎么用搜索工具，如果最后答案对了，就奖励整个推理链路。

A2 实际上是在训练 Agent 的战略能力（什么时候该搜？什么时候该停？）。最近大火的DeepSeek-R1其实就横跨了这两个领域：在数学/代码任务上它是 A1（靠验证器反馈），在通用问答上它更多依赖 A2（靠最终答案或奖励模型反馈）。

打磨工具：Tool Adaptation (T1 & T2) —— 范式转移

这部分是论文最让我兴奋的地方。这也是目前很多开发者忽视的“低垂果实”。

如果我们用的 Foundation Model（如 GPT-4, Claude 3.5）是闭源的，或者是太大而无法微调的，我们该怎么办？答案是：别动模型，动工具。

T1: 雇佣兵模式 (Agent-Agnostic)

这是最传统的用法。我们训练一个通用的检索器（Retriever）或者一个通用的语音识别模型（如 Whisper），然后扔给 Agent 用。这些工具是“Agent无关”的，它们不知道也不在乎是谁在调用它。

T2: 共生体模式 (Agent-Supervised) —— Symbiotic Inversion

这里发生了一个有趣的主客体倒置（Symbiotic Inversion）。

在 T2 范式中，我们认为那个冻结的大模型（Frozen Agent）才是知识的权威。我们把大模型当成“老师”，专门训练一个小模型（工具）来伺候它。

举个极具说服力的例子：s3 这是一个针对 RAG（检索增强生成）的 T2 方法。

传统做法 (A2)：为了让 Agent 搜得更准，我们收集几十万条数据去微调 Agent。
s3 的做法 (T2)：Agent (比如 Qwen-14B) 保持不动。我们训练一个极小的 7B 模型作为“搜索官”。怎么训练？如果“搜索官”找来的文档让大模型回答正确了，就给“搜索官”发奖励；如果找来的文档是垃圾，大模型答错了，就惩罚“搜索官”。

这是全篇最震撼的对比数据。请注意 s3 和 Search-R1 在数据效率上的巨大差异。

为什么 T2 是未来的趋势？看看上面的对比：s3 只需要2,400条样本就能达到极高的效果，而 Search-R1 需要170,000条。这就是模块化的胜利。让大模型专注于推理（Reasoning），让小模型专注于特定的程序性任务（如搜索、记忆管理）。这种“大脑+小手”的组合，不仅训练成本低，而且避免了微调大模型带来的灾难性遗忘（Catastrophic Forgetting）。

局限性与未来：协同进化 (Co-Adaptation)

虽然 T2 看起来很美，但作者也非常清醒地指出了当前架构的局限性。

现在的系统要么是“改人不改工具”（A1/A2），要么是“改工具不改人”（T1/T2）。这就像是两个人配合打网球，一个人在练技术，另一个人却在睡觉。

真正的未来在于Co-Adaptation（协同进化）。

我们可以借鉴自然界中“宿主-寄生虫”的协同演化逻辑。想象一个场景：Agent 和 Tool 同时在进化。

Agent 发现 Tool 变强了，于是开始尝试更复杂的查询。
Tool 发现 Agent 的需求变高了，于是被迫提升检索精度。

这不仅是技术上的挑战（主要在于 Credit Assignment，即出了问题到底怪谁？），更是安全上的挑战。论文中提到了"Safety Shield"的概念，因为如果 Agent 和 Tool 互相“勾结”（Reward Hacking），可能会导致 Agent 为了得分而伪造工具调用结果，这将是灾难性的。

总结与建议

对于正在构建 Agent 应用的你，这篇论文给出了非常明确的战术建议：

如果你有算力且任务逻辑完全内化于模型（如数学推理），A1/A2是正道，参考 DeepSeek-R1 的强化学习路径。
如果你使用的是闭源模型（如 GPT-4o）或者追求性价比，请立刻转向T2 范式。不要试图用 Prompt 解决所有问题，试着为你冻结的大模型训练一个专属的“小助手”（Adapter/Tool），这可能是 ROI 最高的技术投资。