在传统软件团队里,技术债通常有一个相对清晰的演化路径:
初期赶进度
中期堆功能
后期补重构
而且,大多数技术债是“看得见的”:
重复代码
模块耦合
接口混乱
性能瓶颈
但在智能体(Agent)项目中,我越来越强烈地感受到一件事:Agent 团队的技术债,来得更快,而且更隐蔽。很多系统在功能演示阶段“看起来没问题”,但一旦进入持续迭代和真实业务使用,就会迅速暴露出:
行为不可预测
改一个地方,坏一大片
成本、延迟逐步失控
新人完全不敢动系统
更糟糕的是:你很难用传统软件工程的指标,第一时间意识到问题已经发生。本文不讨论模型选型、不讲“更强智能”,而是聚焦一个非常现实的问题:在智能体团队中,我们如何通过“架构卫生”机制,主动压制技术债的生成?
一、为什么 Agent 的技术债更容易失控?
1️⃣ 系统的“真实逻辑”不在代码里
在大量 Agent 项目中,核心行为逻辑分散在:
Prompt
Tool 描述
Router 规则
隐式上下文
人的“经验记忆”
这些地方不可编译、不可静态检查、不可强约束。结果就是:系统已经变了,但代码库看起来“很干净”。
2️⃣ 失败是“软失败”,不容易报警
传统系统:
报错 → 崩溃 → 告警
Agent 系统:
输出不理想
行为轻微偏移
成功率慢慢下降
但系统仍然“能跑”。这类退化,往往被归因于:“模型不稳定”,“输入质量问题”,“业务太复杂了”。而不是架构问题。
3️⃣ Prompt / 策略修改成本被严重低估
在很多团队中:
改 Prompt 被视为“低风险”
改 Router 被视为“调参数”
改工具描述几乎不走评审
但现实是:这些修改,往往等价于改了系统的核心控制逻辑。只是没有人把它当成“架构变更”。
二、什么是「架构卫生」?
“架构卫生”不是一个新概念,但在 Agent 场景下,它有非常具体的含义。
我给它一个工程化定义:通过固定频率、低成本的系统性检查,持续清理 Agent 架构中的“隐性复杂度”和“不可控增长”。重点在三个词上:固定频率|可执行|不依赖个人英雄主义。在我们团队里,这演化成了一套每周执行一次的架构卫生清单。
三、为什么是“每周”,而不是“季度重构”?
这是一个血泪教训。在 Agent 项目中:
一周可以加 5–10 个 Prompt 规则
一周可以多接 2–3 个工具
一周可以悄悄引入一个新的上下文依赖
等到你意识到“该重构了”,系统往往已经复杂到没人敢碰。Agent 的技术债,必须在“生成阶段”就被处理。
四、每周「架构卫生」清单(核心项)
下面是我们实际在执行的一套清单,你可以直接拿去裁剪使用。
✅ 1. Prompt 复杂度巡检(Prompt Hygiene)
每周至少回答三个问题:
是否新增了“只为修补某个失败案例”的规则?
是否存在相互叠加、但语义重叠的 Prompt 约束?
是否有 Prompt 行为已经无法用一句话解释?
实践建议:
为 Prompt 维护变更日志
每条关键规则标注“引入原因”
无法解释存在价值的规则 → 标记为待清理
Prompt 的复杂度,是 Agent 技术债的第一来源。
✅ 2. 工具使用密度与冗余检查
每周自动生成一份工具报告:
工具调用次数
成功 / 失败率
平均延迟
覆盖的任务类型
重点关注:
是否有工具长期“几乎不用”
是否有多个工具解决同一问题
是否有工具调用成本 > 实际收益
工具不清理,Agent 行为一定会退化。
✅ 3. 决策路径是否仍“可解释”
随机抽取 3–5 个真实任务,问一个简单问题:
这个 Agent,为什么这么做?
如果你需要:
翻 Prompt
看历史上下文
找某个“当时加的规则”
才能解释清楚,那说明决策路径已经开始腐化。
✅ 4. Context 膨胀与污染检查
重点检查:
是否无边界累积历史对话
是否把“日志 / 中间思考”长期塞进 Context
是否存在“已经失效但仍保留”的约束信息
实践建议:
强制 Context 分层(L0 / L1 / L2 / L3)
每周检查 L1 / L2 是否需要重摘要
不允许“无限历史拼接”
✅ 5. Router / 策略规则数量审计
很多 Agent 的真实复杂度,藏在 Router 里。检查点包括:
路由规则数量是否持续增长
是否存在“例外规则套例外规则”
是否有规则只服务于单一失败样本
Router 复杂度一旦失控,系统几乎无法演进。
✅ 6. 成本与效果的“偏离度”检查
每周对比:
成本是否在上升?
成功率是否在下降?
延迟是否越来越不可控?
如果三者中有两个同时出现异常,优先怀疑架构问题,而不是模型问题。
五、一个关键原则:卫生检查不等于“找人背锅”
如果每次检查的结果是:
“谁加的这个?”
“为什么当时没想清楚?”
那这个机制一定会失败。正确的文化是:架构卫生,是对系统负责,不是对个人追责。很多技术债,都是在“当时合理”的情况下产生的。
六、我们执行 8 周后的真实变化
在一个多 Agent 企业系统中,我们连续执行 8 周后:
Prompt 总行数 ↓ 30%
工具数量 ↓ 25%
回归事故 ↓ 明显
新人上手时间 ↓ 近一半
最重要的变化是:系统开始“敢于被修改”。这在 Agent 项目中,非常罕见,也非常宝贵。
结语:Agent 架构不是一次性设计,而是持续保洁
智能体系统的一个残酷现实是:
它们天然更“软”
变化更快
腐化也更快
如果你还在等:
“功能稳定了再重构”
“模型选型确定了再治理”
那大概率已经晚了。架构卫生不是额外工作,而是智能体工程的日常。当你开始用清单、节奏和机制,而不是靠“架构师记忆力”,来维持系统健康时:技术债会变慢,系统寿命会变长,团队心智负担会明显下降。每个AI智能体团队都需要重视技术债,否则你的AI智能体迟早要“发疯”。