一种面向服务LLM应用系统的显式世界模型架构原理-育师

1.背景

在企业级 LLM 应用中，“对话”天然擅长表达意图与生成文本，但不擅长长期一致性维护：对象指代会漂移、状态会被遗忘、约束会被稀释、事实与假设会混杂。对强约束、强状态、需审计的业务流程（如客服工单、运营处置、交付协作、合规审查）而言，系统必须具备一个稳定的“共同现实”载体，使多方协作在时间尺度上保持一致，并能对关键决策提供证据链与追溯能力。

EWM（Explicit World Model，显式世界模型）的定位是：把业务流程的关键对象、状态演化、约束体系与证据链从对话中外置出来，作为系统级共享状态（shared state）与可审计演化轨迹。在 EWM-SOA 中，LLM 只在此共享状态之上提供结构化提案；系统的可控性来自显式模型、状态机、门禁规则与审计事件，而非来自模型的“智能可信”。

2. EWM 的本体论：系统以“共享现实”为中心

EWM 的核心主张是：系统真相源（source of truth）不是对话历史，而是可版本化的世界模型快照与其演化事件。这意味着系统围绕一个可检索、可比较、可回放的对象图运作：

• 对象（Entities）：业务实体必须具备稳定标识（ID）、类型、属性、关系与版本语义

• 状态（State）：对象与流程的阶段必须显式表达，并由状态机限定可达状态与合法迁移

• 约束（Constraints）：硬约束（不可违反）与软约束（可权衡）在模型中作为一等公民存在

• 证据（Signals/Evidence）：观测事实以结构化证据形式进入模型，携带来源、时间戳、可信度

• 假设（Hypotheses）：解释性内容必须与证据建立支持/反证关系，并具备可变置信度

• 动作（Actions）：可执行动作被收敛在“动作空间”内，动作是状态迁移的显式触发器

• 冲突（Conflicts）：证据、状态、约束之间的矛盾需要被对象化，而非在叙述中隐性覆盖

• 时间线（Timeline）：关键节点作为审计与复盘的骨架结构存在

EWM 因而构成一个“可运行的业务语义内核”：它不是知识库，而是业务状态与证据的结构化载体。

3. EWM 的结构性分层：事实、解释与意图的隔离

EWM 的稳定性来自对三类信息的强制分离：

1. 事实层（Facts/Signals）：来自观测系统、工单输入、文档来源的可引用证据

2. 解释层（Hypotheses）：对事实的因果解释与推断，允许变化与被推翻

3. 意图层（Plans/Actions）：未来动作与计划，必须显式携带前置条件、影响面与验证方式

该分层的技术意义在于：

• 防止系统把“合理叙述”误写为“已证事实”

• 为门禁与审计提供明确判据（哪些是事实、哪些只是提案）

• 使状态迁移具备证据门槛（例如 resolved 必须满足事实层验证）

4. 状态机与可达性：EWM 的语法约束

对强状态流程，EWM 的状态机不是附属文档，而是系统行为的语法。状态机约束的是“可写入性”而非“可表达性”：对话中可以提出任意建议，但写入 EWM 的状态变化必须满足：

• 迁移合法性：from→to 必须存在于状态机定义中

• 前置条件：迁移所需证据、审批、角色权限必须满足

• 不变式（Invariants）：迁移后仍需保持的系统约束（如幂等性、唯一性、合规规则）

• 例外机制：允许例外但必须显式记录例外原因与授权来源

因此，状态机提供两类能力：

• 工程上的一致性保障：防止非线性跳跃导致的“状态污染”

• 治理上的可解释性：把“为什么不能关单/不能升级/不能执行”转化为可说明的规则结果

5. 变更模型：从“直接写入”到“结构化 diff / 事件化演化”

EWM 的更新不以“直接覆盖快照”为核心，而以结构化 diff 或 **事件（event）**为核心。其原理是把世界状态的演化看成一条可追溯的序列：

• 快照（Snapshot）：某一时刻 EWM 的完整视图，用于读取与对齐

• 增量（Diff）：对快照的最小变化集合，表达新增证据、状态迁移、动作状态变化等

• 事件流（Event Log）：对 diff 的不可变追加记录，形成回放与审计基础

该机制的技术价值包括：

• 支持并发协作下的版本一致性（快照 + 乐观锁语义）

• 提供可回滚、可比较、可回放的演化轨迹

• 将“责任”与“因果”绑定到具体变更事件（谁提交、谁批准、何时生效）

EWM 由此具备“系统级记忆”的性质：它不是对话记忆，而是可计算、可验证的状态记忆。

6. “读—提案—门禁—执行—回写”的闭环控制结构

在 EWM-SOA 中，EWM 处于闭环控制结构的中心，其工作方式可形式化为：

1. 读取（Read Snapshot）：所有参与方基于同一版本快照对齐当前世界

2. 提案（Propose）：LLM 或人产生候选动作与结构化 diff（属于意图层）

3. 门禁（Validate/Gate）：基于状态机、约束、证据阈值与权限对 diff 做可写入性判定

4. 执行（Execute）：对已批准动作进行外部系统调用（业务/IT/OT）

5. 回写（Ingest Evidence）：执行结果、观测信号回写为事实层证据，驱动下一轮对齐

该闭环的关键点是：

• LLM 仅在“提案”位置发挥作用，其不确定性被隔离在可拒绝的输出之中

• 系统的可靠性来自门禁与证据回流，而不是来自模型“不会犯错”的假设

• EWM 的演化由外部世界的反馈校正，从而形成稳定的运行机制

7. 门禁（Gate）的原理地位：把可控性从智能中剥离出来

Gate 在技术上承担“可写入性判定器”的角色，其输入是（快照, diff, 规则集），输出是（接受/拒绝, 原因, 需要补齐的证据/审批）。
Gate 的存在使系统满足企业级要求：

• 安全性：高风险动作不因语言输出而触发

• 合规性：审批链路与敏感信息策略可被强制执行

• 一致性：状态机合法迁移与不变式得以保证

• 可解释性：拒绝原因可结构化呈现并沉淀为运营指标

从架构理性上看，Gate 是“内核态”的机制：它定义系统允许发生什么，而不是 LLM 的输出定义系统会发生什么。

8. EWM 与检索/知识的关系：EWM 管状态，RAG 管补充事实

EWM 并不试图容纳全部知识。其边界是任务闭环所需的最小世界。
外部知识（FAQ、Runbook、政策条款、历史案例）通过检索服务进入系统，但必须遵循同一分层原则：

• 检索结果只能作为候选证据来源或约束来源进入模型

• 若要推动关键状态迁移，需要将其转化为可引用的证据对象（含来源与时间戳）

• 解释与决策仍由状态机/门禁/证据阈值共同约束

因此，EWM 与 RAG 的关系是互补：EWM 负责一致性与可审计的状态演化，RAG 负责补充事实与方案空间。

9. 架构目标：从“聊天应用”到“领域操作系统”

当 EWM 被置于中心后，系统整体性质发生变化：

• 从“对话驱动”转为“状态驱动”

• 从“文本产出”转为“行为闭环”

• 从“提示词工程”转为“模型可插拔 + 规则可配置 + 证据可追溯”

• 从“单场景定制”转为“Schema/Rules/Catalog 三件套配置化复制”

其结果是：企业可以把智能能力当作可替换的服务组件，而把治理、审计、状态一致性固化在平台层，从而支撑跨团队、跨流程、跨时间尺度的规模化运行。

10. 小结：EWM 的技术原理要点

• 真相源外置：共享状态不依赖对话，依赖版本化 EWM

• 事实—解释—意图分离：以证据链约束“事实写入”

• 状态机作为语法：限定可写入的状态迁移与不变式

• diff/事件化演化：形成可回放、可审计的系统记忆

• 闭环控制结构：读→提案→门禁→执行→证据回写

• 可控性来自 Gate：把风险控制从 LLM 的不确定性中剥离出来

• 知识补充而非替代：RAG 提供候选事实，EWM 保证一致性与治理

以上原理共同构成 EWM-SOA 的架构理性：以显式模型承载共同现实，以规则与证据保证可控演化，以服务化边界支撑规模化复制。

附图：

下面是一张架构逻辑视图（把 EWM 作为中心“共享现实 / 状态内核”突出出来）。

这张图想表达的“逻辑中心”

•EWM 在中间：所有协作都围绕同一份Snapshot/Version对齐；写入只能通过Gate。

•LLM 不触碰真相源：它只读 EWM、给出结构化提案/差分（diff）。

•可控性来自 Gate：决定“能不能写入、能不能执行”，并把拒绝原因结构化。

•闭环来自 Evidence 回流：执行结果与观测信号回写为signals/evidence，推动下一轮状态演进。

一种面向服务LLM应用系统的显式世界模型架构原理

1.背景

2. EWM 的本体论：系统以“共享现实”为中心

3. EWM 的结构性分层：事实、解释与意图的隔离

4. 状态机与可达性：EWM 的语法约束

5. 变更模型：从“直接写入”到“结构化 diff / 事件化演化”

6. “读—提案—门禁—执行—回写”的闭环控制结构

7. 门禁（Gate）的原理地位：把可控性从智能中剥离出来

8. EWM 与检索/知识的关系：EWM 管状态，RAG 管补充事实

9. 架构目标：从“聊天应用”到“领域操作系统”

10. 小结：EWM 的技术原理要点

附图：

这张图想表达的“逻辑中心”

闭环逻辑图（Read→Propose→Gate→Execute→Observe→Update 的环形视图）

30、活动目录安全审计策略的实施与管理

Linly-Talker能否接入Unity引擎实现游戏内NPC对话？

Linly-Talker在智能家居控制中的视觉反馈机制

Linly-Talker能否实现AR眼镜端实时渲染？近眼显示优化

力扣hot100：旋转排序数组中找目标值

Linly-Talker能否导出音频单独使用？资源复用建议