当智能体真正走进办公室，它的成绩单好看吗？-育师

这项由Frontis.AI旗下Horizon Research团队完成的研究，于2026年6月22日以预印本形式发布，编号为arXiv:2606.23654v1，研究领域归属于计算机科学·计算与语言（cs.CL）。感兴趣的读者可以通过该编号在arXiv平台上查阅完整论文。

一、为什么办公室才是AI最难通过的考场

每天早上，数以百万计的职场人打开电脑，面对的是一堆混杂的事务：这边要从同事发来的Excel表格里整理数据，那边要把一段会议录音转成项目日报，还要把PDF版的方案转化成一页精美的HTML展示页面。这些任务听起来很普通，但对AI来说，却像是一场同时考察语文、数学、美术和体育的综合考试。

过去几年，AI助手（也叫"大语言模型"，可以理解为能读懂语言并生成回答的智能程序）的能力突飞猛进，但大多数衡量它们能力的"考试"其实相当片面——有的只考"答题"（即回答知识问答），有的只测试它能不能写代码，却很少有人去考察：当AI真正坐进一间有真实员工、真实文件、真实业务需求的办公室时，它究竟表现如何。

正是看到了这个空缺，Frontis.AI的研究团队决定做一件不太一样的事——不去凭空设计考题，而是直接从公司内部几个月真实的工作记录中提炼出基准测试，让AI在真正来自职场的任务面前接受检验。这个测试集被命名为EnterpriseClawBench。

研究团队将整个系统比作一套"爪子"（Claw），因为它抓取的是真实工作场景，而驱动这套爪子的框架，就是所谓的"harness"（可以理解为给AI穿上的一套工作装备，让它能调用工具、操作文件、完成任务）。研究的核心发现只需一句话概括：即便是当前最强的AI组合，在这套真实企业考场里的最高分也不过66.3分，绝大多数组合的平均分只有48.6分——这个成绩，放在任何一家公司的年终考核里，都不算及格。

二、从乱糟糟的工作记录到严格的考题：这套"出题机器"是怎么运转的

理解EnterpriseClawBench，首先要理解它的"原材料"从哪里来。研究团队的公司——一家拥有百余名员工的AI创业公司——在2026年3月至5月间，将员工与内部AI助手之间的所有对话、上传的文件、工具调用记录以及生成的输出文件全部保存下来。这些记录就像一座未经整理的矿山，里面藏着真金，但也混杂着大量无用的石头。

出题流程可以用"淘金"来比喻。矿山里最初有5291条原始任务记录，研究团队搭建了一套四道平行闸门的过滤装置。第一道闸门检查"长度"——如果一条记录里用户的消息只有一个问号，或者寥寥数字根本无法判断意图，就直接淘汰，这道关卡过滤后剩下5181条。第二道闸门检查"输入文件"——如果任务声称依赖某个附件，但这个文件根本找不到，那就必须剔除，否则AI没有原材料，失败就不是能力问题而是材料缺失问题，这道关卡留下4896条。第三道闸门处理"信息遮蔽恢复"——企业数据里经常有被打码或替换的URL和路径，如果这些信息能从上下文中可靠还原就保留，否则淘汰，剩下4286条。第四道闸门检查"网络依赖"——如果任务要求AI去访问一个外部链接，但这个链接在测试时根本打不开，那这道题就没法稳定地重复考，也要去掉，剩下5003条。

这四道闸门同时运转，共同通过的有3813条候选记录。但这还不够，因为很多记录虽然通过了机械检查，却依然无法形成一道清晰的考题——有的是员工发了一句极度简短的消息，连原来的AI助手都没搞清楚他想要什么（直接反问"你是想要A还是B？"）；这类没有明确目标的任务同样被排除。经过这轮"自包含性审核"，最终精炼出852道可以重复使用的基准任务。

值得一提的是，研究团队还从这852道题中人工精选并核查了120道题，组成一个更小但质量更高的"Lite版"考卷，用于主要的排行榜评估。这120道题每一道都经过人工审核，确保公平、可靠、有意义。

三、这852道考题长什么样：职场版"各科考试"的全貌

把这852道题按员工角色分类，可以看出职场真实需求的构成。产品和项目管理类的任务最多，占了26%，涉及写项目日报、整理PRD（产品需求文档）、生成可视化展示页面等。工程和IT类紧随其后，占20%，涉及解释API配置、比较技术框架、分析代码日志等。人事行政类占12%，包括计算离职方案的薪酬成本、生成面试评估报告、核查考勤记录等。此外还有高管支持、销售客户、市场营销、财务运营等类别，每类都有自己的专属子技能，整体扩展出45个具体的技能子类。

这些任务用到的输入文件和输出文件同样五花八门。输入材料涵盖Markdown文档（占29%）、Word文件（18%）、图片（16%）、PDF（8%）、表格（7%）等十余种格式；要求输出的文件则以Markdown（39%）和纯文本（32%）为主，但也包括HTML页面、Word文档、表格、幻灯片、图片等。有些任务甚至要求同时交付多种文件，所以887个交付物需求分布在852道题上，平均每道题超过一个。

这种多样性正是EnterpriseClawBench区别于其他测试集的根本所在。它不是在问AI"谁发明了蒸汽机"这样的知识题，而是在要求AI"读懂这份会议录音文字稿，结合市场情况，给我输出一份格式规范的评估报告"——这才是真正的办公室日常。

四、如何给AI的工作成果打分：一套两层裁判系统

给AI的工作打分，本身就是个挑战。研究团队设计了一套"两层裁判"系统，可以用餐厅评分来类比。

第一层是"卫生检查员"——负责检查硬性规定是否达标。要求输出一个Excel文件？那就必须是Excel格式，不能给个Word来代替。文件里不能有未填写的占位符（比如"【请在此填写数字】"这种没有真正替换掉的模板文字）。文件必须能正常打开，不能损坏。程序不能报错崩溃。这些硬性规则不涉及任何主观判断，要么通过，要么不通过。

第二层是"美食评论家"——负责评价输出内容的质量，分五个维度打分。第一是"扎实的准确性"，即输出内容是否真实反映了输入材料里的信息，有没有凭空捏造或遗漏关键数据。第二是"任务相关性"，即AI的输出是否真正回应了用户的需求，而不是跑题了。第三是"实质深度"，即内容有没有真正做到该做的分析，还是只是表面文章。第四是"实用价值"，即这个输出交给真实员工使用，他们能不能直接用得上。第五是"表达质量"，即文字是否清晰、结构是否合理、术语是否准确。

这位"美食评论家"本身也是一个AI（具体使用的是Claude Sonnet 4.6模型），但打分路径会根据输出文件的类型不同而分叉：纯文字类输出走文字评分通道，而HTML页面、幻灯片、PDF、表格、图片这类视觉化文件则先通过截图转换成图片，再走视觉评分通道。

研究团队还专门验证了这位"AI裁判"的可靠性。用另一个AI（GPT-5.4）重新打分，与主裁判的相关系数达到0.918（文字路径）和0.866（视觉路径），说明两位AI裁判给出的排名高度一致。但当他们请来48位真人专家对比打分时，结果出现了一个重要裂缝：在文字类任务上，AI裁判和人类评分者的相关系数高达0.790，非常可靠；但在视觉类任务上，相关系数跌到了-0.259，甚至是负数——这意味着AI裁判越打高分的视觉作品，人类反而觉得越差。这个发现意味着，当前AI对图表、幻灯片、网页等视觉输出的评判能力还相当不成熟。

五、真实大考成绩单：谁排第一，谁惨遭滑铁卢

在120道人工核查题（Lite版）上，研究团队测试了五套工作装备（harness）与九种AI大脑（模型）的32种组合，形成一张完整的成绩单。

整体排名里，最高分是66.3分，由Codex装备搭配GPT-5.5大脑完成。紧随其后的是Claude Code装备搭配Sonnet 4.6（64.4分）以及Claude Code装备搭配Opus 4.6（63.5分）。平均分只有48.6分，说明这个考场对所有AI来说都相当具有挑战性，远没有"饱和"——没有哪个组合能轻松拿满分。

成绩单上最耐人寻味的现象，来自Hermes这套装备与Claude系列大脑的组合。Claude的Sonnet 4.6模型在其他三套装备（Claude Code、DeepAgents、OpenClaw）上稳定保持在62%到64%的区间，但换上Hermes之后，成绩骤降至45.8%。Opus 4.6和Haiku 4.5也呈现同样的规律。研究团队追查了详细的运行日志后发现，Claude系列模型喜欢主动探测环境、运行脚本、多步骤修复——但Hermes这套装备会频繁触发审批检查，把这些操作拦下来，或者把被拦截的工作转包给子任务，导致运行日志变得极长并在写出输出文件之前就被截断。结果就是任务看起来完成了，但工作目录里根本没有稳定的输出文件。这个现象揭示了一个关键洞察：有时候AI表现不好，不是因为大脑不够强，而是因为穿的工作服不合身。

成本与成绩的关系同样有规律可循。把每种组合的花费（以人民币计）和得分放在坐标图上，会看到一个"边际收益递减"的曲线：从极低成本到中等成本的跨越能带来显著的成绩提升，但超过中等成本区间后，继续烧更多钱只能换来越来越小的进步。Hermes与Claude系列的组合是最明显的离群点——花了很多钱，但因为装备兼容性问题，分数远低于同等成本下其他组合的水平。

六、不同部门的AI成绩差异：为什么财务和市场是"难啃的骨头"

把成绩按企业角色类别拆分来看，GPT-5.5是最全面的"通才选手"，在多个职能类别里都位居前列，其中产品/项目类任务得分高达72%。Sonnet 4.6和Kimi K2.6紧随其后，也表现相对均衡。

但整体来看，营销类和财务/运营类任务得分明显偏低。研究团队人工查阅了这些任务的细节后分析认为，这类任务的难点在于两个叠加：一方面需要大量阅读和理解长篇业务文件，另一方面要求输出结果严格符合企业内部的特定格式和行业惯例。这类高度专业化、高度情境化的知识，在公开训练数据里本来就比较稀少，因此AI在这些类别上的表现相对吃力。

不同格式的输出对成绩的影响同样不可忽视。把成绩按输出文件类型拆分后，会看到GPT-5.5在HTML页面、代码和JSON类输出上最强，而Opus 4.6在表格类输出上反而拔得头筹。此外，表格和幻灯片类任务的视觉评分普遍偏高，但这个"虚高"并不是真实质量的反映，而是前面提到的"AI视觉裁判不够准"的副产品——这个系统性偏差在研究中被明确指出，是当前多模态评估的重要盲区。

把五个评分维度单独拆出来看，各模型在"表达质量"和"任务相关性"上普遍得分较高，但在"扎实的准确性"上显著偏低。研究团队认为，这折射出了AI在处理大型输入文件时的一个普遍弱点：它们往往很难在漫长的多步骤执行过程中始终"记住"用户要求的关键细节，经常在最终输出里丢失或错误处理了原始文件里的核心数据。换句话说，AI能写得很像样，但不一定写得很准确。

七、当AI给自己培训材料：技能"嫁接"实验的喜与忧

EnterpriseClawBench还设计了一个颇具前瞻性的实验，用来测试一个新兴的企业AI使用模式——技能迁移。

在企业实际部署AI时，越来越多的做法是：先让AI在某类任务上积累经验，然后把这些经验提炼成一份"技能文件"（可以理解为一份详细的操作手册），再把这份手册注入AI，让它在处理同类新任务时参考这套经验。研究团队选择了"前端页面生成"这个技能子类来做实验：先让几种不同的"创造者AI"在10道练习题上完成任务，收集它们的操作过程、交付成果和裁判反馈，然后由另一个AI把这些材料提炼成一份技能手册，最后把这份手册注入不同的"执行AI"，在5道新题上测试有没有进步。

结果呈现出一张四行三列的矩阵图，横轴是技能手册的"创造者"（GPT-5.5、Kimi K2.6、Haiku 4.5），纵轴是技能手册的"使用者"（四种harness-模型组合），每个格子里记录了注入技能前后的分数变化。

GPT-5.5创造的技能手册效果最好，平均让使用者进步了+0.068，而且没有出现负面影响。Kimi K2.6创造的手册平均带来+0.052的进步，但进步主要集中在Codex/GPT-5.5和OpenClaw/Kimi K2.6这两个"强消费者"身上。Haiku 4.5创造的手册则是灾难性的，平均分下降了-0.094，对OpenClaw/Kimi K2.6这个组合造成了高达-0.323的重创。

更有趣的是，创造技能的能力和使用技能的能力并不挂钩。Haiku 4.5作为"创造者"表现很差，但作为执行者（DeepAgents/Haiku 4.5）却相当不错，三份注入的技能手册中有两份让它进步了。这说明，技能迁移的效果是由"手册质量"、"执行者行为风格"、"创造者与执行者的匹配度"以及"执行者的基础分"共同决定的，不能简单地用一个平均数来概括。研究团队由此建议，评估技能迁移效果应该像这张矩阵一样，完整呈现创造者-使用者组合，而不是报告一个笼统的平均进步值。

八、从852道真实考题，研究团队得出了哪些结论

说到底，EnterpriseClawBench这个研究的贡献可以归结为三个层面。

在工具层面，它提供了一套可复用的"出题流水线"——从企业真实工作记录到可重复执行的基准任务，每一步都有明确的自动化逻辑，其他公司理论上可以用同样的方法为自己的场景建立内部测试集（当然，论文本身因涉及内部数据，并不对外公开测试数据）。

在评估框架层面，研究明确指出：评估企业AI助手的性能，必须同时汇报"装备-大脑组合"（不能只报模型名字）、文件交付情况、文字与视觉双通道的语义质量、运行成本和时间，以及在不同职能类别和技能子类上的表现，把这些维度压缩成单一分数是危险的简化。

在现实意义层面，最高分才66.3分这个事实，清晰地说明当前的AI系统距离真正胜任复杂企业工作还有相当距离。装备与大脑的兼容性问题、对大型输入文件的事实准确性问题、视觉类输出的评估不成熟问题，都是亟待解决的瓶颈。对于正在思考"要不要在公司里大规模部署AI助手"的企业决策者来说，这份成绩单提供了一个难得的理性参照——不要被演示环境里的精彩表现迷惑，真正的考场要严苛得多。

对于普通的职场人来说，这项研究意味着：AI助手确实能帮你完成很多日常办公任务，但它更像一位刚入职的实习生，在表达上挑不出太多毛病，但在关键数据的准确性上还需要你认真复核。而当这位实习生换了一套新的"工作系统"之后，他的表现可能会出乎意料地变好或变差——这不是他变聪明或变笨了，而是新系统和他的工作风格不合拍。

如果你对这项研究的细节感到好奇，可以前往arXiv平台，通过编号arXiv:2606.23654查阅完整论文，所有的实验数据、评分方法和案例分析都在其中等待你的探索。

---

Q&A

Q1：EnterpriseClawBench测试的是什么，和普通AI评测有什么不同？

A：EnterpriseClawBench是一套专门针对企业办公场景的AI评测基准，它的题目全部来自一家真实公司员工与AI助手的真实工作记录，而不是人工设计的假设场景。普通AI评测通常只测知识问答或代码生成，EnterpriseClawBench则要求AI读取混合格式的真实文件、调用工具、并输出可用的业务文档，同时还会评估完成任务的成本和时间，更接近真实工作环境的考验。

Q2：为什么同一个AI模型换了不同的工作框架，成绩差异会这么大？

A：这是因为AI模型本身只是"大脑"，还需要一套"工作装备"（harness）来帮它调用工具、管理文件。不同装备有不同的规则和限制，比如Hermes装备会频繁拦截Claude模型喜欢使用的主动探测和脚本执行操作，导致任务无法完成，成绩大幅下滑。这说明评估AI性能时，必须同时说明用的是哪套装备，而不能只报模型名称。

Q3：EnterpriseClawBench里的技能注入实验说明了什么？

A：实验测试了把AI的成功经验提炼成"技能手册"再注入新AI是否能提升表现。结果发现，技能手册的质量高度依赖于"创造者AI"的水平，GPT-5.5创造的手册普遍有效，而Haiku 4.5创造的手册反而让某些组合成绩下降了超过30%。此外，擅长创造技能和擅长使用技能是两种不同的能力，一个AI在其中一方面强不代表另一方面也强，因此不能用单一平均分来评价技能迁移效果。

当智能体真正走进办公室，它的成绩单好看吗？

高阶03：国产EAP vs 进口Applied EAP全维度对比与迁移改造

Hermes 上手指南：真实开发里的落地路径

Plotly实现印度数字体系（Lac/Crore）数据可视化

Agent可，使由之；不可，使知之。

Keras Functional API：构建多输入多输出复杂模型的工程实践

一文彻底搞懂 Loop Engineering