这项由Frontis.AI旗下Horizon Research团队完成的研究,于2026年6月22日以预印本形式发布,编号为arXiv:2606.23654v1,研究领域归属于计算机科学·计算与语言(cs.CL)。感兴趣的读者可以通过该编号在arXiv平台上查阅完整论文。
一、为什么办公室才是AI最难通过的考场
每天早上,数以百万计的职场人打开电脑,面对的是一堆混杂的事务:这边要从同事发来的Excel表格里整理数据,那边要把一段会议录音转成项目日报,还要把PDF版的方案转化成一页精美的HTML展示页面。这些任务听起来很普通,但对AI来说,却像是一场同时考察语文、数学、美术和体育的综合考试。
过去几年,AI助手(也叫"大语言模型",可以理解为能读懂语言并生成回答的智能程序)的能力突飞猛进,但大多数衡量它们能力的"考试"其实相当片面——有的只考"答题"(即回答知识问答),有的只测试它能不能写代码,却很少有人去考察:当AI真正坐进一间有真实员工、真实文件、真实业务需求的办公室时,它究竟表现如何。
正是看到了这个空缺,Frontis.AI的研究团队决定做一件不太一样的事——不去凭空设计考题,而是直接从公司内部几个月真实的工作记录中提炼出基准测试,让AI在真正来自职场的任务面前接受检验。这个测试集被命名为EnterpriseClawBench。
研究团队将整个系统比作一套"爪子"(Claw),因为它抓取的是真实工作场景,而驱动这套爪子的框架,就是所谓的"harness"(可以理解为给AI穿上的一套工作装备,让它能调用工具、操作文件、完成任务)。研究的核心发现只需一句话概括:即便是当前最强的AI组合,在这套真实企业考场里的最高分也不过66.3分,绝大多数组合的平均分只有48.6分——这个成绩,放在任何一家公司的年终考核里,都不算及格。
二、从乱糟糟的工作记录到严格的考题:这套"出题机器"是怎么运转的
理解EnterpriseClawBench,首先要理解它的"原材料"从哪里来。研究团队的公司——一家拥有百余名员工的AI创业公司——在2026年3月至5月间,将员工与内部AI助手之间的所有对话、上传的文件、工具调用记录以及生成的输出文件全部保存下来。这些记录就像一座未经整理的矿山,里面藏着真金,但也混杂着大量无用的石头。
出题流程可以用"淘金"来比喻。矿山里最初有5291条原始任务记录,研究团队搭建了一套四道平行闸门的过滤装置。第一道闸门检查"长度"——如果一条记录里用户的消息只有一个问号,或者寥寥数字根本无法判断意图,就直接淘汰,这道关卡过滤后剩下5181条。第二道闸门检查"输入文件"——如果任务声称依赖某个附件,但这个文件根本找不到,那就必须剔除,否则AI没有原材料,失败就不是能力问题而是材料缺失问题,这道关卡留下4896条。第三道闸门处理"信息遮蔽恢复"——企业数据里经常有被打码或替换的URL和路径,如果这些信息能从上下文中可靠还原就保留,否则淘汰,剩下4286条。第四道闸门检查"网络依赖"——如果任务要求AI去访问一个外部链接,但这个链接在测试时根本打不开,那这道题就没法稳定地重复考,也要去掉,剩下5003条。
这四道闸门同时运转,共同通过的有3813条候选记录。但这还不够,因为很多记录虽然通过了机械检查,却依然无法形成一道清晰的考题——有的是员工发了一句极度简短的消息,连原来的AI助手都没搞清楚他想要什么(直接反问"你是想要A还是B?");这类没有明确目标的任务同样被排除。经过这轮"自包含性审核",最终精炼出852道可以重复使用的基准任务。
值得一提的是,研究团队还从这852道题中人工精选并核查了120道题,组成一个更小但质量更高的"Lite版"考卷,用于主要的排行榜评估。这120道题每一道都经过人工审核,确保公平、可靠、有意义。
三、这852道考题长什么样:职场版"各科考试"的全貌
把这852道题按员工角色分类,可以看出职场真实需求的构成。产品和项目管理类的任务最多,占了26%,涉及写项目日报、整理PRD(产品需求文档)、生成可视化展示页面等。工程和IT类紧随其后,占20%,涉及解释API配置、比较技术框架、分析代码日志等。人事行政类占12%,包括计算离职方案的薪酬成本、生成面试评估报告、核查考勤记录等。此外还有高管支持、销售客户、市场营销、财务运营等类别,每类都有自己的专属子技能,整体扩展出45个具体的技能子类。
这些任务用到的输入文件和输出文件同样五花八门。输入材料涵盖Markdown文档(占29%)、Word文件(18%)、图片(16%)、PDF(8%)、表格(7%)等十余种格式;要求输出的文件则以Markdown(39%)和纯文本(32%)为主,但也包括HTML页面、Word文档、表格、幻灯片、图片等。有些任务甚至要求同时交付多种文件,所以887个交付物需求分布在852道题上,平均每道题超过一个。
这种多样性正是EnterpriseClawBench区别于其他测试集的根本所在。它不是在问AI"谁发明了蒸汽机"这样的知识题,而是在要求AI"读懂这份会议录音文字稿,结合市场情况,给我输出一份格式规范的评估报告"——这才是真正的办公室日常。
四、如何给AI的工作成果打分:一套两层裁判系统
给AI的工作打分,本身就是个挑战。研究团队设计了一套"两层裁判"系统,可以用餐厅评分来类比。
第一层是"卫生检查员"——负责检查硬性规定是否达标。要求输出一个Excel文件?那就必须是Excel格式,不能给个Word来代替。文件里不能有未填写的占位符(比如"【请在此填写数字】"这种没有真正替换掉的模板文字)。文件必须能正常打开,不能损坏。程序不能报错崩溃。这些硬性规则不涉及任何主观判断,要么通过,要么不通过。
第二层是"美食评论家"——负责评价输出内容的质量,分五个维度打分。第一是"扎实的准确性",即输出内容是否真实反映了输入材料里的信息,有没有凭空捏造或遗漏关键数据。第二是"任务相关性",即AI的输出是否真正回应了用户的需求,而不是跑题了。第三是"实质深度",即内容有没有真正做到该做的分析,还是只是表面文章。第四是"实用价值",即这个输出交给真实员工使用,他们能不能直接用得上。第五是"表达质量",即文字是否清晰、结构是否合理、术语是否准确。
这位"美食评论家"本身也是一个AI(具体使用的是Claude Sonnet 4.6模型),但打分路径会根据输出文件的类型不同而分叉:纯文字类输出走文字评分通道,而HTML页面、幻灯片、PDF、表格、图片这类视觉化文件则先通过截图转换成图片,再走视觉评分通道。
研究团队还专门验证了这位"AI裁判"的可靠性。用另一个AI(GPT-5.4)重新打分,与主裁判的相关系数达到0.918(文字路径)和0.866(视觉路径),说明两位AI裁判给出的排名高度一致。但当他们请来48位真人专家对比打分时,结果出现了一个重要裂缝:在文字类任务上,AI裁判和人类评分者的相关系数高达0.790,非常可靠;但在视觉类任务上,相关系数跌到了-0.259,甚至是负数——这意味着AI裁判越打高分的视觉作品,人类反而觉得越差。这个发现意味着,当前AI对图表、幻灯片、网页等视觉输出的评判能力还相当不成熟。
五、真实大考成绩单:谁排第一,谁惨遭滑铁卢
在120道人工核查题(Lite版)上,研究团队测试了五套工作装备(harness)与九种AI大脑(模型)的32种组合,形成一张完整的成绩单。
整体排名里,最高分是66.3分,由Codex装备搭配GPT-5.5大脑完成。紧随其后的是Claude Code装备搭配Sonnet 4.6(64.4分)以及Claude Code装备搭配Opus 4.6(63.5分)。平均分只有48.6分,说明这个考场对所有AI来说都相当具有挑战性,远没有"饱和"——没有哪个组合能轻松拿满分。
成绩单上最耐人寻味的现象,来自Hermes这套装备与Claude系列大脑的组合。Claude的Sonnet 4.6模型在其他三套装备(Claude Code、DeepAgents、OpenClaw)上稳定保持在62%到64%的区间,但换上Hermes之后,成绩骤降至45.8%。Opus 4.6和Haiku 4.5也呈现同样的规律。研究团队追查了详细的运行日志后发现,Claude系列模型喜欢主动探测环境、运行脚本、多步骤修复——但Hermes这套装备会频繁触发审批检查,把这些操作拦下来,或者把被拦截的工作转包给子任务,导致运行日志变得极长并在写出输出文件之前就被截断。结果就是任务看起来完成了,但工作目录里根本没有稳定的输出文件。这个现象揭示了一个关键洞察:有时候AI表现不好,不是因为大脑不够强,而是因为穿的工作服不合身。
成本与成绩的关系同样有规律可循。把每种组合的花费(以人民币计)和得分放在坐标图上,会看到一个"边际收益递减"的曲线:从极低成本到中等成本的跨越能带来显著的成绩提升,但超过中等成本区间后,继续烧更多钱只能换来越来越小的进步。Hermes与Claude系列的组合是最明显的离群点——花了很多钱,但因为装备兼容性问题,分数远低于同等成本下其他组合的水平。
六、不同部门的AI成绩差异:为什么财务和市场是"难啃的骨头"
把成绩按企业角色类别拆分来看,GPT-5.5是最全面的"通才选手",在多个职能类别里都位居前列,其中产品/项目类任务得分高达72%。Sonnet 4.6和Kimi K2.6紧随其后,也表现相对均衡。
但整体来看,营销类和财务/运营类任务得分明显偏低。研究团队人工查阅了这些任务的细节后分析认为,这类任务的难点在于两个叠加:一方面需要大量阅读和理解长篇业务文件,另一方面要求输出结果严格符合企业内部的特定格式和行业惯例。这类高度专业化、高度情境化的知识,在公开训练数据里本来就比较稀少,因此AI在这些类别上的表现相对吃力。
不同格式的输出对成绩的影响同样不可忽视。把成绩按输出文件类型拆分后,会看到GPT-5.5在HTML页面、代码和JSON类输出上最强,而Opus 4.6在表格类输出上反而拔得头筹。此外,表格和幻灯片类任务的视觉评分普遍偏高,但这个"虚高"并不是真实质量的反映,而是前面提到的"AI视觉裁判不够准"的副产品——这个系统性偏差在研究中被明确指出,是当前多模态评估的重要盲区。
把五个评分维度单独拆出来看,各模型在"表达质量"和"任务相关性"上普遍得分较高,但在"扎实的准确性"上显著偏低。研究团队认为,这折射出了AI在处理大型输入文件时的一个普遍弱点:它们往往很难在漫长的多步骤执行过程中始终"记住"用户要求的关键细节,经常在最终输出里丢失或错误处理了原始文件里的核心数据。换句话说,AI能写得很像样,但不一定写得很准确。
七、当AI给自己培训材料:技能"嫁接"实验的喜与忧
EnterpriseClawBench还设计了一个颇具前瞻性的实验,用来测试一个新兴的企业AI使用模式——技能迁移。
在企业实际部署AI时,越来越多的做法是:先让AI在某类任务上积累经验,然后把这些经验提炼成一份"技能文件"(可以理解为一份详细的操作手册),再把这份手册注入AI,让它在处理同类新任务时参考这套经验。研究团队选择了"前端页面生成"这个技能子类来做实验:先让几种不同的"创造者AI"在10道练习题上完成任务,收集它们的操作过程、交付成果和裁判反馈,然后由另一个AI把这些材料提炼成一份技能手册,最后把这份手册注入不同的"执行AI",在5道新题上测试有没有进步。
结果呈现出一张四行三列的矩阵图,横轴是技能手册的"创造者"(GPT-5.5、Kimi K2.6、Haiku 4.5),纵轴是技能手册的"使用者"(四种harness-模型组合),每个格子里记录了注入技能前后的分数变化。
GPT-5.5创造的技能手册效果最好,平均让使用者进步了+0.068,而且没有出现负面影响。Kimi K2.6创造的手册平均带来+0.052的进步,但进步主要集中在Codex/GPT-5.5和OpenClaw/Kimi K2.6这两个"强消费者"身上。Haiku 4.5创造的手册则是灾难性的,平均分下降了-0.094,对OpenClaw/Kimi K2.6这个组合造成了高达-0.323的重创。
更有趣的是,创造技能的能力和使用技能的能力并不挂钩。Haiku 4.5作为"创造者"表现很差,但作为执行者(DeepAgents/Haiku 4.5)却相当不错,三份注入的技能手册中有两份让它进步了。这说明,技能迁移的效果是由"手册质量"、"执行者行为风格"、"创造者与执行者的匹配度"以及"执行者的基础分"共同决定的,不能简单地用一个平均数来概括。研究团队由此建议,评估技能迁移效果应该像这张矩阵一样,完整呈现创造者-使用者组合,而不是报告一个笼统的平均进步值。
八、从852道真实考题,研究团队得出了哪些结论
说到底,EnterpriseClawBench这个研究的贡献可以归结为三个层面。
在工具层面,它提供了一套可复用的"出题流水线"——从企业真实工作记录到可重复执行的基准任务,每一步都有明确的自动化逻辑,其他公司理论上可以用同样的方法为自己的场景建立内部测试集(当然,论文本身因涉及内部数据,并不对外公开测试数据)。
在评估框架层面,研究明确指出:评估企业AI助手的性能,必须同时汇报"装备-大脑组合"(不能只报模型名字)、文件交付情况、文字与视觉双通道的语义质量、运行成本和时间,以及在不同职能类别和技能子类上的表现,把这些维度压缩成单一分数是危险的简化。
在现实意义层面,最高分才66.3分这个事实,清晰地说明当前的AI系统距离真正胜任复杂企业工作还有相当距离。装备与大脑的兼容性问题、对大型输入文件的事实准确性问题、视觉类输出的评估不成熟问题,都是亟待解决的瓶颈。对于正在思考"要不要在公司里大规模部署AI助手"的企业决策者来说,这份成绩单提供了一个难得的理性参照——不要被演示环境里的精彩表现迷惑,真正的考场要严苛得多。
对于普通的职场人来说,这项研究意味着:AI助手确实能帮你完成很多日常办公任务,但它更像一位刚入职的实习生,在表达上挑不出太多毛病,但在关键数据的准确性上还需要你认真复核。而当这位实习生换了一套新的"工作系统"之后,他的表现可能会出乎意料地变好或变差——这不是他变聪明或变笨了,而是新系统和他的工作风格不合拍。
如果你对这项研究的细节感到好奇,可以前往arXiv平台,通过编号arXiv:2606.23654查阅完整论文,所有的实验数据、评分方法和案例分析都在其中等待你的探索。
---
Q&A
Q1:EnterpriseClawBench测试的是什么,和普通AI评测有什么不同?
A:EnterpriseClawBench是一套专门针对企业办公场景的AI评测基准,它的题目全部来自一家真实公司员工与AI助手的真实工作记录,而不是人工设计的假设场景。普通AI评测通常只测知识问答或代码生成,EnterpriseClawBench则要求AI读取混合格式的真实文件、调用工具、并输出可用的业务文档,同时还会评估完成任务的成本和时间,更接近真实工作环境的考验。
Q2:为什么同一个AI模型换了不同的工作框架,成绩差异会这么大?
A:这是因为AI模型本身只是"大脑",还需要一套"工作装备"(harness)来帮它调用工具、管理文件。不同装备有不同的规则和限制,比如Hermes装备会频繁拦截Claude模型喜欢使用的主动探测和脚本执行操作,导致任务无法完成,成绩大幅下滑。这说明评估AI性能时,必须同时说明用的是哪套装备,而不能只报模型名称。
Q3:EnterpriseClawBench里的技能注入实验说明了什么?
A:实验测试了把AI的成功经验提炼成"技能手册"再注入新AI是否能提升表现。结果发现,技能手册的质量高度依赖于"创造者AI"的水平,GPT-5.5创造的手册普遍有效,而Haiku 4.5创造的手册反而让某些组合成绩下降了超过30%。此外,擅长创造技能和擅长使用技能是两种不同的能力,一个AI在其中一方面强不代表另一方面也强,因此不能用单一平均分来评价技能迁移效果。