news 2026/1/19 6:28:54

字节Seed发布最强数学模型:一招“打草稿”,IMO银牌变金牌

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
字节Seed发布最强数学模型:一招“打草稿”,IMO银牌变金牌

Scaling Law加持下,这个名为Seed Prover 1.5的模型,在16.5小时内,顺利解决IMO 2025的前5道题目,在仅失一题的情况下拿到35分,达到今年IMO的金牌线。

字节最新数学推理专用模型,刚刚刷新战绩:拿下IMO金牌成绩。

Scaling Law加持下,这个名为Seed Prover 1.5的模型,在16.5小时内,顺利解决IMO 2025的前5道题目,在仅失一题的情况下拿到35分,达到今年IMO的金牌线。

这一成绩与7月官方认证的IMO金牌“选手”谷歌Gemini打平。而字节自己的前代模型,当时的成绩是3天完成了6道题目中的4道,以及一道题的部分证明,达到银牌成绩。

同时,Seed Prover 1.5也在北美本科级别数学竞赛Putnam这一基准上,大幅刷新了SOTA成绩。

模型尚未开源,但技术报告已经公开。

值得关注的是,Seed Prover 1.5强调了大规模强化学习给数学模型带来的性能提升,也证明,在推理阶段增加计算资源,可以显著提高解题率。

即,验证了测试时Scaling和强化学习训练时的Scaling的有效性。

草稿引导的高效形式化证明

具体来看技术报告。Seed Prover 1.5的参数规模与Seed 1.6相同,230B总参数,23B激活。

主要创新有两点:

  • Agentic Prover:一种新的形式化数学推理范式
  • Sketch Model:自然语言到形式语言的翻译器
Agentic Prover

相较于通用模型用自然语言解答数学问题的方式,数学推理专用模型采用的是形式化数学推理,也就是用Lean等形式语言,构建可在公理系统中机械验证的证明,以确保结果更加可靠。

其难点在于,形式化证明比自然语言证明更加困难。根据“De Bruijn factor”经验法则,一行普通的数学推导,通常需要扩展成4到10行复杂的代码。

这要求模型不仅懂数学,还要精通编程和类型论,而这一高门槛导致形式化证明在效率和成功率上一直远落后于自然语言推理。

以往的研究中,形式化证明器通常分为两类:

  • Step-prover:一步一步证明,效率很低;
  • Whole-prover:一次性生成完整证明,但中间一旦出错就会前功尽弃。

Seed Prover 1.5为了平衡两种方法的优缺点,提出了一种全新的Agentic Prover架构:

模型将Lean语言视为一种工具,且在证明过程中可以自主地调用其他多种工具。

  • Mathlib搜索工具:类似于程序员查阅技术文档,模型可以主动检索Lean庞大的数学库 Mathlib,寻找可用的定理和定义,而非依赖不可靠的隐式记忆。
  • Python代码执行:遇到需要计算的部分,模型可以编写并运行Python脚本来辅助验证直觉。
  • 增量式引理验证:模型不再被迫一次性生成整个证明,而是将复杂问题拆解为若干引理。每证明出一个引理,系统就会将其保留并复用,作为后续推理的基石。

这样一来,模型既可以像人类一样先使用“草稿纸”(自然语言)进行推理,又能够与Lean环境及多种工具进行交互,随时调用工具来验证猜想。

就是说,Seed Prover 1.5采用的是基于引理的交互方式,既不是一次性生成整个证明,也无需每一步都做交互验证。

官方技术报告中还提到,Seed Prover 1.5进行了大规模的Agentic RL。

实验证明,随着强化学习训练步数的增加,模型在训练集上的证明通过率从初始的50%升至接近90%。

Agentic RL还带来了大幅的效率提升。在对比测试中,Seed Prover 1.5仅需少量的计算资源,就能在Putnam和Fate等高难度数据集上,击败消耗大量算力的上一代Seed Prover模型。

Sketch Model

为了让模型能更好地“打草稿”,研究人员还专门训练了Sketch Model,来模拟人类数学家解决问题的方式:

数学家在证明一个复杂定理时,通常不会直接写出每一步严丝合缝的代码。他们会先在纸上写下一个非形式化的证明草稿,列出关键的中间步骤、引理和大致思路。

Sketch Model同样不纠结于具体的语法细节,而是专注于逻辑路径的规划。它可以将自然语言证明拆解为若干个独立的、难度更低的引理,并暂时跳过具体证明,仅保留整体的逻辑骨架。

这就将原本不可解的复杂命题,转化成了难度更低的子目标。

研究人员采用混合奖励信号的强化学习策略,来训练这一模型:

  • 信号一:Lean编译器验证生成的草图是否完全正确。
  • 信号二:自然语言Prover会逐一检查引理,一旦发现任一引理在数学上不成立,整个草稿即被否决。
  • 信号三:引入基于长思维链的Rubric评分模型,从语义层面评估草稿的质量——考量引理是否与自然语言证明对齐、拆解的粒度是否合适、是否真正降低了原题的难度。

当草稿在形式验证、数学正确性和整体评分上均满足要求时,才会获得正向奖励。

测试时工作流

以上创新最终构成了一个分层级的多智能体协作系统:

  • Natural Language Prover负责提供高层的数学直觉和自然语言证明。
  • Sketch Model将自然语言转化为形式化的引理结构。
  • Agentic Prover并行地攻克每一个被拆解出的引理。

如果某个引理太难证明,系统还会递归地调用Sketch Model再次进行拆解。这不仅规避了长文本生成的错误累积问题,更提升了推理的并行度和成功率。

研究人员还验证了这一工作流的测试时Scaling特性。

如上图所示,投入更多的计算资源,Seed Prover 1.5对问题的解决率会呈对数线性增长。

这项研究来自字节Seed AI4Math团队。

量子位捕捉到了其中几位作者的踪迹。

Zheng Yuan,清华统计学博士。今年6月刚刚加入字节,此前在阿里Qwen团队负责对齐和推理方向工作。

Hanwen Zhu,本科毕业于牛津大学数学与计算机科学专业,目前在CMU读研,即将加入字节Seed。

郑泽宇,CMU在读博士,字节Seed实习生,专业方向同样是数学与计算机科学联合方向。

如果你想更深入地学习大模型,以下是一些非常有价值的学习资源,这些资源将帮助你从不同角度学习大模型,提升你的实践能力。

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!​

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

四、AI大模型商业化落地方案

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/17 8:01:38

TVOC + 甲醛双参量气体监测模组的技术架构与典型应用解析

在智慧建筑、健康人居和环境物联网(EIoT)快速发展的背景下,对室内空气质量(Indoor Air Quality, IAQ)的精细化感知已成为系统设计的重要环节。其中,总挥发性有机物(TVOC)与甲醛&…

作者头像 李华
网站建设 2026/1/16 23:14:30

JSP+JavaScript实现验证码登录功能

JSP JavaScript 实现验证码登录:从原理到部署的完整实践 在如今的 Web 应用开发中,用户身份验证是绕不开的一环。而在这其中,验证码机制虽然看似“小功能”,实则承担着抵御暴力破解、防止爬虫注册和提升系统安全性的关键角色。最…

作者头像 李华
网站建设 2026/1/16 17:45:59

OpenTelemetry可观测性实战:统一Metrics、Logs、Traces

前言 可观测性这个词这两年被说烂了,但很多团队的实际情况是:Prometheus管指标、ELK管日志、Jaeger管链路,三套系统各自为战,排查问题时要在三个界面之间跳来跳去。 去年我们开始推OpenTelemetry(简称OTel)…

作者头像 李华
网站建设 2026/1/16 17:42:02

中南大2020运动会全景回顾:拼搏与荣耀的秋日篇章

中南大2020运动会全景回顾:拼搏与荣耀的秋日篇章 阳光洒在新体的跑道上,汗水滴落在每一寸被脚步丈量过的土地。呐喊声穿透秋风,冲刺的身影划破长空——这不是一场普通的校运会,而是一次青春、意志与集体精神的集中迸发。 当五星…

作者头像 李华
网站建设 2026/1/17 18:48:22

路由器配置的综合实验

本实验共有六个广播域本实验的拓扑为给路由器AR1改名为r1给G0/0/0和G0/0/1接口分别配IP地址给r1的环回接口配IP地址同理给路由器r2,r3,r4改名并给每个路由器的G接口和loopback接口配IP地址开启r1到r4的ospfr4-r5 主备链路速率切换(1000M/100M)r5配置测试

作者头像 李华
网站建设 2026/1/16 15:27:14

当AI成为开发者:Agent基础设施架构设计与实战指南

文章探讨了AI Agent对基础设施软件的变革需求。传统Infra为人类设计,无法满足Agent的"惊群"模式和大规模并发。Agent开发引入不确定性,需工程师从工程思维转向科学实验思维。目前Agent Infra定义未明,各厂商从安全、沙箱等不同角度…

作者头像 李华