news 2026/2/25 0:57:23

OpenAI开源“Circuit‑Sparsity”模型,0.4 B 参数实现 99.9% 权重归零!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
OpenAI开源“Circuit‑Sparsity”模型,0.4 B 参数实现 99.9% 权重归零!

12 月 15 日,OpenAI 在官方博客上公布了最新的开源项目——Circuit‑Sparsity 模型。该模型仅拥有 0.4 B 参数,但高达 99.9% 的权重被强制置零,形成极度稀疏的 Transformer 结构。OpenAI 表示,此举旨在破解大语言模型(LLM)长期困扰业界的“黑箱”难题,为医疗、金融、法律等高风险领域的 AI 落地提供可解释性支撑。

何为 Circuit‑Sparsity?

传统的密集模型在训练过程中会让每个神经元或权重矩阵同时编码多个概念,形成所谓的“超级位置”(Superposition),导致模型决策难以追溯。OpenAI 通过 动态剪枝 + Top‑K 稀疏约束,在训练阶段仅保留绝对值最大的 0.1% 权重,并在关键层引入 AbsTopK 激活函数 与 RMSNorm 替代传统 LayerNorm,使得模型内部自然形成紧凑、可读的 ‍“电路”(Circuits)‍。

电路的可读性与规模优势

实验显示,稀疏模型在完成同一任务时所需的计算路径比密集模型小 16 倍。例如在“字符串闭合”任务中,仅用 12 个节点 就构建了完整的电路,且每个神经元的激活语义明确——有的专门检测单引号,有的充当计数器。通过 均值消融 实验验证,去除非电路节点对性能影响微乎其微,而删掉电路关键节点则会导致模型瞬间崩溃,进一步证明这些电路是真正的决策通路。

性能瓶颈与后续路线

尽管可解释性大幅提升,稀疏模型的计算效率仍是制约因素。由于稀疏矩阵难以利用 GPU 的 Tensor Cores 加速,模型推理速度比同等密集模型慢 100–1000 倍,在千亿参数级别的前沿模型上直接应用尚不可行。为此,OpenAI 提出了 ‍“桥梁网络”(Bridges)‍ 方案:在稀疏模型与已有密集模型之间插入编码‑解码映射层,实现对密集模型的可解释性编辑,同时保持其高效推理能力。

社群反响

国外技术社区对该项目评价两极。一方面,有网友称这项技术把模型“减肥到只剩骨架”,相当于打开了 AI 的黑匣子;另一部分则指出,稀疏模型的训练成本高出 100–1000 倍,仍属于“研究时代”,短期内难以取代现有的 MoE(混合专家)模型。总体来看,Circuit‑Sparsity 为 AI 可解释性提供了全新思路,也为后续从密集模型中提取稀疏电路奠定了技术基础。

OpenAI 在博客中写道:“我们的目标是逐步扩大可可靠解释的模型范围,同时打造相关工具,让未来的 AI 系统更易于分析、调试与评估。”团队计划在后续工作中 从现有密集模型中提取稀疏电路,并研发 更高效的可解释性训练技术,以期在保持性能的前提下进一步降低模型复杂度。

结语

Circuit‑Sparsity 的发布标志着大模型从“黑箱”向“可解释”迈出了重要一步。虽然当前仍面临计算效率的挑战,但其在模型结构简化、决策路径可视化方面的突破,为 AI 在高风险行业的安全落地提供了新的技术路径。随着桥梁网络等后续方案的完善,稀疏模型有望在保持可解释性的同时,逐步缩小与主流密集模型的性能差距,推动人工智能向更透明、更可靠的方向发展。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/22 15:06:20

详谈:解释器模式(四)

在 Number 类的构造函数中,先将传入的字符转换为对应的数字。在解释时将转换后的数字返回即可。无论是加法还是减法,他们都是对左右两个表达式进行操作,所以我们可以将计算符提取出共同的抽象父类:abstract class Operator implem…

作者头像 李华
网站建设 2026/2/23 21:22:16

Java 日期格式化方法:SimpleDateFormat 和 DateTimeFormatter

一、SimpleDateFormat(传统方式) 1. 基本用法 import java.text.SimpleDateFormat; import java.util.Date;public class DateFormatExample {public static void main(String[] args) {// 创建 SimpleDateFormat 实例SimpleDateFormat sdf new SimpleD…

作者头像 李华
网站建设 2026/2/24 7:20:56

【dz-968】室内空气监测系统设计

摘要 随着人们对室内生活质量关注度的不断提升,室内空气质量的精准监测与及时调控对保障人体健康、提升居住舒适度具有重要意义。传统的室内空气管理多依赖人工观察和手动操作,不仅存在监测滞后、调控不及时的问题,还难以全面掌握多项空气参…

作者头像 李华
网站建设 2026/2/21 8:41:48

【接口测试】5_接口测试基础 _接口文档解析

文章目录一、接口文档1.1 接口文档介绍1.2 接口文档内容二、接口文档解析2.1 登录接口文档2.1.1 基本信息2.1.2 请求参数2.1.3 返回数据2.2 登录接口文档解析一、接口文档 1.1 接口文档介绍 接口文档:又称为API文档,一般是由后端开发人员所编写的&…

作者头像 李华