news 2026/1/21 11:19:12

深入理解DeepSeek Sparsity ---- 从 MoE 到 DSA,再到Engram

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
深入理解DeepSeek Sparsity ---- 从 MoE 到 DSA,再到Engram

深入理解DeepSeek Sparsity---- 从 MoE 到 DSA,再到 Engram

解读 DeepSeek 的“智能效率”Scaling 路线

过去两年,大模型领域最显著的变化,并不是参数规模的再次爆炸,而是对“效率”的重新理解

DeepSeek 是这条路线中最具一致性的一家:
MoE,到DSA(DeepSeek Sparse Attention),再到最新的Engram,它们并非零散的工程优化,而是服务于同一个问题:

如果计算资源有限,智能应该优先被分配到哪里?

这篇文章试图回答一个更本质的问题:
DeepSeek 在“智能如何 scaling”这件事上的核心判断是什么?


一、传统 Scaling 的隐含假设,正在失效

经典的大模型 scaling 理论,隐含着一个非常简单的假设:

智能 ≈ 更多参数 × 更多数据 × 更多计算

这个假设在 GPT-2 → GPT-3 → GPT-4 阶段是成立的。
但在今天,它正在暴露出明显的问题:

  • 边际收益递减
  • 训练与推理成本失控
  • 上下文变长但有效推理能力增长缓慢

问题并不在于“算力不够”,而在于:

模型把大量计算,花在了不需要“思考”的地方。


二、DeepSeek 的核心判断:效率本身就是智能

DeepSeek 的技术路线,隐含着一个非常强的认知假设:

真正的智能系统,不会在每一个 token、每一层、每一个参数上平均用力。

人类不是这样工作的:

  • 大量行为是自动化的
  • 固定模式几乎不需要思考
  • 只有少数不确定的地方,才动用“昂贵的推理能力”

DeepSeek 所做的,是把这种认知结构工程化。


三、MoE:不是每个 token 都值得全部参数

MoE 在 DeepSeek 里的真实角色

很多人把 MoE 理解为“扩大参数规模的技巧”,但在 DeepSeek 这里,它更像是一个价值判断机制

不是每个 token,都值得动用整个网络的容量。

MoE 做的事情非常简单,但意义深远:

  • 大多数 token → 走少量专家
  • 少数复杂 token → 获得更高容量

这是计算层面的条件化(conditional computation)

它回答的问题是:

“哪些 token 值得花更多算力?”


四、DSA:不是每个 token 都需要和所有 token 交互

如果说 MoE 解决的是“参数是否激活”,
那么 DSA 解决的,是信息交互是否必要

Dense Attention 的根本问题

标准 self-attention 的假设是:

任意两个 token,都值得比较一次。

这在长上下文下显然是浪费的:

  • 局部结构高度可预测
  • 模板化文本占比极高
  • 真正有信息增益的交互非常稀疏

DSA 的本质不是“加速 attention”,而是一个更激进的判断:

不是所有 token-token 关系都值得被建模。

这是交互层面的稀疏化


五、Conditional Memory(Engram):不是每个 token 都需要深层理解

如果说 MoE 和 DSA 还停留在“计算结构”层面,
那么Conditional Memory触碰的是一个更根本的问题:

有多少 token,本质上不需要被“理解”?

Engram 的核心思想

Engram 引入了一种结构化、静态、参数化的长期记忆

  • 用 N-gram + hash,存储语言中高度稳定、可复用的结构模式
  • 这些模式通过 O(1) lookup 被取出
  • 再由当前上下文决定是否接纳(context-aware gating)

这意味着:

大量语言结构,被从“深层网络重建”,
直接降级为“查表”。

这是表达层面的效率提升


六、三条路线,其实在做同一件事

把 MoE、DSA、Engram 放在一起,你会看到一个非常清晰的统一逻辑:

模块削减的是什么保护的是什么
MoE不必要的参数计算推理 token 的容量
DSA不必要的 token 交互关键信息流
Engram不必要的深层重建网络深度与推理空间

它们都在做一件事:

把“确定性的、可复用的部分”,
从“昂贵的通用计算”中剥离出来。


七、为什么 Engram 的“记忆”如此底层、结构化

你可能会注意到一个现象:

Engram 存的不是“人类社会知识”,
而是非常底层的语言结构。

这不是缺陷,而是刻意选择。

  • 社会知识是变化的
  • 事实是可被外部检索的
  • 但语言结构、模式稳定性,是智能的“底盘”

DeepSeek 显然认为:

基础结构的自动化,
才是释放高级推理能力的前提。


八、为什么 API 成本会“顺带”爆降

一个很有意思的结果是:

DeepSeek 的成本下降,并不是目标,而是副产品。

当你从模型结构上就假设:

  • 不是每个 token 都值得算
  • 不是每个结构都值得推理

那么:

  • FLOPs 自然下降
  • 激活参数自然减少
  • 延迟和成本自然降低

这是智能效率提升的自然结果


九、DeepSeek 的 Scaling 哲学,可以这样概括

如果一定要用一句话总结 DeepSeek 的路线,那就是:

与其无限放大模型,
不如让模型更清楚“什么时候不该思考”。

在这个框架下:

  • MoE 是“参数层面的判断”
  • DSA 是“交互层面的判断”
  • Conditional Memory 是“表达层面的判断”

它们共同构成了一条新的 scaling 轴:

从“更多计算” → “更高智能密度”。


十、一个更尖锐的问题,留给未来

如果效率真的是通往更高智能的核心路径,那么下一个问题就是:

什么东西,永远不该被稀疏、被 shortcut、被查表?

这个问题,才真正决定一条技术路线,
究竟是在“省钱”,
还是在逼近更高层次的智能形态

而从 MoE、DSA 到 Engram,DeepSeek 至少给出了一个非常清晰、且自洽的答案开端。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/19 8:53:26

惊人发现:这款图像标注工具让标签管理效率提升300%

惊人发现:这款图像标注工具让标签管理效率提升300% 【免费下载链接】BooruDatasetTagManager 项目地址: https://gitcode.com/gh_mirrors/bo/BooruDatasetTagManager 在数字内容创作蓬勃发展的今天,高效的图像标注工具成为创作者和团队的核心需求…

作者头像 李华
网站建设 2026/1/20 22:31:31

AnimeGANv2使用指南:如何保存和分享动漫风格作品

AnimeGANv2使用指南:如何保存和分享动漫风格作品 1. 引言 1.1 学习目标 本文将详细介绍如何使用基于 AnimeGANv2 模型构建的 AI 二次元转换器,帮助用户掌握从照片上传、风格转换到结果保存与分享的完整流程。通过本教程,您将能够&#xff…

作者头像 李华
网站建设 2026/1/22 1:14:10

基于Python的纪念币预约自动化系统技术解析

基于Python的纪念币预约自动化系统技术解析 【免费下载链接】auto_commemorative_coin_booking 项目地址: https://gitcode.com/gh_mirrors/au/auto_commemorative_coin_booking 系统概述 纪念币预约自动化系统是一个基于Python开发的智能化预约解决方案,旨…

作者头像 李华
网站建设 2026/1/22 1:39:06

听完就想试试!IndexTTS2打造的情感化儿童故事音频分享

听完就想试试!IndexTTS2打造的情感化儿童故事音频分享 1. 引言:让AI讲出有温度的故事 在智能语音技术不断演进的今天,语音合成(Text-to-Speech, TTS)已不再局限于机械朗读。以 IndexTTS2 最新 V23 版本为代表的新型情…

作者头像 李华
网站建设 2026/1/19 9:00:48

Holistic Tracking初学者指南:从安装到结果可视化的完整流程

Holistic Tracking初学者指南:从安装到结果可视化的完整流程 1. 引言 1.1 学习目标 本文旨在为AI视觉技术初学者提供一份完整可执行的Holistic Tracking实践指南。通过本教程,你将掌握: 如何快速部署基于MediaPipe Holistic的全息感知系统…

作者头像 李华
网站建设 2026/1/21 23:44:11

纪念币预约自动化系统技术解析与实现指南

纪念币预约自动化系统技术解析与实现指南 【免费下载链接】auto_commemorative_coin_booking 项目地址: https://gitcode.com/gh_mirrors/au/auto_commemorative_coin_booking 系统架构概述 纪念币预约自动化系统基于Selenium WebDriver框架构建,采用多线程…

作者头像 李华