news 2026/2/12 20:19:59

【DeepSeek拥抱开源】通过可扩展查找实现的条件记忆:大型语言模型稀疏性的新维度

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【DeepSeek拥抱开源】通过可扩展查找实现的条件记忆:大型语言模型稀疏性的新维度

1. 引言

本代码库包含论文《通过可扩展查找实现条件记忆:大语言模型稀疏性的新维度》的官方实现。

摘要:虽然专家混合模型(MoE)通过条件计算扩展容量,但Transformer架构缺乏原生知识查找机制。为此,我们探索将条件记忆作为补充性稀疏维度,通过Engram模块实现——该模块将经典N NN-gram嵌入现代化改造为支持O ( 1 ) \mathcal{O}(1)O(1)复杂度查找。

核心贡献:

  • 稀疏性分配:提出神经计算(MoE)与静态记忆(Engram)的权衡框架,发现指导最优容量分配的U型扩展规律
  • 实证验证:在严格等参数量与等计算量约束下,Engram-27B模型在知识、推理、代码和数学领域持续超越MoE基线
  • 机制分析:研究表明Engram能减轻浅层网络静态模式重建负担,可能为复杂推理保留有效深度
  • 系统效率:模块采用确定性寻址机制,支持将海量嵌入表卸载到主机内存,推理开销极低

2. 架构设计

Engram模块通过检索静态N NN-gram记忆并与动态隐状态融合来增强主干网络。架构如下图所示(提供drawio源文件):

3. 评估

Scaling Law


大规模预训练


长上下文训练

4. 印迹案例研究

5. 快速开始

我们推荐使用 Python 3.8+ 和 PyTorch 环境。

pipinstalltorch numpy transformers sympy

我们提供了一个独立实现来展示 Engram 模块的核心逻辑:

python engram_demo_v1.py

⚠️注意:提供的代码是演示版本,旨在说明数据流逻辑。其中模拟了标准组件(如 Attention/MoE/mHC)以便聚焦于 Engram 模块功能。

6. 许可协议

Engram 模型的使用需遵守模型许可协议。

代码

https://github.com/deepseek-ai/Engram/blob/main/README.md

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/10 3:09:49

JLink驱动与FreeRTOS在工控板上的协同调试:实战案例

工控板上的“手术刀”:用JLink与FreeRTOS精准调试真实故障 你有没有遇到过这样的场景? 系统在实验室跑得好好的,一上现场设备就偶尔死机;某个任务说好每100ms执行一次,结果延迟到了300ms以上;CAN通信莫名…

作者头像 李华
网站建设 2026/2/8 6:21:16

SpringBoot+Vue 论坛网站管理平台源码【适合毕设/课设/学习】Java+MySQL

摘要 随着互联网技术的快速发展,论坛平台作为信息交流和知识共享的重要载体,已成为人们日常生活中不可或缺的一部分。传统的论坛系统在功能扩展性、用户体验和系统维护方面存在诸多不足,亟需采用现代化的技术架构进行优化升级。基于SpringBoo…

作者头像 李华
网站建设 2026/2/11 3:00:02

面向本科生、研究生的AI冬令营来了!

无论你是新手还是有AI基础只要你对AI应用感兴趣,有热情欢迎你加入Datawhale AI 冬令营面向在校学生、在职从业者提供项目实践学习机会第一期正式开放报名线上活动,全程免费报名时间:2026/1/13 - 2026/1/181关于AI冬令营2026 AI 冬令营由 Data…

作者头像 李华
网站建设 2026/2/12 11:26:01

嵌入式中SSD1306的I2C通信优化:操作指南

如何让SSD1306 OLED屏在IC上“飞”起来?实战优化全解析你有没有遇到过这种情况:明明MCU性能不差,代码逻辑也清晰,可一到刷新OLED屏幕,界面就卡顿、动画掉帧,像是被“限速”了一样?如果你用的是S…

作者头像 李华
网站建设 2026/2/10 15:59:34

树莓派pico ADC模块应用:实战案例分享

树莓派Pico的ADC实战:从读取光敏电阻到构建环境监测节点 你有没有遇到过这样的情况——手头有个传感器,输出的是模拟电压,但你的微控制器只能处理数字信号?这时候, 模数转换器(ADC) 就成了连接…

作者头像 李华
网站建设 2026/2/12 18:18:00

深度剖析STLink接口引脚图:初学者需要知道的一切

深度剖析STLink接口引脚图:从入门到实战的完整指南你有没有遇到过这种情况?手握STM32开发板,代码写得飞起,结果一连STLink,IDE却提示“Target not connected”。反复插拔、换线、重启电脑……最后发现是SWDIO和NRST接反…

作者头像 李华