news 2026/2/4 6:27:23

80%国产大模型都在用MoE!AI编程开发选型攻略大公开,小白也能秒懂!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
80%国产大模型都在用MoE!AI编程开发选型攻略大公开,小白也能秒懂!

大模型可太太太多了,花了点时间,选择公司,代表模型,模型尺寸,主要特征,这几个维度,把目前主流的国产大模型生态完整梳理了一下。后续自己查起来也方便。

  • 总参数 235B,激活参数 22B(旗舰版 Qwen3-235B-A22B)
  • 国内首个混合推理模型,支持思考/非思考模式切换,119 种语言,36T 预训练数据,256K 上下文
  • 是否开源:是(Apache 2.0)

百度|文心系列|ERNIE 5.0

  • 总参数 2.4T,激活参数低于 3%
  • 原生全模态大模型,支持文本/图像/音频/视频输入输出,采用超稀疏 MoE 架构,全模态统一建模技术
  • 是否开源:否

DeepSeek|DeepSeek 系列|DeepSeek V3.2

  • 总参数 671B,激活参数 37B
  • MoE 架构,14.8T token 预训练,多头潜在注意力(MLA),无辅助损失负载均衡,多 token 预测
  • 是否开源:是(MIT License)

华为|盘古系列|Pangu Ultra MoE

  • 总参数 718B,激活参数 39B
  • 基于昇腾 NPU 训练,支持快慢思考模式切换,Multi-head Latent Attention,Multi-Token Prediction
  • 是否开源:是(OpenPangu Model License)

阶跃星辰|Step 系列|Step3

  • 总参数 321B,激活参数 38B
  • 原生多模态推理模型,视觉感知和复杂推理能力,推理效率为同类 3 倍,支持国产芯片高效推理
  • 是否开源:是(Apache 2.0)

科大讯飞|讯飞星火系列|Starfire X1.5

  • 总参数 293B,激活参数 30B
  • MoE 架构,推理效率提升 100%,支持 130+ 语种,全国产算力平台训练
  • 是否开源:否

MiniMax|MiniMax 系列|MiniMax-M2

  • 总参数 230B,激活参数 10B
  • 轻量级 MoE 模型,专注编程和 Agentic 工作流,204K 上下文,低延迟高吞吐
  • 是否开源:是(MIT License)

蚂蚁集团|Ling / LLaDA 系列|Ring-1T

  • 总参数 1T,激活参数 50B
  • 基于 Ling 2.0 架构,支持 128K 上下文窗口,通过 RLHF 训练完善模型通用能力
  • 是否开源:是(MIT License)

面壁智能|MiniCPM 系列|MiniCPM4

  • 提供 0.5B 和 8B 两个版本
  • 端侧大模型,原生可训练稀疏注意力,128K 上下文稀疏度高达 95%,显著降低内存与计算
  • 是否开源:是(Apache 2.0)

美团|龙猫系列|LongCat-Flash-Chat

  • 总参数 560B,激活参数 18.6B–31.3B
  • 创新性 MoE 架构,Shortcut-Connected MoE,多任务视频生成,推理速度提升 900%
  • 是否开源:是(MIT License)

商汤|日日新系列|SenseNova-6.5

  • 总参数 600B+
  • MoE 架构,核心转向原生多模态融合,在多模态推理中引入图文交错思维链
  • 是否开源:否

腾讯|混元系列|Hunyuan-TurboS

  • 总参数 56B,激活参数 5.6B
  • 基于 MoE 架构,增强思考能力,优化文理能力,支持 Agent 能力,同时开源 0.5B–7B 小尺寸模型端侧使用
  • 是否开源:否

月之暗面|Kimi 系列|Kimi K2

  • 总参数 1T,激活参数 32B
  • MoE 架构,超强代码和 Agent 能力,128K 上下文,原生 INT4 量化
  • 是否开源:是(修改版 MIT 协议)

字节跳动|豆包系列|Doubao-1.6

  • 总参数 230B,使用 23B 激活(Seed1.6)
  • 国内首个支持四档思考长度调节的模型,多模态理解,GUI 操作能力,按输入长度区间定价
  • 是否开源:否

智谱|GLM 系列|GLM-4.6

  • 总参数 355B,激活参数 32B
  • MoE 架构,支持思考/非思考双模式,编程表现突出,200K 上下文
  • 是否开源:是(MIT License)

如果你把这些模型放在一起看,会发现一件事:

MoE 已经不是“探索方向”,而是事实标准。

在抓这些数据的过程中会发现,

  • 超过 80% 的模型采用 MoE
  • 激活参数高度集中在 20B–50B
  • 总参数可以冲到 500B / 1T / 2T
  • 但单次推理成本被强行压住

站在我个人使用体验上,我会关注:

  • 是否支持深度思考
  • 是否有 Multi-Token Prediction
  • 是否对 长上下文 / Agent / 工具调用 友好

但站在企业级视角,关注点完全不同:

  • 推理效率有没有数量级优势
  • 能不能长期稳定跑
  • 能不能规模化部署,而不是一次 Demo

还有几个大家都很关注的关键词:

  • 推理效率
  • 国产芯片适配
  • 端侧 / 边缘
  • INT4 / 稀疏 / 低延迟

这说明咱们中国模型路线非常明确,

不是追求“理论最强”,

而是“在现实算力条件下可规模部署”。


我估计各家芯片厂商快要疯了,合作伙伴都会问,

“这张表里的模型,你现在能稳定支持哪几个?

是一次 demo,还是长期运行?”

又要拼性能,

又要拼稳定性,

又要拼生态,

国产的还要拼产能,

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包

  • ✅ 从零到一的 AI 学习路径图
  • ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
  • ✅ 百度/阿里专家闭门录播课
  • ✅ 大模型当下最新行业报告
  • ✅ 真实大厂面试真题
  • ✅ 2025 最新岗位需求图谱

所有资料 ⚡️ ,朋友们如果有需要《AI大模型入门+进阶学习资源包》下方扫码获取~

① 全套AI大模型应用开发视频教程

(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)

② 大模型系统化学习路线

作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。

④ AI大模型最新行业报告

2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

⑤ 大模型项目实战&配套源码

学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。

⑥ 大模型大厂面试真题

面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余

以上资料如何领取?

为什么大家都在学大模型?

最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!

不出1年,“有AI项目经验”将成为投递简历的门槛。

风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!

这些资料真的有用吗?

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

以上全套大模型资料如何领取?

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/31 7:57:07

如何评价 LLM 的潜力?为什么很多人认为 LLM 不能通向 AGI?

一、如何评价 LLM 的潜力?——它本质上是什么 1️⃣ LLM 的本质能力(不是“会聊天”) 从技术角度,LLM 至少已经稳定具备了 5 类通用能力: 语言 → 结构化思维的压缩器 能把自然语言映射为:逻辑结构程序流程…

作者头像 李华
网站建设 2026/1/29 1:22:35

深入浅出LLM:从使用到浅层原理(二)

预训练 模型微调 想象力科技公司在办一些活动时,发现模型对高度专业化的场景,表现的不够专业,相比金牌客服还是有不小差距,专业话术没能准确使用。于是,研究决定要对模型和进行LoRA低秩微调。想象力科技公司收集了过去…

作者头像 李华
网站建设 2026/2/3 1:41:27

Python requests 库

Python requests 库是一个用于发送HTTP请求的第三方库,以其简洁、优雅的API和强大的功能,成为Python开发者处理网络请求的首选工具。它让HTTP请求变得像访问本地文件一样简单直观。1. 安装与导入在开始使用前,需要先安装 requests 库。pip in…

作者头像 李华
网站建设 2026/2/3 5:05:46

67%检索成功率提升!Anthropic新黑科技让RAG不再“失忆“,小白也能上手

Contextual Retrieval 的设计理念围绕“解决传统检索痛点、兼容现有架构、兼顾精准性与落地性”展开,核心是通过上下文补全、自动化适配、模块化叠加,在不重构现有RAG框架的前提下,大幅提升检索准确性与规模化能力。 1. 痛点导向&#xff1a…

作者头像 李华
网站建设 2026/1/29 1:22:30

springboot基于Java医院药品管理系统的设计与实现

🍅 作者主页:Selina .a 🍅 简介:Java领域优质创作者🏆、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行交流合作。 主要内容:SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据…

作者头像 李华
网站建设 2026/1/31 23:53:38

【Dify DOCX图片处理终极指南】:掌握高效文档图像管理的5大核心技术

第一章:Dify DOCX图片处理的核心价值与应用场景Dify平台在处理DOCX文档中的图片内容时,展现出强大的自动化与智能化能力。通过对文档中嵌入图像的提取、分析与再加工,Dify能够帮助企业实现文档内容的结构化管理,提升信息复用效率。…

作者头像 李华