大模型可太太太多了,花了点时间,选择公司,代表模型,模型尺寸,主要特征,这几个维度,把目前主流的国产大模型生态完整梳理了一下。后续自己查起来也方便。
- 总参数 235B,激活参数 22B(旗舰版 Qwen3-235B-A22B)
- 国内首个混合推理模型,支持思考/非思考模式切换,119 种语言,36T 预训练数据,256K 上下文
- 是否开源:是(Apache 2.0)
百度|文心系列|ERNIE 5.0
- 总参数 2.4T,激活参数低于 3%
- 原生全模态大模型,支持文本/图像/音频/视频输入输出,采用超稀疏 MoE 架构,全模态统一建模技术
- 是否开源:否
DeepSeek|DeepSeek 系列|DeepSeek V3.2
- 总参数 671B,激活参数 37B
- MoE 架构,14.8T token 预训练,多头潜在注意力(MLA),无辅助损失负载均衡,多 token 预测
- 是否开源:是(MIT License)
华为|盘古系列|Pangu Ultra MoE
- 总参数 718B,激活参数 39B
- 基于昇腾 NPU 训练,支持快慢思考模式切换,Multi-head Latent Attention,Multi-Token Prediction
- 是否开源:是(OpenPangu Model License)
阶跃星辰|Step 系列|Step3
- 总参数 321B,激活参数 38B
- 原生多模态推理模型,视觉感知和复杂推理能力,推理效率为同类 3 倍,支持国产芯片高效推理
- 是否开源:是(Apache 2.0)
科大讯飞|讯飞星火系列|Starfire X1.5
- 总参数 293B,激活参数 30B
- MoE 架构,推理效率提升 100%,支持 130+ 语种,全国产算力平台训练
- 是否开源:否
MiniMax|MiniMax 系列|MiniMax-M2
- 总参数 230B,激活参数 10B
- 轻量级 MoE 模型,专注编程和 Agentic 工作流,204K 上下文,低延迟高吞吐
- 是否开源:是(MIT License)
蚂蚁集团|Ling / LLaDA 系列|Ring-1T
- 总参数 1T,激活参数 50B
- 基于 Ling 2.0 架构,支持 128K 上下文窗口,通过 RLHF 训练完善模型通用能力
- 是否开源:是(MIT License)
面壁智能|MiniCPM 系列|MiniCPM4
- 提供 0.5B 和 8B 两个版本
- 端侧大模型,原生可训练稀疏注意力,128K 上下文稀疏度高达 95%,显著降低内存与计算
- 是否开源:是(Apache 2.0)
美团|龙猫系列|LongCat-Flash-Chat
- 总参数 560B,激活参数 18.6B–31.3B
- 创新性 MoE 架构,Shortcut-Connected MoE,多任务视频生成,推理速度提升 900%
- 是否开源:是(MIT License)
商汤|日日新系列|SenseNova-6.5
- 总参数 600B+
- MoE 架构,核心转向原生多模态融合,在多模态推理中引入图文交错思维链
- 是否开源:否
腾讯|混元系列|Hunyuan-TurboS
- 总参数 56B,激活参数 5.6B
- 基于 MoE 架构,增强思考能力,优化文理能力,支持 Agent 能力,同时开源 0.5B–7B 小尺寸模型端侧使用
- 是否开源:否
月之暗面|Kimi 系列|Kimi K2
- 总参数 1T,激活参数 32B
- MoE 架构,超强代码和 Agent 能力,128K 上下文,原生 INT4 量化
- 是否开源:是(修改版 MIT 协议)
字节跳动|豆包系列|Doubao-1.6
- 总参数 230B,使用 23B 激活(Seed1.6)
- 国内首个支持四档思考长度调节的模型,多模态理解,GUI 操作能力,按输入长度区间定价
- 是否开源:否
智谱|GLM 系列|GLM-4.6
- 总参数 355B,激活参数 32B
- MoE 架构,支持思考/非思考双模式,编程表现突出,200K 上下文
- 是否开源:是(MIT License)
如果你把这些模型放在一起看,会发现一件事:
MoE 已经不是“探索方向”,而是事实标准。
在抓这些数据的过程中会发现,
- 超过 80% 的模型采用 MoE
- 激活参数高度集中在 20B–50B
- 总参数可以冲到 500B / 1T / 2T
- 但单次推理成本被强行压住
站在我个人使用体验上,我会关注:
- 是否支持深度思考
- 是否有 Multi-Token Prediction
- 是否对 长上下文 / Agent / 工具调用 友好
但站在企业级视角,关注点完全不同:
- 推理效率有没有数量级优势
- 能不能长期稳定跑
- 能不能规模化部署,而不是一次 Demo
还有几个大家都很关注的关键词:
- 推理效率
- 国产芯片适配
- 端侧 / 边缘
- INT4 / 稀疏 / 低延迟
这说明咱们中国模型路线非常明确,
不是追求“理论最强”,
而是“在现实算力条件下可规模部署”。
我估计各家芯片厂商快要疯了,合作伙伴都会问,
“这张表里的模型,你现在能稳定支持哪几个?
是一次 demo,还是长期运行?”
又要拼性能,
又要拼稳定性,
又要拼生态,
国产的还要拼产能,
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包:
- ✅ 从零到一的 AI 学习路径图
- ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
- ✅ 百度/阿里专家闭门录播课
- ✅ 大模型当下最新行业报告
- ✅ 真实大厂面试真题
- ✅ 2025 最新岗位需求图谱
所有资料 ⚡️ ,朋友们如果有需要《AI大模型入门+进阶学习资源包》,下方扫码获取~
① 全套AI大模型应用开发视频教程
(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)
② 大模型系统化学习路线
作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!
③ 大模型学习书籍&文档
学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
④ AI大模型最新行业报告
2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
⑤ 大模型项目实战&配套源码
学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。
⑥ 大模型大厂面试真题
面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
以上资料如何领取?
为什么大家都在学大模型?
最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!
不出1年,“有AI项目经验”将成为投递简历的门槛。
风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!
这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。