NVIDIA Nemotron-3-Nano：30B混合专家推理模型发布-育师

NVIDIA Nemotron-3-Nano：30B混合专家推理模型发布

【免费下载链接】NVIDIA-Nemotron-3-Nano-30B-A3B-NVFP4项目地址: https://ai.gitcode.com/hf_mirrors/nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-NVFP4

导语

NVIDIA正式发布Nemotron-3-Nano-30B-A3B-NVFP4大语言模型，这是一款采用混合专家架构的高效能推理模型，通过创新的量化技术和架构设计，在保持30B总参数规模的同时实现了3.5B活跃参数的高效推理，为企业级AI应用提供了兼顾性能与成本的新选择。

行业现状

当前大语言模型领域正面临"规模与效率"的双重挑战。一方面，模型参数规模持续扩大以提升能力，另一方面，企业对部署成本和实时响应的要求日益严苛。据行业研究显示，2025年企业级AI部署中，推理成本已占总拥有成本(TCO)的65%以上，成为制约大模型普及的关键瓶颈。混合专家(MoE)架构和量化技术成为解决这一矛盾的主要技术路径，其中4-bit量化模型的部署量在过去一年增长了300%。

产品/模型亮点

创新混合架构设计

Nemotron-3-Nano采用Mamba2-Transformer混合专家架构，包含23个Mamba-2层、23个混合专家层和6个注意力层。每个MoE层配备128个专家和1个共享专家，每token激活6个专家，实现了30B总参数与3.5B活跃参数的高效平衡。这种设计使模型在保持大模型能力的同时，显著降低了计算资源需求。

先进量化技术实现效率突破

该模型采用NVIDIA专有的NVFP4量化格式，配合FP8 KV缓存，在Post-Training Quantization(PTQ)基础上应用Quantization-Aware Distillation(QAD)技术，实现了精度恢复。与BF16版本相比，NVFP4版本在MMLU-Pro等关键基准上仅损失0.9个百分点，却带来了推理效率的显著提升，特别适合资源受限环境部署。

多任务统一推理能力

模型支持"推理追踪生成"模式，可先产生中间推理步骤再输出最终答案，这种设计在复杂任务上表现更优。开发者可通过聊天模板标志控制是否启用推理追踪，在精度与速度间灵活权衡。测试显示，启用推理追踪时，AIME25(无工具)任务准确率可达86.7%，展现出强大的复杂问题解决能力。

广泛的语言与场景支持

模型原生支持英语、西班牙语、法语、德语、日语和意大利语六种语言，并针对代码生成进行了优化。其100万token的超长上下文窗口，使其能处理书籍、代码库等大型文档，适用于RAG系统、AI助手、代码生成等多种企业应用场景。

行业影响

降低企业AI部署门槛

Nemotron-3-Nano的推出，使中小企业也能负担得起高性能大模型的部署。通过vLLM、TRT-LLM等优化推理引擎，该模型可在单张NVIDIA H100或A100 GPU上高效运行，相比同等能力的稠密模型，硬件投入降低60%以上。

推动边缘AI应用发展

模型对Jetson Thor等边缘设备的支持，为制造业质检、智能零售、医疗辅助诊断等边缘场景带来了强大的AI能力。其优化的推理效率使边缘设备也能运行30B规模的模型，拓展了AI应用的边界。

开源生态促进创新

作为NVIDIA Nemotron开放模型家族的一员，该模型采用NVIDIA Open Model License许可，开放训练数据和训练配方。开发者可基于此模型进行二次开发，加速行业定制化模型的落地。配套的NeMo框架和评估工具链，进一步降低了模型调优和部署的难度。

结论/前瞻

Nemotron-3-Nano的发布标志着大语言模型在效率优化方面的重要突破。通过混合专家架构与先进量化技术的结合，NVIDIA为行业提供了一个兼顾性能、成本和部署灵活性的解决方案。随着企业对AI效率要求的不断提高，这种"小而精"的模型设计思路将成为未来发展的重要方向。

展望未来，我们可以期待更多结合Mamba等新型架构与MoE技术的创新模型出现，进一步推动大语言模型在边缘设备和企业级应用中的普及。同时，开放的模型生态将促进学术界和工业界的协作，加速AI技术的创新与落地。

【免费下载链接】NVIDIA-Nemotron-3-Nano-30B-A3B-NVFP4项目地址: https://ai.gitcode.com/hf_mirrors/nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-NVFP4

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

macOS游戏兼容新方案：Direct3D转译技术让Metal焕发新生

macOS游戏兼容新方案：Direct3D转译技术让Metal焕发新生【免费下载链接】dxmt Metal-based implementation of D3D11 for MacOS / Wine 项目地址: https://gitcode.com/gh_mirrors/dx/dxmt 项目概述：跨平台图形转换引擎的崛起在macOS生态中&…

李华

stb_image_write.h深度探索：从原理到实践的5个关键突破

stb_image_write.h深度探索：从原理到实践的5个关键突破【免费下载链接】stb stb single-file public domain libraries for C/C 项目地址: https://gitcode.com/GitHub_Trending/st/stb 问题引入：图像保存的技术困境当我们需要在C/C项目中实现…

李华

三步打造专属时间管家：Catime时间管理工具全攻略

三步打造专属时间管家：Catime时间管理工具全攻略【免费下载链接】Catime A very useful timer (Pomodoro Clock).[一款非常好用的计时器(番茄时钟)] 项目地址: https://gitcode.com/gh_mirrors/ca/Catime 你是否曾在工作时频频走神，不知时间流逝…

李华

NVIDIA Nemotron-3-Nano：30B混合专家推理模型发布