纯RL训练！DeepSeek-R1-Zero推理模型开源-育师

纯RL训练！DeepSeek-R1-Zero推理模型开源

【免费下载链接】DeepSeek-R1-Zero探索新一代推理模型，DeepSeek-R1-Zero以大规模强化学习训练，展现卓越推理能力，开启无限可能。我们开源了DeepSeek-R1-Zero和DeepSeek-R1，以及基于Llama和Qwen系列优化的六款压缩模型，助力科研社区创新突破。项目地址: https://ai.gitcode.com/hf_mirrors/deepseek-ai/DeepSeek-R1-Zero

大模型推理技术迎来重要突破——深度求索（DeepSeek）正式开源基于纯强化学习（RL）训练的推理模型DeepSeek-R1-Zero，该模型跳过传统监督微调（SFT）环节，直接在基础模型上进行大规模强化学习训练，展现出与OpenAI o1系列相当的推理性能，为AI推理技术研究开辟新路径。

当前大语言模型推理能力的提升主要依赖"预训练+监督微调+强化学习"的三段式训练范式，其中监督微调阶段需要大量高质量标注数据，不仅成本高昂且可能限制模型的创新推理路径。近期OpenAI o1系列通过强化学习实现推理能力跃升，引发行业对RL训练范式的重新关注，但相关技术细节未对外公开。

DeepSeek-R1-Zero的核心创新在于纯强化学习训练范式：直接在6710亿参数的MoE基础模型上应用大规模RL训练，无需经过SFT阶段。这种"冷启动"训练方式使模型能够自主探索解决复杂问题的思维链（CoT），自然涌现出自我验证、多步推理等高级认知能力。在数学、代码和综合推理任务中，该模型表现出与OpenAI o1接近的性能水平，尤其在MATH-500（97.3%）、MMLU（90.8%）等 benchmarks上达到行业领先。

为解决纯RL训练模型存在的输出重复、可读性差等问题，研发团队进一步推出DeepSeek-R1版本——在RL训练前引入冷启动数据，既保留了强化学习带来的推理优势，又提升了输出稳定性。评估显示，DeepSeek-R1在数学推理（AIME 2024通过率79.8%）、代码能力（LiveCodeBench pass@1达65.9%）等核心任务上已接近甚至超越OpenAI o1-1217的表现。

这张对比图表清晰展示了DeepSeek-R1与主流模型在MATH-500、MMLU等关键推理 benchmark 上的性能差异。其中DeepSeek-R1在MMLU-Pro（84.0%）、DROP（92.2%）等任务上已超越GPT-4o和Claude-3.5-Sonnet，尤其在代码能力测试中，Codeforces评分达到2029分，接近专业程序员水平。这些数据直观证明了纯RL训练范式在提升推理能力上的巨大潜力。

除基础模型外，深度求索同步开源了基于Llama和Qwen系列优化的6款压缩模型（DeepSeek-R1-Distill），参数规模从1.5B到70B不等。其中32B参数的DeepSeek-R1-Distill-Qwen-32B在多项基准测试中超越OpenAI o1-mini，成为当前性能最强的密集型推理模型之一，这为资源受限场景下的高效推理应用提供了新选择。

此次开源标志着大模型推理训练范式的重要转向。纯RL训练不仅减少了对高质量标注数据的依赖，还使模型能够发展出更灵活的问题解决策略。从技术生态看，DeepSeek-R1系列采用MIT许可证，支持商业使用和二次开发，其蒸馏模型基于Llama 3.3和Qwen 2.5等主流开源基座，可大幅降低企业和研究机构的应用门槛。

随着DeepSeek-R1-Zero的开源，AI推理技术正进入"无监督进化"新阶段。这种纯RL训练范式可能成为下一代大模型的标准配置，推动推理能力向更接近人类思维的方向发展。对于开发者社区而言，这一突破不仅提供了高性能的推理工具，更为探索AGI的认知机制打开了新的研究窗口。未来，随着强化学习技术的进一步成熟，我们或将见证AI在复杂问题解决、科学发现等领域的更多突破。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

如何用Apertus-8B玩转1811种语言？合规新选择

导语【免费下载链接】Apertus-8B-Instruct-2509-GGUF 项目地址: https://ai.gitcode.com/hf_mirrors/unsloth/Apertus-8B-Instruct-2509-GGUF 瑞士AI团队推出的Apertus-8B-Instruct-2509-GGUF模型，以80亿参数实现1811种语言支持，同时通过严格合…

李华

Qwen3-VL终极升级：AI视觉语言新体验！

导语【免费下载链接】Qwen3-VL-30B-A3B-Thinking 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-VL-30B-A3B-Thinking Qwen3-VL系列最新发布的30B-A3B-Thinking模型实现全面升级，通过视觉感知、多模态推理与长上下文理解的深度优化，…