开源编程模型NousCoder-14B技术解析与未来挑战
开源人工智能初创公司Nous Research于本周一发布了一款新的竞争性编程模型。据称,该模型仅使用48个某中心最新B200图形处理器,在四天内完成训练,其性能可匹敌或超越多个更大的专有系统。
该模型名为NousCoder-14B,在众多AI编程助手中再添一员,但其发布时机正值一个备受关注的时刻:自元旦以来,竞争对手Anthropic的Claude Code代理式编程工具主导了社交媒体讨论,开发者们纷纷发布对其能力的惊叹评价。这两项进展同时发生,突显出AI辅助软件开发正在以多快的速度演进,以及大大小小的公司正在如何激烈地争夺这一被许多人认为将成为软件编写基础的技术。
NousCoder-14B在LiveCodeBench v6上达到了67.87%的准确率。该标准化评估测试模型针对2024年8月至2025年5月期间发布的竞争性编程问题的解决能力。根据Nous Research随发布一同发布的技术报告,这一数字相比其训练所基于的基础模型——某机构的Qwen3-14B,提高了7.08个百分点。
这种对比具有启发性:虽然某机构的Claude Code凭借端到端软件开发的演示捕获了人们的想象力,但Nous Research押注,基于可验证问题训练的开源替代方案能够缩小差距,并且这些模型的构建透明度与原始能力同样重要。
Nous Research如何构建了一个任何人都可以复现的AI编码模型
NousCoder-14B的发布与许多竞争对手公告的不同之处在于其极致的开放性。Nous Research不仅发布了模型权重,还发布了完整的强化学习环境、基准测试套件和训练框架——构建在该公司的Atropos框架之上——这使得任何拥有足够计算资源的研究人员都能够复现或扩展这项工作。
该模型由Nous Research的驻场研究员Joe Li训练完成,他本人也是一名前竞赛程序员。Li的技术报告揭示了一个意想不到的个人维度:他将模型的改进轨迹与他本人在Codeforces(一个竞赛编程平台,参与者根据比赛表现获得评级)上的旅程进行了比较。
根据将LiveCodeBench分数映射到Codeforces评级的粗略估算,Li计算出NousCoder-14B的进步——从大约1600-1750的评级范围跃升至2100-2200——反映了他本人在14至16岁之间持续近两年练习才完成的跨越。而模型在四天内就实现了等效的飞跃。
但Li很快指出了一个重要的注意事项,这涉及到关于AI效率的更广泛问题:他在那两年中解决了大约1,000个问题,而模型则需要24,000个。至少就目前而言,人类仍然是样本效率高得多的学习者。
强化学习系统内部:如何利用24,000个竞赛编程问题进行训练
NousCoder-14B的训练过程提供了一个窗口,让我们了解研究人员如何通过强化学习使用日益复杂的技术来改进AI的推理能力。
该方法依赖于研究人员所称的“可验证奖励”——一个系统,其中模型生成代码解决方案,这些解决方案根据测试用例执行,然后模型接收一个简单的二元信号:正确或不正确。这个反馈循环虽然在概念上简单明了,但需要大量的基础设施才能大规模执行。
Nous Research使用云计算平台Modal并行运行沙盒代码执行。24,000个训练问题中的每一个平均包含数百个测试用例,系统必须验证生成的代码在时间和内存限制内(分别为15秒和4GB)产生正确的输出。
训练采用了一种名为DAPO(动态采样策略优化)的技术,研究人员发现该技术在其实验中表现略优于其他替代方案。一个关键的创新涉及“动态采样”——丢弃模型要么解决所有尝试、要么失败所有尝试的训练样本,因为这些样本无法为学习提供有用的梯度信号。
研究人员还采用了“迭代上下文扩展”,首先用32,000个令牌的上下文窗口训练模型,然后扩展到40,000个令牌。在评估期间,将上下文进一步扩展到大约80,000个令牌产生了最佳结果,准确率达到67.87%。
或许最重要的是,训练管道重叠了推理和验证——一旦模型生成一个解决方案,它就开始处理下一个问题,同时前一个解决方案正在被检查。这种流水线操作,加上多个模型实例并行工作的异步训练,最大限度地提高了昂贵GPU集群的硬件利用率。
迫在眉睫的数据短缺:可能减缓AI编码模型的进展
Li的技术报告中埋藏着一个对AI未来发展具有重大影响的发现:NousCoder-14B的训练数据集包含了“在标准化数据集格式中所有现成可用的、可验证的竞争性编程问题的很大一部分”。
换句话说,对于这个特定领域,研究人员正在接近高质量训练数据的极限。
这一观察与整个AI行业对数据限制日益增长的担忧相呼应。虽然计算能力根据众所周知的经济和工程原理持续扩展,但训练数据正如Li所说,正“变得越来越有限”。
对于竞争性编程而言,这一挑战尤其严峻,因为该领域需要已知正确解决方案且可自动验证的问题。与自然语言任务不同,自然语言任务可以通过人工评估或代理指标来完成,而代码要么有效要么无效——这使得合成数据生成变得更加困难。
Li指出了一条潜在的途径:训练模型不仅要解决问题,还要生成可解决的问题,从而实现一种类似于在游戏AI系统中证明成功的技术的自我博弈形式。“一旦解决了合成问题生成,自我博弈就成为一个非常有趣的方向。”
Nous Research在AI领域确立了一个独特的定位:一家致力于发布开源模型的公司,这些模型与专有替代方案竞争,有时甚至超越它们。
该公司在2025年4月由专注于加密货币的风险投资公司Paradigm领投的一轮融资中筹集了5000万美元。根据一些报道,总融资额达到6500万美元。这项投资反映了人们对去中心化AI训练方法日益增长的兴趣,Nous Research已在该领域开发了其Psyche平台。
先前的版本包括Hermes 4模型系列,以及DeepHermes-3,该公司称其为第一个“可切换推理模型”——允许用户按需激活扩展的思考能力。
该公司培养了一种独特的美学和社区,引发了一些关于风格是否会掩盖实质的质疑。
其他人则提出了技术问题。一位评论者指出,“基于基准测试,Nemotron更好。” 另一位则询问NousCoder-14B是“专注于代理还是仅仅是‘一次性’编码”——这一区别对于实际软件开发很重要,因为在反馈基础上迭代通常比单次尝试产生更好的结果。
研究人员指出的AI编码工具持续改进的下一步方向
该发布包含了未来工作的几个方向,暗示了AI编码研究可能的发展趋势。
多轮强化学习位居榜首。目前,模型在生成解决方案后只接收最终的二元奖励——通过或失败。但竞争性编程问题通常包括提供中间反馈的公共测试用例:编译错误、输出错误、时间限制违规。训练模型在多次尝试中整合这些反馈可以显著提高性能。
控制响应长度仍然是一个挑战。研究人员发现,不正确的解决方案往往比正确的解决方案更长,并且在训练期间,响应长度迅速达到可用上下文窗口的上限——各种算法修改都无法解决这一模式。
也许最雄心勃勃的是,Li提出了“问题生成和自我博弈”——训练模型既能解决又能创建编程问题。这将通过使模型能够生成自己的训练课程来直接解决数据稀缺问题。
“人类非常擅长为其他竞赛程序员生成有趣且有用的问题,但似乎在创造性问题生成方面,LLM能力仍存在显著差距。”
该模型现已根据Apache 2.0许可证在Hugging Face上提供。对于希望在此基础上进行构建的研究人员和开发人员,Nous Research同时发布了完整的Atropos训练框架。
Li花了两年青春专注实现的成就——在Codeforces上从1600级新手攀升到2100级竞争者——AI在96小时内便得以复现。他需要解决1,000个问题。模型需要24,000个。但很快,这些系统可能学会编写自己的问题,自我教学,并完全超越人类的基准。
问题不再是机器能否学会编程。而是它们是否会很快成为比我们以往任何时候都更好的老师。FINISHED
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)