同样是竞争,国内外的方法还真的不一样!
今天凌晨,大事件一个接一个。
Anthropic和OpenAI这对"老冤家",又同一个夜晚玩了次惊天大反转,开始集体扎堆发布模型,你还在回味Claude Opus 4.6的能力。
OpenAI就甩出了GPT-5.3-Codex,一个专为开发者设计的编程帮手,奥特曼称其拥有目前最佳的编码性能,进一步释放了 Codex 的潜能。
那这款新模型到底有多强?国内能不能用以及如何使用?今天这篇文章给大家一次性讲清楚!
OpenAI直接甩出了数据:SWE-Bench Pro达到56.8%(这是实际软件工程场景的难题集),Terminal-Bench 2.0达到77.3%。
这两个成绩是什么概念?简单说,这是OpenAI在当前编程模型中表现突出的成绩。相比GPT-5.2-Codex,速度快了25%,消耗的token还更少。
而且这一次,GPT-5.3-Codex还做到了一个特别有意思的事儿:它本身的训练和优化,用的就是Codex的早期版本。
也就是说,OpenAI的团队用上个月的Codex去打磨这个月的Codex,自我迭代的效率显著提升,两个月内,整个公司的工作方式都被它改造了。
从编码助手变成工作智能体,这次GPT-5.3-Codex能力范围扩大十倍。
GPT-5.3-Codex不再只会"写代码、审代码",它还能处理财务分析、生成演示稿、制作数据表格、调试异常、部署上线、写PRD、做用户研究……
听起来有点夸张,但这就是OpenAI所说的"Beyond Coding"的真实含义。
换句话说,整个项目周期里,所有涉及到屏幕、鼠标、代码、文档的事儿,它都能参与。
OpenAI在GDPval基准(测试专业知识工作能力的标准)上证明了这一点。
GPT-5.3-Codex的表现跟GPT-5.2持平,都处于顶尖水准。在计算机操作基准OSWorld上,它的表现也远超之前的GPT模型。
离发布会不到12个小时,国内外的用户已经开始玩疯了。
比如这位大佬就表示, GPT-5。3 Codex 其实在 Three.js 方面相当疯狂,非常轻松就制作出我的世界,但Opus 4.6就不太行。
还有用户表示,GPT-5.3 Codex相比GPT 5.2有着巨大的提升
OpenAI在测试中让GPT-5.3-Codex用几天时间从零开始制作了两个游戏。
赛车游戏经过完整重做,加入了不同赛手、八张地图和丰富任务。
潜水游戏让玩家探索珊瑚礁并收集鱼类标本。两个游戏整个迭代过程中,Codex自主改进优化,人工干预需求显著减少。
更直观的例子来自OpenAI的内部应用。
研究员想了解Codex每个回合能完成多少工作。他让Codex自动编写正则表达式分类器,分析用户澄清请求的频率、反馈质量和任务进度,然后系统地应用到整个会话日志,输出了完整的数据报告。
这种工作量通常需要人类花费几小时的细致分析和编程。Codex只用三分钟。当AI开始加速自己领域的工作时,效率提升才真正开始。
那大家要如何使用呢,目前GPT-5.3-Codex 已包含在 ChatGPT 的付费套餐中,但 API 还需要等待一段时间。
如果你还不会订阅GPT的话,可以去看我之前的文章。里面有详细的介绍。
相关阅读:2025全新ChatGPT Plus订阅的六种方法,实测有效!
话说,Claude Opus 4.6和GPT-5.3-Codex到底谁更厉害呢?欢迎在评论区聊聊!