news 2025/12/21 12:11:03

GPT-5.2 震撼发布:知识型工作超越人类专家的 AI 生产力革命!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
GPT-5.2 震撼发布:知识型工作超越人类专家的 AI 生产力革命!

点击下方“JavaEdge”,选择“设为星标”

第一时间关注技术干货!

本文已收录在Github,关注我,紧跟本系列专栏文章,咱们下篇再续!

  • 🚀 魔都架构师 | 全网30W技术追随者

  • 🔧 大厂分布式系统/数据中台实战专家

  • 🏆 主导交易系统百万级流量调优 & 车联网平台架构

  • 🧠 AIGC应用开发先行者 | 区块链落地实践者

  • 🌍 以技术驱动创新,我们的征途是改变世界!

  • 👉 实战干货:编程严选网

0 前言

GPT‑5.2 在众多基准测试中都刷新了行业水平,包括 GDPval。在该评测中,它在涵盖 44 个职业的明确知识型工作任务上超越了行业专家。

GPT‑5.2 ThinkingGPT‑5.1 Thinking

**GDPval(胜出或持平) **知识型工作任务

70.9%

38.8% (GPT‑5)

SWE-Bench Pro(公开版)

软件工程

55.6%

50.8%

**SWE-bench Verified **软件工程

80.0%

76.3%

**GPQA Diamond(无工具) **科学问题

92.4%

88.1%

**CharXiv 推理(使用 Python) **科学图表类问题

88.7%

80.3%

**HMMT(2025 年 2 月) **数学竞赛

99.4%

96.3%

**FrontierMath(Tier 1–3) **高等数学

40.3%

31.0%

**ARC-AGI-1 (Verified) **抽象推理

86.2%

72.8%

**ARC-AGI-2 (Verified) **抽象推理

52.9%

17.6%

  • NotionBoxShopifyHarveyZoom观察到,GPT‑5.2 展现出强大的长时推理和工具调用性能

  • DatabricksHexTriple Whale发现,GPT‑5.2 在智能体数据科学和文档分析任务中表现出色

  • CognitionWarpCharlie LabsJetBrainsAugment Code表示,GPT‑5.2 在智能体编码方面达到了行业领先水平,并在交互式编程、代码审查和缺陷定位等领域带来可量化的提升

1 模型性能

1.1 具备经济效益的任务
1.2 编码

GPT‑5.2 Thinking 在 SWE-bench Pro 测试取得了 55.6% 的新成绩。SWE-bench Pro 是一项严格评估真实软件工程能力的基准测试。与只测试 Python 的 SWE-bench Verified 不同,SWE-bench Pro 涵盖四种语言,旨在更具抗污染性、更具挑战性、更具多样性,也更贴近真实工业场景。

SWE-Bench Pro(公开版) 软件工程

SWE-bench Pro⁠⁠为模型提供一个代码仓库,要求其生成补丁以完成真实的软件工程任务。

在 SWEvbench Verified 测试中(未绘制在图表中),GPT‑5.2 Thinking 取得了我们全新的最高成绩:80%。

在日常专业应用中,这意味着该模型能够更可靠地调试生产环境代码、实现功能需求、重构大型代码库,并以更少的人工干预完成端到端的修复交付。

GPT‑5.2 Thinking 在前端软件工程方面也优于 GPT‑5.1 Thinking。早期测试者发现,它在前端开发以及复杂或非传统的 UI 工作上表现更强(尤其是涉及 3D 元素的场景),这让它成为工程师在全栈工作中的强大日常伙伴。

编码能力的反馈

早期测试者分享了他们对 GPT‑5.2 编码能力的反馈:

“GPT-5.2 代表了自 GPT-5 以来在智能体编码上的最大飞跃,并且在同价位中是业界领先的编码模型。版本号的提升甚至低估了它在智能水平上的跨越。我们很高兴将它设为 Windsurf 以及多个核心 Devin 工作负载的默认模型。”Jeff Wang,Windsurf 首席执行官

“结合 Warp 使用的 GPT-5.2 在代理式编程性能上达到行业领先水平,在 Terminal-Bench 2.0 上得分 61.14%。借助 GPT-5.2,Warp 的智能代理能更好地‘闭环’操作——验证自身修改并完成长、多步骤的工作流,其可靠性前所未有。”Zach Lloyd,Warp 创始人兼首席执行官

“当我们用最严格的编码评测测试 GPT-5.2 时,改进是显而易见的:任务解决率提高了最高 35%,长链任务中的级联错误减少了 30–40%。模型在执行指令时更一致,代码结构更整洁,这些提升开发者在日常使用中都能明显感受到。”Vladislav Tankov,JetBrains 人工智能总监

“GPT-5.2 拥有比以往任何模型都更强的深度代码推理能力,因此它是唯一支撑 Augment Code Review 的模型。它能更高效地利用 Augment 的 Context Engine,让系统在保持低误报率的同时发现更多真实缺陷。开启高推理模式后,Augment Code Review 在 Greptile 的 AI 代码审查基准上超越了所有其他模型。”Guy Gur-Ari,Augment 联合创始人兼首席科学家

“我们对 GPT-5.2 的印象极佳——甚至常常忘了切换回我们平时使用的旧模型。它规划更深入,执行更出色,整体表现显著优于以往版本。研究结果更丰富、上下文更高效、焦点更明确;代码修改更精确,范围得当,几乎无需人工干预。新生成的代码结构良好,并能自动遵循现有架构模式。”Kevin Bond,Cline 创始工程师

“GPT-5.2 在我们的内部评估中取得了历史最高分。它在多轮、复杂代理任务中能精准遵循指令,即使面对大量上下文,也能保持出色表现——让 Charlie 成为我们技术客户的更强大合作伙伴。”Riley Tomasek,Charlie Labs 创始人兼首席执行官

“GPT-5.2 让我非常惊艳。在测试中,我给它抛出了一个其他顶尖模型都无法解决的 bug。它主动要求我提供截图以获取更多上下文。当我发送后,它立刻修复了问题。这展示了模型识别信息缺口并主动索取恰当补充的能力。GPT-5.2 能始终专注任务,生成的测试案例极为优质,提交说明简洁而精准。”Kevin van Dijk,Kilo 软件工程师

“我们认为 GPT-5.2 是迄今为止我们用过最强的模型。它改变了我们设计智能代理系统的方式,因为模型现在能在更长的任务链中独立完成更多环节,无需人类干预。GPT-5.2 将‘自主性’从一种锦上添花的特性,提升为核心能力——正在重新定义我们如何构建高独立性的智能代理系统。”Michael Carter,Azad 创始人

1.3 事实性

GPT‑5.2 Thinking 的幻觉率低于 GPT‑5.1 Thinking。在一组来自 ChatGPT、已去标识化的查询中,含有错误的回答 出现频率相对减少了 38%。对专业人士,意味在研究、写作、分析和决策支持等任务中,模型犯错更少,从而在日常知识型工作中更可靠。

去标识化 ChatGPT 查询的回复层面错误率:

推理强度设置为可用的最高级别,并启用了搜索工具。错误由其他模型检测,但这些模型本身也可能出错。由于多数回复包含多个论断,论断层面的错误率显著低于回复层面的错误率。

像所有模型一样,GPT‑5.2 Thinking 并不完美。对于任何关键任务,请务必再次核查它的回答。

1.4 长上下文

GPT‑5.2 Thinking 在长上下文推理树立新技术标杆。OpenAI MRCRv2 是一项用于测试模型整合长文档中分散信息能力的评估,GPT‑5.2 Thinking 在该评估中表现领先。在真实任务中,如深度文档分析(需跨数十万 Token 关联信息),GPT‑5.2 Thinking 的准确性显著高于 GPT‑5.1 Thinking。这是我们首次看到某模型在 4-needle MRCR 评测变体(最长可达 256k Token)中实现接近 100% 准确率。

实际应用,专业人士能用 GPT‑5.2 处理长文档,如报告、合同、研究论文、会议记录和多文件项目,同时在数十万 Token 的范围内保持连贯性和准确性。因此,GPT‑5.2 尤其适合深度分析、信息综合以及复杂的多来源工作流程。

对那些需要在最大上下文窗口之外继续推理的任务,GPT‑5.2 Thinking 可与我们全新的 Responses/compact端点配合使用,从而扩展模型的有效上下文窗口。这使得 GPT‑5.2 Thinking 能够处理更多依赖工具的长时工作流程,而这些流程在过去会受到上下文长度的限制。参阅API 文档。

1.5 展望

GPT‑5.2 Thinking 是我们迄今最强大的视觉模型,在图表推理和软件界面理解方面将错误率大幅降低,约减少了一半。

在日常专业场景中,这意味着模型能够更准确地理解控制面板、产品截图、技术图示和可视化报告,从而支持金融、运营、工程、设计和客户支持等以视觉信息为核心的工作流程。

ScreenSpot-Pro(在新窗口中打开)中,模型需要对来自各种专业场景的高分辨率图形界面截图进行推理。 在该任务中,Python 工具被启用,并将推理力度设为最高。若未启用 Python 工具,得分会显著降低。 因此,我们建议在此类视觉任务中启用 Python 工具。

与以往模型相比,GPT‑5.2 Thinking 对图像中各元素的空间位置有更强的理解能力,这在需要依赖相对布局来解决问题的任务中尤为重要。在下面的示例中,我们让模型识别图像中的组件(这里是一块主板),并返回带有大致边界框的标签。即使面对低质量图像,GPT‑5.2 仍能识别主要区域,并将边界框大致放在各组件的真实位置上;而 GPT‑5.1 只能标出少数部分,对空间关系的理解也明显较弱。

GPT-5.1
GPT-5.2
1.6 工具调用

GPT‑5.2 Thinking 在 Tau2 bench Telecom 测试中取得了 98.7% 的全新优异成绩,展示了它在长程、多轮任务中可靠使用工具的能力。

在对延迟敏感的场景中,GPT‑5.2 Thinking 在 reasoning.effort='none' 模式下也有显著提升,性能大幅领先 GPT‑5.1 和 GPT‑4.1。

Tau2-bench Telecom 客户支持中的工具使用

Tau2-bench Retail 客户支持中的工具使用

对于专业人士而言,这意味着端到端的工作流程将更加稳健,如处理客户支持案例、从多个系统提取数据、执行分析以及生成最终结果,各步骤之间出现中断的情况也更少。

如当用户提出一个需要多步骤解决的复杂客服问题时,模型能够更有效地在多个代理之间协调完整的工作流程。在下面的案例中,一位旅客报告航班延误、错过转机、在纽约过夜以及需要医疗座位安排。GPT‑5.2 能够处理整个任务链,包括改签、座位安排的特殊协助和补偿,最终结果比 GPT‑5.1 更完整。

1.7 科学与数学

我们对人工智能的期望之一,是它能够有效推进科学研究,从而惠及全人类。为此,我们一直与科学家合作并听取他们的意见,探索人工智能如何可提升他们的科研效率。上个月,我们在这里⁠分享了一些早期的合作实验。

GPT‑5.2 Pro 和 GPT‑5.2 Thinking 是目前最能支持并加快科研进展的模型。在研究生级防 Google 问答基准测试 GPQA Diamond 中,GPT‑5.2 Pro 取得了 93.2% 的成绩,GPT‑5.2 Thinking 紧随其后,达到 92.4%。

在专家级数学评测 FrontierMath (Tier 1–3) 中,GPT‑5.2 Thinking 树立了新的技术标杆,解决了 40.3% 的问题。

FrontierMath (Tier 1–3) 高等数学

我们已经开始看到,人工智能模型在数学和科学领域以切实可见的方式有效推进研究进展。例如,在一项使用 GPT‑5.2 Pro 的近期研究⁠中,研究人员探讨了统计学习理论中的一个开放问题。在一个范围明确、设定清晰的情境下,模型提出了一个证明,之后由作者核实并请外部专家审阅,说明前沿模型在严密的人类监督下也能为数学研究提供帮助。

ARC-AGI 2

在 ARC-AGI-1 (Verified) 这一用于衡量通用推理能力的基准测试中,GPT‑5.2 成为首个突破 90% 阈值的模型,相较去年 o3‑preview 的 87% 有明显提升,同时将达到该性能的成本降低了约 390 倍。

在更高难度、更加侧重流体推理能力的 ARC-AGI-2 (Verified) 中,GPT‑5.2 Thinking 以 52.9% 的成绩刷新了链式思维模型的最新纪录;GPT‑5.2 Pro 表现更进一步,达到 54.2%,进一步拓展了模型在处理全新抽象问题时的推理能力。

从这些评测结果的提升可以看出,GPT‑5.2 在多步推理、数值准确性和处理复杂技术问题的稳定性上都有了更强的表现。

以下是早期测试者对 GPT‑5.2 的反馈:

“GPT-5.2 为我们开启了完整的架构转型。我们将一个脆弱的多智能体系统整合为一个拥有 20 多个工具的超级智能体。最棒的是,它就是这么好用。这款超级智能体速度更快、更聪明,维护起来容易 100 倍。我们观察到延迟显著降低,工具调用性能更强大,并且我们不再需要庞大的系统提示,因为 5.2 只需一行简单的提示就能稳定执行。这感觉就像魔法。”

AJ Orbach,Triple Whale 首席执行官

“GPT-5.2 在需要处理复杂、冲突信息的长程推理任务中表现突出——这种模糊性正是知识型工作的真实写照。它的速度也非常快,并在我们评估体系的所有维度上都超越了 GPT-5.1。我们相信,注重品质的客户会把 GPT-5.2 作为他们新的日常主力模型。”Abhishek Modi,Notion 人工智能负责人

“GPT-5.2 在工具调用方面表现非常出色:Zoom AI Companion 的会议安排成功率提升了 10%,在我们内部的多步问答基准测试中表现提升了 3.5%。这些进步让 AI Companion 在安排会议和应对复杂问题时更加可靠,并能在恰当的时机提供精准洞见。”X.D. Huang,Zoom 首席技术官

“我们正进入一个由人工智能驱动的新生产力阶段,而 GPT-5.2 为 Box AI 企业套件带来了重大提升。与以往模型相比,复杂文档提取的延迟缩短了 31%,法律任务推理准确率提升了 76%——而法律领域对精确度要求极高。这些改进让长文档分析几乎实现即时响应,并能从复杂数据中挖掘更深层洞察。”Ben Kus,Box 首席技术官

“在我们的内部评估中,GPT-5.2 在复杂、真实世界数据分析方面达到了业界最优表现,尤其在模糊语境下展现出卓越的推理能力。Hex 对 5.2 能够通过复杂的工具使用来解决定义不清、模糊问题的能力印象深刻。”Caitlin Colgrove,Hex 首席技术官兼联合创始人

“我们发现 GPT-5.2 在多文档、多表格的复杂推理任务中能力显著增强。根据我们的 OfficeQA 基准(专注评估此类具有经济价值的真实推理任务),GPT-5.2 超越了许多现有模型,特别擅长结构化提取和文档分析,能够理解复杂表格并基于企业真实数据进行精准计算。这使其非常适用于我们的多种智能代理产品。”Patrick Wendell,Databricks 副总裁兼联合创始人

“GPT-5.2 将前沿推理与能力意识相结合——模型能更好地判断何时推进、何时扩充上下文,以及何时引入人类协作。在我们的评估中,GPT-5.2 在长文本、文档密集型任务(如草拟文档)上表现出更强的防护机制与更佳成果。”Niko Grupen,Harvey 应用研究主管

“GPT-5.2 让我们离‘值得信赖的 AI 代理’更近了一步,因为它的执行可靠性远高于以往模型。这一变化将重塑客户服务场景,也改变了我们在 AI 信任构建上的方式。”Stefan Ostwald,Parloa 联合创始人兼首席人工智能官

“我们很高兴将 GPT-5.2 集成到 Moveworks AI Assistant 中。内部评估显示,它相比 5.1 拥有更强的自我感知能力、更高的可控性,以及更优的工具调用表现——这些都是实现企业工作流自动化的关键。”Bhavin Shah,Moveworks 首席执行官

“与 GPT-5.1 相比,GPT-5.2 在较低推理层级下就能实现更高的指令遵循度与工具调用准确性,输出快速且稳定,并能在需要时扩展到深度分析。”Ben Lafferty,Shopify 高级工程师

2 ChatGPT 中的 GPT‑5.2

在 ChatGPT 中,用户会发现 GPT‑5.2 的日常使用体验更佳 — 结构更清晰、更可靠,同时依然提供愉快的交流体验。

GPT‑5.2 Instant是一款高效而强大的日常工作与学习“主力模型”,在信息查询、操作指南、步骤讲解、技术写作以及翻译方面都有显著提升,并延续了 GPT‑5.1 Instant 更温暖、更自然的对话风格。早期测试者特别指出,其解释更清晰,能够在一开始就呈现出关键信息。

GPT‑5.2 Thinking专为更深入的工作而打造,帮助用户以更高的完成度处理复杂任务,擅长编码、长文档总结、回答上传文件相关问题、逐步推导数学与逻辑问题,以及通过更清晰的结构和更有用的细节支持规划与决策。

GPT‑5.2 Pro是应对高难度问题时最智能、最可靠的选择,在需要高质量答案的场景中尤为适合。早期测试显示,它的重大错误更少,在编程等复杂领域的表现也更为出色。

3 安全

GPT‑5.2 延续了我们随 GPT‑5 提出的安全补全⁠研究,让模型在不越过安全界限的情况下,也能提供最有帮助的答案。

在此版本中,我们继续推进增强模型在敏感对话中的回应能力⁠这项工作,让它在面对自杀、自残、心理困扰或对模型产生情绪依赖等相关提示时,能够做出更恰当、更稳妥的回应。这些有针对性的改进让 GPT‑5.2 Instant 和 GPT‑5.2 Thinking 的不理想回复显著减少,相较于 GPT‑5.1 以及 GPT‑5 Instant 和 Thinking 模型都有明显提升。详情请参阅系统卡⁠。

我们正在逐步上线年龄预测模型⁠,以便自动为未满 18 岁的用户应用内容保护措施,从而限制其接触敏感内容。这项工作是我们现有的未成年人识别机制和家长控制功能的延伸。

GPT‑5.2 是持续改进过程中的又一步,我们的工作远未结束。尽管这一版本在智能与效率方面实现大幅提升,我们深知用户仍期待更多。我们正着手解决 ChatGPT 中的已知问题,例如过度拒答,同时继续全面提升其安全性与可靠性。这些改动本身相当复杂,我们正全力以赴,确保一切落实到位。

4 可用性与定价

在 ChatGPT 中,我们将从今天起陆续推出 GPT‑5.2(Instant、Thinking 和 Pro),首先面向付费套餐(Plus、Pro、Go、Business 和 Enterprise)用户。为了确保 ChatGPT 的稳定与流畅,我们会采取逐步上线的方式;如果你暂时还没看到更新,请稍后再试。在 ChatGPT 中,GPT‑5.1 仍会以传统模型的形式向付费用户提供三个月,之后我们将正式停止支持 GPT‑5.1。

ChatGPT 与 API 的模型命名方式
ChatGPTAPI

ChatGPT‑5.2 Instant

GPT‑5.2-chat-latest

ChatGPT‑5.2 Thinking

GPT‑5.2

ChatGPT‑5.2 Pro

GPT‑5.2 Pro

在我们的 API 平台中,GPT‑5.2 Thinking 已可通过 Responses API 和 Chat Completions API 使用,名称为gpt-5.2。而 GPT‑5.2 Instant 则以gpt-5.2-chat-latest提供。GPT‑5.2 Pro 在 Responses API 中以gpt-5.2-pro提供。开发者现在可以在 GPT‑5.2 Pro 中设置推理参数;此外 GPT‑5.2 Pro 和 GPT‑5.2 Thinking 现在都支持全新的第五档推理强度 xhigh,专为那些对质量要求最高的任务而设计。

GPT‑5.2 的价格为每百万输入 Token 1.75 美元、每百万输出 Token 14 美元,缓存输入可享受 90% 的优惠。在多项智能体评测中,我们发现,尽管 GPT‑5.2 的单 Token 成本更高,但由于其更高的 Token 效率,达到同等质量水平的整体成本反而更低。

虽然 ChatGPT 的订阅价格保持不变,但在 API 中, GPT‑5.2 的 Token 单价高于 GPT‑5.1,因为它的能力更强。不过,它的价格仍低于其他前沿模型,让大家依然能在日常工作和核心应用中加以充分利用。

每百万 Token 的价格
模型输入缓存的输入输出
gpt-5.2 / gpt-5.2-chat-latest

$1.75

$0.175

$14

gpt-5.2-pro

$21

-

$168

gpt-5.1 / gpt-5.1-chat-latest

$1.25

$0.125

$10

gpt-5-pro

$15

-

$120

目前尚无套餐在 API 中停用 GPT‑5.1、GPT‑5 或 GPT‑4.1,如未来有相关安排,我们会提前充分通知开发者。虽然 GPT‑5.2 已能在 Codex 中直接运行,我们预计将在未来数周推出专为 Codex 优化的 GPT‑5.2 版本。

5 合作伙伴

GPT‑5.2 是我们与长期合作伙伴 NVIDIA 和 Microsoft 共同打造的成果。Azure 数据中心与 NVIDIA 的 H100、H200、GB200-NVL72 等 GPU 构成了 OpenAI 大规模训练的核心基础设施,为模型智能带来了显著提升。正是这种合作,使我们能够更有信心地扩展算力,并更快速地将新模型推向市场。

6 附录

详细基准

GPT‑5.2 Thinking 的完整基准测试结果,并同时提供一部分 GPT‑5.2 Pro 的相关数据。

编码

GPT-5.2 Thinking

GPT-5.2 Pro

GPT-5.1 Thinking

SWE-Bench Pro, Public

55.6%

-

50.8%

SWE-bench Verified

80.0%

-

76.3%

SWE-Lancer, IC Diamond*

74.6%

-

69.7%


写在最后

编程严选网http://www.javaedge.cn/

专注分享AI时代下软件开发全场景最新最佳实践~

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2025/12/20 15:04:48

这些CTF,不仅学技术,还有巨额奖金!

前言: 不会吧,不会吧,不会还有安全er不知道CTF是什么吧? 在程序员的世界里,也有ACM这样的编程大赛,成为各路编程高手一较高下展示能力的平台。 那在网络安全的圈子里,各路黑客红客白帽子们又…

作者头像 李华
网站建设 2025/12/20 11:09:46

5个必学技巧!让你的点云可视化性能提升200%

5个必学技巧!让你的点云可视化性能提升200% 【免费下载链接】rerun Visualize streams of multimodal data. Fast, easy to use, and simple to integrate. Built in Rust using egui. 项目地址: https://gitcode.com/GitHub_Trending/re/rerun 你是否在加载…

作者头像 李华
网站建设 2025/12/21 2:47:39

轻量级图表库uPlot完全指南:解锁高性能可视化新境界

轻量级图表库uPlot完全指南:解锁高性能可视化新境界 【免费下载链接】uPlot 📈 A small, fast chart for time series, lines, areas, ohlc & bars 项目地址: https://gitcode.com/gh_mirrors/up/uPlot 想要在网页中流畅展示大量时间序列数据…

作者头像 李华
网站建设 2025/12/16 11:24:05

35、本地化与国际化文本函数详解

本地化与国际化文本函数详解 1. 字符串转换操作 在处理输入字符串时,根据 XIMStringConversionOperation 的不同类型,客户端的操作也有所不同: - 当 XIMStringConversionOperation 为 XIMStringConversionSubstitution 时,客户端必须从自身缓冲区中删除待转换的字…

作者头像 李华
网站建设 2025/12/20 20:28:30

AdGuard Home配置优化实战指南:从新手到专家的5个关键步骤

AdGuard Home配置优化实战指南:从新手到专家的5个关键步骤 【免费下载链接】AdGuardHome Network-wide ads & trackers blocking DNS server 项目地址: https://gitcode.com/gh_mirrors/ad/AdGuardHome 你是否遇到过AdGuard Home安装后广告拦截效果不佳&…

作者头像 李华
网站建设 2025/12/16 11:22:50

3步上手FLAN-T5 XL:从零开始掌握强大语言模型

3步上手FLAN-T5 XL:从零开始掌握强大语言模型 【免费下载链接】flan-t5-xl 项目地址: https://ai.gitcode.com/hf_mirrors/google/flan-t5-xl FLAN-T5 XL是Google推出的先进语言模型,基于T5架构进行指令微调,在文本生成、翻译、问答等…

作者头像 李华