Skip to content

GPT-5.5 正式发布:OpenAI 史上最强智能模型,编码能力登顶行业第一

发布信息:2026年4月23日 | 来源:OpenAI 官方博客 | 更新:ChatGPT中文网

2026年4月23日,OpenAI 正式发布了 GPT-5.5,这是该公司迄今为止最智能、使用体验最流畅的模型。作为 OpenAI 迈向"智能体 AI"(Agentic AI)的关键一步,GPT-5.5 在编码、计算机操作、知识工作和科学研究等多个领域实现了质的飞跃——并且在性能大幅提升的同时,保持了与 GPT-5.4 相当的响应速度。


一、GPT-5.5 核心定位:从"聪明工具"到"工作伙伴"

OpenAI 将 GPT-5.5 定义为"面向真实工作的新型智能"(A new class of intelligence for real work)。与前代相比,GPT-5.5 最显著的进步在于:它不仅更聪明,而且更懂得如何自主完成工作

GPT-5.5 能够更快地理解你的意图,独立承担更多工作流程——包括编写和调试代码、在线研究、数据分析、创建文档和电子表格、操作软件,以及在多个工具之间协同工作直到任务完成。用户不再需要精细管理每一个步骤,只需给 GPT-5.5 一个复杂的多阶段任务,它就能自主规划、使用工具、检查工作成果、穿越模糊地带并持续推进。

这种能力在以下领域提升尤为显著:

  • 智能体编码(Agentic Coding):自主完成复杂代码任务
  • 计算机操作(Computer Use):像人一样操作桌面软件
  • 知识工作(Knowledge Work):处理文档、分析数据、生成报告
  • 科学研究(Scientific Research):辅助前沿学术研究

二、基准测试成绩:多项指标登顶行业第一

GPT-5.5 在一系列行业基准测试中展现了其领先实力,尤其在编码和计算机操作领域取得了最先进(state-of-the-art)的成绩。

2.1 编码能力

测试项目GPT-5.5GPT-5.4Claude Opus 4.7Gemini 3.1 Pro
Terminal-Bench 2.082.7%75.1%69.4%68.5%
SWE-Bench Pro58.6%57.7%64.3%54.2%
Expert-SWE(内部)73.1%68.5%

Terminal-Bench 2.0 是衡量复杂命令行工作流能力的权威测试,需要模型进行规划、迭代和工具协调。GPT-5.5 以 82.7% 的准确率创下该基准的历史最高纪录,大幅领先 Claude Opus 4.7(69.4%)和 Gemini 3.1 Pro(68.5%)。

2.2 知识工作

测试项目GPT-5.5GPT-5.4Claude Opus 4.7Gemini 3.1 Pro
GDPval(44个职业胜率)84.9%83.0%80.3%67.3%
OSWorld-Verified(计算机操作)78.7%75.0%78.0%
Tau2-bench Telecom(客服工作流)98.0%92.8%

GPT-5.5 在 GDPval 测试中以 84.9% 的胜率大幅领先竞品,在 44 种职业的知识工作场景中达到或超越人类专家水平。

2.3 前沿学术与科研

测试项目GPT-5.5GPT-5.4Claude Opus 4.7
FrontierMath Tier 4(最难级别)35.4%27.1%22.9%
GeneBench(基因数据分析)25.0%19.0%
BixBench(生物信息学)80.5%74.0%

GPT-5.5 在前沿数学推理(FrontierMath Tier 4)上提升了 8.3 个百分点。更令人惊喜的是,GPT-5.5 在基因和生物信息学领域的 GeneBench 测试中得分从 19.0% 跃升至 25.0%,展现了其在真实科研场景中的潜力。

2.4 网络安全

测试项目GPT-5.5GPT-5.4Gemini 3.1 Pro
CyberGym81.8%79.0%73.1%
CTF 夺旗挑战(内部)88.1%83.7%

OpenAI 将 GPT-5.5 的网络安全能力评定为 High 级别( Preparedness Framework 框架下)。为平衡能力开放与安全,OpenAI 同时推出了"可信访问网络安全"(Trusted Access for Cyber)计划,通过身份验证让更多合法安全研究人员获得更强的网络防御工具。


三、核心能力亮点:编码、科研与知识工作的重大突破

3.1 编码:第一个具有"概念清晰度"的模型

GPT-5.5 在编码方面最受好评的特性是其"概念清晰度"——它不仅能生成代码,更能理解系统的全貌:为什么某个部分失败、修复应该落在何处、以及周围代码库中还会受到哪些影响。

Every 公司创始人兼 CEO Dan Shipper 的评价极具代表性:GPT-5.5 是他用过的"第一个具有真正概念清晰度的编码模型"。他在一次测试中,回溯到一个被广泛讨论的 bug 状态,请 GPT-5.5 和他的工程师分别独立给出解决方案——GPT-5.4 无法完成,而 GPT-5.5 可以

Cursor 联合创始人兼 CEO Michael Truell 表示:

"GPT-5.5 比 GPT-5.4 明显更聪明、更持久,编码性能更强,工具使用更可靠。它能在更长时间内保持专注而不提前中止,这对于用户委托的复杂长时间运行任务最为关键。"

NVIDIA 工程师甚至直言:"失去 GPT-5.5 的访问权限,感觉像被截肢了一样。"

3.2 科学研究:发现数学新证明

GPT-5.5 在科学研究领域展示了一个令人振奋的里程碑:在一个自定义测试框架中,它帮助发现了一个关于 Ramsey 数(组合数学中的核心研究对象)的新渐近性质证明,并通过了 Lean 定理证明器的形式化验证。这一结果已被整理为论文提交。

数学助理教授 Bartosz Naskręcki 在波兹南亚当·密茨凯维奇大学使用 Codex(内置 GPT-5.5)从单条提示词出发,仅用 11 分钟就构建了一个代数几何曲面交叉应用,实现了 Riemann-Roch 定理的可视化,并转换为 Weierstrass 曲线模型。

免疫学教授 Derya Unutmaz 博士(Jackson Laboratory 基因组医学研究部)用 GPT-5.5 Pro 分析了一个包含 62 个样本、近 28,000 个基因的基因表达数据集,产出了一份详细的研究报告——他表示,同样的工作他的团队需要数月才能完成。

3.3 知识工作:OpenAI 内部 85% 的员工每周都在用

今天,OpenAI 超过 85% 的员工每周使用 Codex(基于 GPT-5.5)进行工作,覆盖软件工程、财务、通信、营销、数据科学和产品管理等多个部门。

  • 通讯团队:分析了六个月的媒体邀约数据,构建了评分和风险框架,并验证了一套自动化 Slack 机器人,使低风险请求自动处理,高风险请求转人工审核
  • 财务团队:审查了 24,771 份 K-1 税表,共计 71,637 页,借助自动化工作流相比前一年节省了两周时间
  • 市场团队:员工自动化生成每周业务报告,每周节省 5-10 小时

3.4 GPT-5.5 Pro:面向更高难度任务的旗舰版本

GPT-5.5 Pro 是面向最苛刻任务的高端版本,相比 GPT-5.5 在基准测试中又有提升,尤其在数学推理(FrontierMath Tier 4:39.6%)和复杂推理方面表现更优。早期测试者的反馈一致认为,GPT-5.5 Pro 的回答更加全面、结构更清晰、准确性更高、相关性更强、更有实用价值,在商业、法律、教育和数据科学领域优势尤为明显。


四、效率突破:更强、更快、更省

GPT-5.5 实现了令人印象深刻的速度-智能平衡。更大的模型通常意味着更慢的推理速度,但 GPT-5.5 在保持与 GPT-5.4 相同单 Token 延迟的同时,实现了大幅度的智能提升。

在 Artificial Analysis 的编码指数评估中,GPT-5.5 以前沿编码模型一半的成本实现了最先进的智能水平。跨所有三个编码评估,GPT-5.5 均在使用更少 Token 的情况下超越了 GPT-5.4 的成绩。

这一效率突破背后的关键在于:GPT-5.5 由 OpenAI 与 NVIDIA 联合设计,专为 NVIDIA GB200 和 GB300 NVL72 系统构建和部署。OpenAI 透露,Codex 和 GPT-5.5 本身都在帮助团队实现性能目标——模型参与了改进它自己的推理基础设施的工作,包括负载平衡和分区启发式算法的优化,令 Token 生成速度提升了 20% 以上


五、安全保障:最强力度的防护措施

GPT-5.5 是 OpenAI 迄今发布的安全防护最强的模型。OpenAI 对该模型进行了全面评估,包括:

  • ** Preparedness Framework 完整流程**:覆盖所有安全和准备就绪评估
  • 领域专项测试:针对先进网络安全和生物/化学能力的新定向评估
  • 红队测试:邀请内部和外部红队人员进行数月测试
  • 真实用例反馈:收集了近 200 家可信早期访问合作伙伴的使用反馈

OpenAI 将 GPT-5.5 的网络安全和生物/化学能力在 Preparedness Framework 中评定为 High 级别。虽然 GPT-5.5 未达到 Critical 网络安全能力级别,但其网络安全能力相比 GPT-5.4 确有提升。

在安全访问方面,OpenAI 推出了多项措施:

  • 对网络风险活动实施了更严格的分类器
  • 通过"可信访问网络安全"计划扩大合法安全研究人员的访问权限
  • 面向关键基础设施组织提供严格的网络安全增强模型(GPT-5.4-Cyber)

六、可用范围与定价

6.1 ChatGPT 和 Codex 中的可用性

渠道GPT-5.5GPT-5.5 Pro
ChatGPT Plus✅ 已上线❌ 不可用
ChatGPT Pro✅ 已上线✅ 已上线
ChatGPT Business✅ 已上线✅ 已上线
ChatGPT Enterprise✅ 已上线✅ 已上线
Codex(Plus/Pro/Business/Edu/Go)✅ 已上线(400K 上下文)
Codex Fast 模式✅ 1.5倍速度,2.5倍成本

6.2 API 定价(即将上线)

模型输入 Token输出 Token上下文窗口
gpt-5.5$5 / 百万 Token$30 / 百万 Token100万 Token
gpt-5.5-pro$30 / 百万 Token$180 / 百万 Token100万 Token
Batch API半价半价
Priority 处理2.5倍2.5倍

七、总结:AI 能力的又一次重大跃升

GPT-5.5 的发布标志着 AI 从"回答问题的工具"向"自主完成工作的伙伴"又迈出了实质性的一步。它在编码领域的概念清晰度、科研领域的数学发现能力、以及知识工作领域的实际落地效果,使其不仅仅是一个数字上的性能提升,而是一次真正的能力跃迁。

尤其值得关注的是效率方面的突破——在更强的智能水平下保持甚至降低了响应延迟和 Token 消耗,这为更广泛的生产力应用奠定了基础。

对于国内用户,GPT-5.5 预计将在发布后通过国内镜像平台第一时间可用。请关注 ChatGPT中文网的持续更新。


免责声明:本文内容编译自 OpenAI 官方博客 post Introducing GPT-5.5(2026年4月23日发布)。部分基准测试数据来自 OpenAI 内部评估,可能与生产环境实际表现存在差异。

免责声明:本网站与 OpenAI 官方并无任何关联,不代表 OpenAI 官方立场。我们仅为用户提供 ChatGPT 相关的中文使用指南和资讯。