GPT-5.5 正式发布：OpenAI 史上最强智能模型，编码能力登顶行业第一

发布信息：2026年5月29日 | 来源：OpenAI 官方博客 | 更新：ChatGPT中文网

2026年4月23日，OpenAI 正式发布了 GPT-5.5，这是该公司迄今为止最智能、使用体验最流畅的模型。作为 OpenAI 迈向"智能体 AI"（Agentic AI）的关键一步，GPT-5.5 在编码、计算机操作、知识工作和科学研究等多个领域实现了质的飞跃——并且在性能大幅提升的同时，保持了与 GPT-5.4 相当的响应速度。

一、GPT-5.5 核心定位：从"聪明工具"到"工作伙伴"

OpenAI 将 GPT-5.5 定义为"面向真实工作的新型智能"（A new class of intelligence for real work）。与前代相比，GPT-5.5 最显著的进步在于：它不仅更聪明，而且更懂得如何自主完成工作。

GPT-5.5 能够更快地理解你的意图，独立承担更多工作流程——包括编写和调试代码、在线研究、数据分析、创建文档和电子表格、操作软件，以及在多个工具之间协同工作直到任务完成。用户不再需要精细管理每一个步骤，只需给 GPT-5.5 一个复杂的多阶段任务，它就能自主规划、使用工具、检查工作成果、穿越模糊地带并持续推进。

这种能力在以下领域提升尤为显著：

智能体编码（Agentic Coding）：自主完成复杂代码任务
计算机操作（Computer Use）：像人一样操作桌面软件
知识工作（Knowledge Work）：处理文档、分析数据、生成报告
科学研究（Scientific Research）：辅助前沿学术研究

二、基准测试成绩：多项指标登顶行业第一

GPT-5.5 在一系列行业基准测试中展现了其领先实力，尤其在编码和计算机操作领域取得了最先进（state-of-the-art）的成绩。

2.1 编码能力

测试项目	GPT-5.5	GPT-5.4	Claude Opus 4.7	Gemini 3.1 Pro
Terminal-Bench 2.0	82.7%	75.1%	69.4%	68.5%
SWE-Bench Pro	58.6%	57.7%	64.3%	54.2%
Expert-SWE（内部）	73.1%	68.5%	—	—

Terminal-Bench 2.0 是衡量复杂命令行工作流能力的权威测试，需要模型进行规划、迭代和工具协调。GPT-5.5 以 82.7% 的准确率创下该基准的历史最高纪录，大幅领先 Claude Opus 4.7（69.4%）和 Gemini 3.1 Pro（68.5%）。

2.2 知识工作

测试项目	GPT-5.5	GPT-5.4	Claude Opus 4.7	Gemini 3.1 Pro
GDPval（44个职业胜率）	84.9%	83.0%	80.3%	67.3%
OSWorld-Verified（计算机操作）	78.7%	75.0%	78.0%	—
Tau2-bench Telecom（客服工作流）	98.0%	92.8%	—	—

GPT-5.5 在 GDPval 测试中以 84.9% 的胜率大幅领先竞品，在 44 种职业的知识工作场景中达到或超越人类专家水平。

2.3 前沿学术与科研

测试项目	GPT-5.5	GPT-5.4	Claude Opus 4.7
FrontierMath Tier 4（最难级别）	35.4%	27.1%	22.9%
GeneBench（基因数据分析）	25.0%	19.0%	—
BixBench（生物信息学）	80.5%	74.0%	—

GPT-5.5 在前沿数学推理（FrontierMath Tier 4）上提升了 8.3 个百分点。更令人惊喜的是，GPT-5.5 在基因和生物信息学领域的 GeneBench 测试中得分从 19.0% 跃升至 25.0%，展现了其在真实科研场景中的潜力。

2.4 网络安全

测试项目	GPT-5.5	GPT-5.4	Gemini 3.1 Pro
CyberGym	81.8%	79.0%	73.1%
CTF 夺旗挑战（内部）	88.1%	83.7%	—

OpenAI 将 GPT-5.5 的网络安全能力评定为 High 级别（ Preparedness Framework 框架下）。为平衡能力开放与安全，OpenAI 同时推出了"可信访问网络安全"（Trusted Access for Cyber）计划，通过身份验证让更多合法安全研究人员获得更强的网络防御工具。

三、核心能力亮点：编码、科研与知识工作的重大突破

3.1 编码：第一个具有"概念清晰度"的模型

GPT-5.5 在编码方面最受好评的特性是其"概念清晰度"——它不仅能生成代码，更能理解系统的全貌：为什么某个部分失败、修复应该落在何处、以及周围代码库中还会受到哪些影响。

Every 公司创始人兼 CEO Dan Shipper 的评价极具代表性：GPT-5.5 是他用过的"第一个具有真正概念清晰度的编码模型"。他在一次测试中，回溯到一个被广泛讨论的 bug 状态，请 GPT-5.5 和他的工程师分别独立给出解决方案——GPT-5.4 无法完成，而 GPT-5.5 可以。

Cursor 联合创始人兼 CEO Michael Truell 表示：

"GPT-5.5 比 GPT-5.4 明显更聪明、更持久，编码性能更强，工具使用更可靠。它能在更长时间内保持专注而不提前中止，这对于用户委托的复杂长时间运行任务最为关键。"

NVIDIA 工程师甚至直言："失去 GPT-5.5 的访问权限，感觉像被截肢了一样。"

3.2 科学研究：发现数学新证明

GPT-5.5 在科学研究领域展示了一个令人振奋的里程碑：在一个自定义测试框架中，它帮助发现了一个关于 Ramsey 数（组合数学中的核心研究对象）的新渐近性质证明，并通过了 Lean 定理证明器的形式化验证。这一结果已被整理为论文提交。

数学助理教授 Bartosz Naskręcki 在波兹南亚当·密茨凯维奇大学使用 Codex（内置 GPT-5.5）从单条提示词出发，仅用 11 分钟就构建了一个代数几何曲面交叉应用，实现了 Riemann-Roch 定理的可视化，并转换为 Weierstrass 曲线模型。

免疫学教授 Derya Unutmaz 博士（Jackson Laboratory 基因组医学研究部）用 GPT-5.5 Pro 分析了一个包含 62 个样本、近 28,000 个基因的基因表达数据集，产出了一份详细的研究报告——他表示，同样的工作他的团队需要数月才能完成。

3.3 知识工作：OpenAI 内部 85% 的员工每周都在用

今天，OpenAI 超过 85% 的员工每周使用 Codex（基于 GPT-5.5）进行工作，覆盖软件工程、财务、通信、营销、数据科学和产品管理等多个部门。

通讯团队：分析了六个月的媒体邀约数据，构建了评分和风险框架，并验证了一套自动化 Slack 机器人，使低风险请求自动处理，高风险请求转人工审核
财务团队：审查了 24,771 份 K-1 税表，共计 71,637 页，借助自动化工作流相比前一年节省了两周时间
市场团队：员工自动化生成每周业务报告，每周节省 5-10 小时

3.4 GPT-5.5 Pro：面向更高难度任务的旗舰版本

GPT-5.5 Pro 是面向最苛刻任务的高端版本，相比 GPT-5.5 在基准测试中又有提升，尤其在数学推理（FrontierMath Tier 4：39.6%）和复杂推理方面表现更优。早期测试者的反馈一致认为，GPT-5.5 Pro 的回答更加全面、结构更清晰、准确性更高、相关性更强、更有实用价值，在商业、法律、教育和数据科学领域优势尤为明显。

四、效率突破：更强、更快、更省

GPT-5.5 实现了令人印象深刻的速度-智能平衡。更大的模型通常意味着更慢的推理速度，但 GPT-5.5 在保持与 GPT-5.4 相同单 Token 延迟的同时，实现了大幅度的智能提升。

在 Artificial Analysis 的编码指数评估中，GPT-5.5 以前沿编码模型一半的成本实现了最先进的智能水平。跨所有三个编码评估，GPT-5.5 均在使用更少 Token 的情况下超越了 GPT-5.4 的成绩。

这一效率突破背后的关键在于：GPT-5.5 由 OpenAI 与 NVIDIA 联合设计，专为 NVIDIA GB200 和 GB300 NVL72 系统构建和部署。OpenAI 透露，Codex 和 GPT-5.5 本身都在帮助团队实现性能目标——模型参与了改进它自己的推理基础设施的工作，包括负载平衡和分区启发式算法的优化，令 Token 生成速度提升了 20% 以上。

五、安全保障：最强力度的防护措施

GPT-5.5 是 OpenAI 迄今发布的安全防护最强的模型。OpenAI 对该模型进行了全面评估，包括：

** Preparedness Framework 完整流程**：覆盖所有安全和准备就绪评估
领域专项测试：针对先进网络安全和生物/化学能力的新定向评估
红队测试：邀请内部和外部红队人员进行数月测试
真实用例反馈：收集了近 200 家可信早期访问合作伙伴的使用反馈

OpenAI 将 GPT-5.5 的网络安全和生物/化学能力在 Preparedness Framework 中评定为 High 级别。虽然 GPT-5.5 未达到 Critical 网络安全能力级别，但其网络安全能力相比 GPT-5.4 确有提升。

在安全访问方面，OpenAI 推出了多项措施：

对网络风险活动实施了更严格的分类器
通过"可信访问网络安全"计划扩大合法安全研究人员的访问权限
面向关键基础设施组织提供严格的网络安全增强模型（GPT-5.4-Cyber）

六、可用范围与定价

6.1 ChatGPT 和 Codex 中的可用性

渠道	GPT-5.5	GPT-5.5 Pro
ChatGPT Plus	✅ 已上线	❌ 不可用
ChatGPT Pro	✅ 已上线	✅ 已上线
ChatGPT Business	✅ 已上线	✅ 已上线
ChatGPT Enterprise	✅ 已上线	✅ 已上线
Codex（Plus/Pro/Business/Edu/Go）	✅ 已上线（400K 上下文）	—
Codex Fast 模式	✅ 1.5倍速度，2.5倍成本	—

6.2 API 定价（即将上线）

模型	输入 Token	输出 Token	上下文窗口
gpt-5.5	$5 / 百万 Token	$30 / 百万 Token	100万 Token
gpt-5.5-pro	$30 / 百万 Token	$180 / 百万 Token	100万 Token
Batch API	半价	半价	—
Priority 处理	2.5倍	2.5倍	—

七、总结：AI 能力的又一次重大跃升

GPT-5.5 的发布标志着 AI 从"回答问题的工具"向"自主完成工作的伙伴"又迈出了实质性的一步。它在编码领域的概念清晰度、科研领域的数学发现能力、以及知识工作领域的实际落地效果，使其不仅仅是一个数字上的性能提升，而是一次真正的能力跃迁。

尤其值得关注的是效率方面的突破——在更强的智能水平下保持甚至降低了响应延迟和 Token 消耗，这为更广泛的生产力应用奠定了基础。

对于国内用户，GPT-5.5 预计将在发布后通过国内镜像平台第一时间可用。请关注 ChatGPT中文网的持续更新。

免责声明：本文内容编译自 OpenAI 官方博客 post Introducing GPT-5.5（2026年4月23日发布）。部分基准测试数据来自 OpenAI 内部评估，可能与生产环境实际表现存在差异。

GPT-5.5 正式发布：OpenAI 史上最强智能模型，编码能力登顶行业第一 ​

一、GPT-5.5 核心定位：从"聪明工具"到"工作伙伴" ​

二、基准测试成绩：多项指标登顶行业第一 ​

2.1 编码能力 ​

2.2 知识工作 ​

2.3 前沿学术与科研 ​

2.4 网络安全 ​

三、核心能力亮点：编码、科研与知识工作的重大突破 ​

3.1 编码：第一个具有"概念清晰度"的模型 ​

3.2 科学研究：发现数学新证明 ​

3.3 知识工作：OpenAI 内部 85% 的员工每周都在用 ​

3.4 GPT-5.5 Pro：面向更高难度任务的旗舰版本 ​

四、效率突破：更强、更快、更省 ​

五、安全保障：最强力度的防护措施 ​

六、可用范围与定价 ​

6.1 ChatGPT 和 Codex 中的可用性 ​

6.2 API 定价（即将上线） ​

七、总结：AI 能力的又一次重大跃升 ​