OpenAI GPT-5.6 系列模型预览发布
好消息是 Sol 很强!坏消息是目前只能小范围预览,要配合美国政府监管审查!A 厂求仁得仁,转身拖 O 厂下水,原来 A 厂的 AI 宪法,就是:都别活 😄
· Sol - 旗舰,最强能力 $5 / $30
· Terra - 均衡,日常主力 $2.50 / $15
· Luna - 轻量,最低成本 $1 / $6
Terra 性能与 GPT‑5.5 相当但成本减半;Luna 在最低价位仍保留较强能力。
新能力:从"单 Agent 推理"走向"多 Agent 协作"
两个值得注意的新机制:
· Max reasoning effort:给 Sol 更深的推理预算。
· Ultra mode:超越单 Agent,通过 subagents 协同加速复杂任务。
Ultra 模式是本文最实质的能力跃迁信号——它把模型能力从"单个推理体"扩展到"协调多个 subagent 的系统"。在 Terminal‑Bench 2.1(命令行工作流基准)上,Sol Ultra 达到 91.9%,Sol 88.8%,而 Ultra 与非 Ultra 的差距本身说明"subagent 调度"带来了可观增益。
三大领域基准:编码、生物、网络安全的"效率前沿"叙事
OpenAI 反复使用一个框架:性能—效率前沿(performance-efficiency frontier),即不只比分数,更比"达到同等分数需要多少 token"。
· 编码:Terminal‑Bench 2.1 新 SOTA。
· 生物学:GeneBench v1(长程基因组与定量生物学分析),Sol 比 GPT‑5.5 分数更高且 token 更少。
· 网络安全:
· ExploitBench:Sol 用约 1/3 的输出 token 即可与 Mythos Preview 竞争。
· ExploitGym(UC Berkeley 联合前沿实验室):三档模型随推理增强,能力同步提升。
显示更多
Introducing a limited preview of GPT-5.6 Sol, our next generation frontier model, as well as GPT-5.6 Terra, a balanced model for efficient, everyday work, and GPT-5.6 Luna, a fast and affordable model for high-volume work.
显示更多