注册并分享邀请链接,可获得视频播放与邀请奖励。

meng shao (@shao__meng) “OpenAI GPT-5.6 系列模型预览发布 好消息是 Sol 很强!坏消息是目前只能小范围预览,” — TopicDigg

meng shao 的个人资料封面
meng shao 的头像
meng shao
@shao__meng
Building AI Agents for design & media. 分享新产品、开源项目,以及 AI 创业与职场观察。 公众号 / 小红书:AI 启蒙小伙伴|合作请私信
加入 November 2023
1.2K 正在关注    31.2K 粉丝
OpenAI GPT-5.6 系列模型预览发布 好消息是 Sol 很强!坏消息是目前只能小范围预览,要配合美国政府监管审查!A 厂求仁得仁,转身拖 O 厂下水,原来 A 厂的 AI 宪法,就是:都别活 😄 · Sol - 旗舰,最强能力 $5 / $30 · Terra - 均衡,日常主力 $2.50 / $15 · Luna - 轻量,最低成本 $1 / $6 Terra 性能与 GPT‑5.5 相当但成本减半;Luna 在最低价位仍保留较强能力。 新能力:从"单 Agent 推理"走向"多 Agent 协作" 两个值得注意的新机制: · Max reasoning effort:给 Sol 更深的推理预算。 · Ultra mode:超越单 Agent,通过 subagents 协同加速复杂任务。 Ultra 模式是本文最实质的能力跃迁信号——它把模型能力从"单个推理体"扩展到"协调多个 subagent 的系统"。在 Terminal‑Bench 2.1(命令行工作流基准)上,Sol Ultra 达到 91.9%,Sol 88.8%,而 Ultra 与非 Ultra 的差距本身说明"subagent 调度"带来了可观增益。 三大领域基准:编码、生物、网络安全的"效率前沿"叙事 OpenAI 反复使用一个框架:性能—效率前沿(performance-efficiency frontier),即不只比分数,更比"达到同等分数需要多少 token"。 · 编码:Terminal‑Bench 2.1 新 SOTA。 · 生物学:GeneBench v1(长程基因组与定量生物学分析),Sol 比 GPT‑5.5 分数更高且 token 更少。 · 网络安全: · ExploitBench:Sol 用约 1/3 的输出 token 即可与 Mythos Preview 竞争。 · ExploitGym(UC Berkeley 联合前沿实验室):三档模型随推理增强,能力同步提升。
显示更多
Introducing a limited preview of GPT-5.6 Sol, our next generation frontier model, as well as GPT-5.6 Terra, a balanced model for efficient, everyday work, and GPT-5.6 Luna, a fast and affordable model for high-volume work.
显示更多