GPT-5.5 Instant 上线:ChatGPT 新默认模型,医疗法律幻觉率降 52.5%

GPT-5.5 Instant 上线:ChatGPT 新默认模型,医疗法律幻觉率降 52.5%

先说结论 — OpenAI 5 月 5 日把 ChatGPT 默认模型从 GPT-5.3 Instant 换成 GPT-5.5 Instant,API 别名 chat-latest。这次升级的主线不是新能力,是”少出错、少废话、更懂你”——医疗/法律/金融领域幻觉率降 52.5%,回答字数缩 30.2%。和 4 月 23 日发的 GPT-5.5 旗舰是两条产品线,别搞混。ofox 即将开放支持。

这次发的不是新旗舰,是新默认值

GPT-5.5 这个系列到目前为止有两条线,定位完全不同:

产品发布日定位API modelofox 状态
GPT-5.5 / GPT-5.5 Pro4-23thinking/agent 旗舰,1M 上下文openai/gpt-5.5openai/gpt-5.5-pro已上架
GPT-5.5 Instant5-5ChatGPT 默认对话模型chat-latest(别名)即将开放

旗舰那条之前我们拆过一遍——基座完整重训、Terminal-Bench 2.0 拿到 82.7%、价格翻倍到 $5/$30。今天是另一条线:Instant。OpenAI 自己的话是”hundreds of millions of people 每天用的 daily driver”。这一代不是用来做 agent 的,是用来”日常聊”的。

逻辑很清楚:旗舰打 benchmark、Instant 打留存。改进 Instant 的边际收益最大——日活几亿人,每个回答省 30% 字数,省下来的就是几亿人的注意力。把幻觉减半、把废话砍掉,比再涨几个点的 SWE-Bench 分对终端用户更切肤。

关键数字一次看完

指标改进幅度对照基线
高风险领域(医疗/法律/金融)幻觉率52.5%GPT-5.3 Instant
用户标记的事实错误对话↓ 37.3%GPT-5.3 Instant
回答字数↓ 30.2%GPT-5.3 Instant
回答行数↓ 29.2%GPT-5.3 Instant

数据来源:OpenAI 内部评估(官方公告)。

注意几个口径问题:

  1. 对照基线是 5.3 Instant,不是其他厂商。这是同一条产品线的内部代际改进,不是”打过 Claude Haiku”也不是”打过 Gemini Flash”。
  2. 52.5% 幻觉率下降的领域被特别标记为 medicine, law, finance——这三个领域的共性是用户问的问题往往有”标准答案”,模型说错了用户不一定立刻发现。Instant 在这种场景里把幻觉率减半,对要在客服、医患问诊、合规咨询场景部署 chat 类产品的人是实质利好。
  3. 37.3% 是”用户标记的事实错误对话”——OpenAI 拿了一批被用户实际投诉过的对话做评测集,5.5 Instant 在上面把错误率又往下压了三分之一。这是更接近真实分布的数据。

字数和行数的下降值得单独说。OpenAI 公告里给了一个职场建议的对比例子,同一个问题(“怎么跟唠叨的同事说让他闭嘴”),5.3 Instant 给了 5 条带”什么不要做”补充段的完整答案;5.5 Instant 给了 5 条更短的脚本,每条都是可以直接抄走的句子,没有”什么不要做”那段总结。前者更”全面”,后者更”用得上”。

不只是变短:5.5 Instant 真正在意的三件事

OpenAI 公告里强调的不是”更聪明”,是三件具体的事:

1. 事实更准

数学题的对照是这次最值得看的例子。题目是 √(x+7) = x-1 解 x。GPT-5.3 Instant 接到用户已经做完的解题过程后,先肯定”答案对了”,到检验阶段发现 x=3 不满足原方程时,得出”无实数解”的错误结论。GPT-5.5 Instant 也发现 x=3 失败,但它进一步回到代数步骤,找到原始解题里把 x²-2x+1 写成 x²-x+1 的算术错误,重新推导得出 x = (3+√33)/2。

这个例子的关键不是”做对了题”,是模型从自己的”已经认可”里翻盘的能力。前一代会在错误的轨道上继续到底;这一代会回头修原始算式。这种”recovery”对生产场景里的”我让 AI 帮我审 PR”或”AI 复核我的计算”类用法是质变。

2. 回答更短

OpenAI 描述 5.5 Instant”删除冗余、减少不必要的反问、避免堆 emoji”。在职场建议那个例子里,5.5 Instant 用了 30.2% 更少的字数和 29.2% 更少的行数交付同样的内容。

短不等于简陋——5.5 Instant 把”什么不要做”那段砍了,但 5.3 Instant 那段对建议本身没增加新信息,只是把已有建议反过来再说一遍。砍掉的都是”看起来更全面”的填充内容。

对开发者侧的影响:同样的 prompt,token 消耗大概率会下降。如果你在调 ChatGPT API 做客服或助手,按用量付费的成本曲线会跟着回答长度变化——这次升级是少见的”性能涨、用量降”的同向改动。

3. 更懂你

5.5 Instant 在用过往对话、文件、Gmail(如果你连接了)做上下文这件事上更主动。OpenAI 同时上线了 memory sources——回答下面会显示这次回答用了哪些 saved memory、哪些过往对话,可以删掉不想要的来源。

这个功能听上去像隐私强化,本质是”个性化更激进”的承诺:要让模型用更多上下文,前提是用户能看见用了什么、能撤回。Plus / Pro 用户先在 web 拿到,移动端”很快”,后续推到 Free / Go / Business / Enterprise。

API 端:chat-latest 是什么

公告原文:

rolling out… in the API as chat-latest

chat-latest 是 OpenAI 给”当前 ChatGPT 默认模型”的别名(alias)。它不是固定 model ID,而是一个动态指针:

  • 一周前:指向 gpt-5.3-instant
  • 现在:指向 gpt-5.5-instant
  • 半年后:可能指向更下一代

实际工程取舍很简单:

场景用什么
想”始终跟 ChatGPT 默认走”,不操心升级chat-latest 别名
实验复现、行为可预测、合规留痕具体版本号 gpt-5.5-instant
生产端需要 SLA、要 grandfather 锁定行为显式 pin 到版本号

chat-latest 写到生产环境前要意识到一件事:模型行为会在没有通知的情况下变。如果你的回归测试、提示工程、甚至下游格式解析依赖具体输出风格,pin 版本是更保守的选择。

ofox 上的当前局面

ofox 模型列表(截至撰文时),OpenAI 系列已上架:

  • GPT-5.5、GPT-5.5 Pro(4 月 23 日发的旗舰,已上架)
  • GPT-5.4、GPT-5.4 Pro / Mini / Nano
  • GPT-5.3 Chat、GPT-5.3 Codex

GPT-5.5 Instant(chat-latest)即将开放。在它上线之前,如果你的场景对”快+准”的平衡有要求,几个过渡选项:

  • GPT-5.4 Mini:低延迟、便宜,最接近”日常对话”那种用法
  • GPT-5.5 Thinking:能力更强、但贵 6 倍而且推理慢,不适合替 Instant 的位置
  • GPT-5.3 Chat:和 5.3 Instant 同代,知道 5.5 Instant 升了什么后再决定要不要继续用

我们会在 Instant 上架后更新本文,到时直接换 model ID 即可,base URL 不变。

该不该现在切?

这次升级的判断条件比”新旗舰”那种好做很多——大部分场景”切就对了”,少数场景需要特别小心:

直接切

  • 客服 / FAQ / 助手类产品,主流量来自普通用户对话——回答更短 + 幻觉更少基本是单向利好
  • 教育 / 辅导类应用,模型自我修正能力直接对应学生体验
  • 已经在用 5.3 Instant 但抱怨”太啰嗦”的产品

先 A/B 再切

  • 医疗 / 法律 / 金融类生产部署:52.5% 是 OpenAI 内部数据,独立 benchmark 没出,自己拿 100 条领域 prompt 跑一下 A/B 再决定
  • 输出风格对下游格式有依赖(如严格 JSON、固定段落数):5.5 Instant 默认更短,prompt 要不要重新调
  • 客户对”模型更换”有合规要求:3 个月窗口内可以慢慢切

暂时别切

  • 生产环境的回归测试套挂在 5.3 Instant 上、没有时间重跑——3 个月窗口够你慢慢迁
  • 重度依赖”上下文很长”的场景:Instant 系列本来就不是 1M 上下文路线,要长上下文请选 GPT-5.5 旗舰

一个被低估的细节:模型不再”瞎连搜索”

公告里有句容易被忽略的话:“better at deciding when to use web search”。

这件事对 RAG 应用很重要。前几代 ChatGPT 的搜索调用经常是”问什么都搜一下”,搜回来的网页质量参差不齐,反而拉低回答准确度。5.5 Instant 在”什么时候应该搜、什么时候直接答”上做了改进——这意味着把它接到自己的搜索/RAG 流水线里,不必要的搜索调用应该会下降,整体延迟和成本都跟着改善。

如果你的产品是”AI + 搜索”形态,这次升级可能比直接看到的数字更值。

几个常被问到的限定条件

  • 幻觉率比较是英文还是多语言? OpenAI 公告没具体说,但内部评估通常以英文为主。中文场景的幻觉率改进幅度可能比 52.5% 弱一些(Instant 系列不是为多语言专门优化的)。
  • Instant 还是 Thinking? 默认场景全部用 Instant;要做 agent、做长链推理、做难数学题,用 Thinking(即 gpt-5.5)。这两个不是替代关系,是分工。
  • chat-latest 价格是多少? OpenAI 没在公告里写定价,但 Instant 系列历来比 Thinking 便宜很多。具体数字 ofox 上线后会同步。
  • Memory sources 在 API 里有吗? 没有。Memory sources 是 ChatGPT 产品里的功能,API 直接调模型不带 ChatGPT 的 memory 系统。要做”记住用户偏好”的产品,自己存上下文。

OpenAI 把”几亿人每天用的模型”做了一次幻觉减半 + 字数砍 30% 的升级,这种改动比榜首多 3 分对真实世界的影响更大。GPT-5.5 Instant 不是新一代旗舰,但是 5.x 系列里第一个明确”为终端用户优化”而不是”为 benchmark 优化”的版本——值得花半天接进来跑一遍。