GPT-5.5 Instant 上线:ChatGPT 新默认模型,医疗法律幻觉率降 52.5%
先说结论 — OpenAI 5 月 5 日把 ChatGPT 默认模型从 GPT-5.3 Instant 换成 GPT-5.5 Instant,API 别名 chat-latest。这次升级的主线不是新能力,是”少出错、少废话、更懂你”——医疗/法律/金融领域幻觉率降 52.5%,回答字数缩 30.2%。和 4 月 23 日发的 GPT-5.5 旗舰是两条产品线,别搞混。ofox 即将开放支持。
这次发的不是新旗舰,是新默认值
GPT-5.5 这个系列到目前为止有两条线,定位完全不同:
| 产品 | 发布日 | 定位 | API model | ofox 状态 |
|---|---|---|---|---|
| GPT-5.5 / GPT-5.5 Pro | 4-23 | thinking/agent 旗舰,1M 上下文 | openai/gpt-5.5、openai/gpt-5.5-pro | 已上架 |
| GPT-5.5 Instant | 5-5 | ChatGPT 默认对话模型 | chat-latest(别名) | 即将开放 |
旗舰那条之前我们拆过一遍——基座完整重训、Terminal-Bench 2.0 拿到 82.7%、价格翻倍到 $5/$30。今天是另一条线:Instant。OpenAI 自己的话是”hundreds of millions of people 每天用的 daily driver”。这一代不是用来做 agent 的,是用来”日常聊”的。
逻辑很清楚:旗舰打 benchmark、Instant 打留存。改进 Instant 的边际收益最大——日活几亿人,每个回答省 30% 字数,省下来的就是几亿人的注意力。把幻觉减半、把废话砍掉,比再涨几个点的 SWE-Bench 分对终端用户更切肤。
关键数字一次看完
| 指标 | 改进幅度 | 对照基线 |
|---|---|---|
| 高风险领域(医疗/法律/金融)幻觉率 | ↓ 52.5% | GPT-5.3 Instant |
| 用户标记的事实错误对话 | ↓ 37.3% | GPT-5.3 Instant |
| 回答字数 | ↓ 30.2% | GPT-5.3 Instant |
| 回答行数 | ↓ 29.2% | GPT-5.3 Instant |
数据来源:OpenAI 内部评估(官方公告)。
注意几个口径问题:
- 对照基线是 5.3 Instant,不是其他厂商。这是同一条产品线的内部代际改进,不是”打过 Claude Haiku”也不是”打过 Gemini Flash”。
- 52.5% 幻觉率下降的领域被特别标记为 medicine, law, finance——这三个领域的共性是用户问的问题往往有”标准答案”,模型说错了用户不一定立刻发现。Instant 在这种场景里把幻觉率减半,对要在客服、医患问诊、合规咨询场景部署 chat 类产品的人是实质利好。
- 37.3% 是”用户标记的事实错误对话”——OpenAI 拿了一批被用户实际投诉过的对话做评测集,5.5 Instant 在上面把错误率又往下压了三分之一。这是更接近真实分布的数据。
字数和行数的下降值得单独说。OpenAI 公告里给了一个职场建议的对比例子,同一个问题(“怎么跟唠叨的同事说让他闭嘴”),5.3 Instant 给了 5 条带”什么不要做”补充段的完整答案;5.5 Instant 给了 5 条更短的脚本,每条都是可以直接抄走的句子,没有”什么不要做”那段总结。前者更”全面”,后者更”用得上”。
不只是变短:5.5 Instant 真正在意的三件事
OpenAI 公告里强调的不是”更聪明”,是三件具体的事:
1. 事实更准
数学题的对照是这次最值得看的例子。题目是 √(x+7) = x-1 解 x。GPT-5.3 Instant 接到用户已经做完的解题过程后,先肯定”答案对了”,到检验阶段发现 x=3 不满足原方程时,得出”无实数解”的错误结论。GPT-5.5 Instant 也发现 x=3 失败,但它进一步回到代数步骤,找到原始解题里把 x²-2x+1 写成 x²-x+1 的算术错误,重新推导得出 x = (3+√33)/2。
这个例子的关键不是”做对了题”,是模型从自己的”已经认可”里翻盘的能力。前一代会在错误的轨道上继续到底;这一代会回头修原始算式。这种”recovery”对生产场景里的”我让 AI 帮我审 PR”或”AI 复核我的计算”类用法是质变。
2. 回答更短
OpenAI 描述 5.5 Instant”删除冗余、减少不必要的反问、避免堆 emoji”。在职场建议那个例子里,5.5 Instant 用了 30.2% 更少的字数和 29.2% 更少的行数交付同样的内容。
短不等于简陋——5.5 Instant 把”什么不要做”那段砍了,但 5.3 Instant 那段对建议本身没增加新信息,只是把已有建议反过来再说一遍。砍掉的都是”看起来更全面”的填充内容。
对开发者侧的影响:同样的 prompt,token 消耗大概率会下降。如果你在调 ChatGPT API 做客服或助手,按用量付费的成本曲线会跟着回答长度变化——这次升级是少见的”性能涨、用量降”的同向改动。
3. 更懂你
5.5 Instant 在用过往对话、文件、Gmail(如果你连接了)做上下文这件事上更主动。OpenAI 同时上线了 memory sources——回答下面会显示这次回答用了哪些 saved memory、哪些过往对话,可以删掉不想要的来源。
这个功能听上去像隐私强化,本质是”个性化更激进”的承诺:要让模型用更多上下文,前提是用户能看见用了什么、能撤回。Plus / Pro 用户先在 web 拿到,移动端”很快”,后续推到 Free / Go / Business / Enterprise。
API 端:chat-latest 是什么
公告原文:
rolling out… in the API as chat-latest
chat-latest 是 OpenAI 给”当前 ChatGPT 默认模型”的别名(alias)。它不是固定 model ID,而是一个动态指针:
- 一周前:指向
gpt-5.3-instant - 现在:指向
gpt-5.5-instant - 半年后:可能指向更下一代
实际工程取舍很简单:
| 场景 | 用什么 |
|---|---|
| 想”始终跟 ChatGPT 默认走”,不操心升级 | chat-latest 别名 |
| 实验复现、行为可预测、合规留痕 | 具体版本号 gpt-5.5-instant |
| 生产端需要 SLA、要 grandfather 锁定行为 | 显式 pin 到版本号 |
把 chat-latest 写到生产环境前要意识到一件事:模型行为会在没有通知的情况下变。如果你的回归测试、提示工程、甚至下游格式解析依赖具体输出风格,pin 版本是更保守的选择。
ofox 上的当前局面
按 ofox 模型列表(截至撰文时),OpenAI 系列已上架:
- GPT-5.5、GPT-5.5 Pro(4 月 23 日发的旗舰,已上架)
- GPT-5.4、GPT-5.4 Pro / Mini / Nano
- GPT-5.3 Chat、GPT-5.3 Codex
GPT-5.5 Instant(chat-latest)即将开放。在它上线之前,如果你的场景对”快+准”的平衡有要求,几个过渡选项:
- GPT-5.4 Mini:低延迟、便宜,最接近”日常对话”那种用法
- GPT-5.5 Thinking:能力更强、但贵 6 倍而且推理慢,不适合替 Instant 的位置
- GPT-5.3 Chat:和 5.3 Instant 同代,知道 5.5 Instant 升了什么后再决定要不要继续用
我们会在 Instant 上架后更新本文,到时直接换 model ID 即可,base URL 不变。
该不该现在切?
这次升级的判断条件比”新旗舰”那种好做很多——大部分场景”切就对了”,少数场景需要特别小心:
直接切
- 客服 / FAQ / 助手类产品,主流量来自普通用户对话——回答更短 + 幻觉更少基本是单向利好
- 教育 / 辅导类应用,模型自我修正能力直接对应学生体验
- 已经在用 5.3 Instant 但抱怨”太啰嗦”的产品
先 A/B 再切
- 医疗 / 法律 / 金融类生产部署:52.5% 是 OpenAI 内部数据,独立 benchmark 没出,自己拿 100 条领域 prompt 跑一下 A/B 再决定
- 输出风格对下游格式有依赖(如严格 JSON、固定段落数):5.5 Instant 默认更短,prompt 要不要重新调
- 客户对”模型更换”有合规要求:3 个月窗口内可以慢慢切
暂时别切
- 生产环境的回归测试套挂在 5.3 Instant 上、没有时间重跑——3 个月窗口够你慢慢迁
- 重度依赖”上下文很长”的场景:Instant 系列本来就不是 1M 上下文路线,要长上下文请选 GPT-5.5 旗舰
一个被低估的细节:模型不再”瞎连搜索”
公告里有句容易被忽略的话:“better at deciding when to use web search”。
这件事对 RAG 应用很重要。前几代 ChatGPT 的搜索调用经常是”问什么都搜一下”,搜回来的网页质量参差不齐,反而拉低回答准确度。5.5 Instant 在”什么时候应该搜、什么时候直接答”上做了改进——这意味着把它接到自己的搜索/RAG 流水线里,不必要的搜索调用应该会下降,整体延迟和成本都跟着改善。
如果你的产品是”AI + 搜索”形态,这次升级可能比直接看到的数字更值。
几个常被问到的限定条件
- 幻觉率比较是英文还是多语言? OpenAI 公告没具体说,但内部评估通常以英文为主。中文场景的幻觉率改进幅度可能比 52.5% 弱一些(Instant 系列不是为多语言专门优化的)。
- Instant 还是 Thinking? 默认场景全部用 Instant;要做 agent、做长链推理、做难数学题,用 Thinking(即
gpt-5.5)。这两个不是替代关系,是分工。 - chat-latest 价格是多少? OpenAI 没在公告里写定价,但 Instant 系列历来比 Thinking 便宜很多。具体数字 ofox 上线后会同步。
- Memory sources 在 API 里有吗? 没有。Memory sources 是 ChatGPT 产品里的功能,API 直接调模型不带 ChatGPT 的 memory 系统。要做”记住用户偏好”的产品,自己存上下文。
OpenAI 把”几亿人每天用的模型”做了一次幻觉减半 + 字数砍 30% 的升级,这种改动比榜首多 3 分对真实世界的影响更大。GPT-5.5 Instant 不是新一代旗舰,但是 5.x 系列里第一个明确”为终端用户优化”而不是”为 benchmark 优化”的版本——值得花半天接进来跑一遍。


