GPT-5.5 Instant 和 GPT-5.5（旗舰）是同一个模型吗？

不是。GPT-5.5 / GPT-5.5 Pro 是 4 月 23 日发的 thinking/agent 旗舰，1M 上下文，价格 $5/$30。GPT-5.5 Instant 是 5 月 5 日发的 ChatGPT 默认对话模型，定位完全不同——前者打 benchmark 和 agent 任务，后者打几亿日活的日常对话。

API 里怎么调 GPT-5.5 Instant？

OpenAI 把它放在 chat-latest 别名上。chat-latest 不是固定 model ID，而是动态指向当前 ChatGPT 默认模型——一周前指 5.3 Instant，现在指 5.5 Instant。要可复现就用具体版本号 ID gpt-5.5-instant。

GPT-5.3 Instant 还能用吗？

付费用户还能用三个月，通过模型设置切回去。三个月后 OpenAI 会下线 5.3 Instant。免费用户会直接用上 5.5 Instant，没有切回选项。

ofox 什么时候上 GPT-5.5 Instant？

ofox 即将开放支持，关注 ofox.ai/models 列表。在它上架前可以先用 ofox 上已有的 GPT-5.4 Mini 或 GPT-5.5 Thinking 做过渡——前者性价比近，后者能力更强但贵。

幻觉率降 52.5% 是真实的吗？

是 OpenAI 内部评估在医疗、法律、金融三类高风险 prompt 上的对照数据，不是公开 benchmark。第三方独立评测还没出，企业生产部署前建议用自己的领域 prompt 跑一遍 A/B 再决定。

May 6, 2026

gpt-5-5openaichatgptmodel-releaseapi-access

GPT-5.5 Instant 上线：ChatGPT 新默认模型，医疗法律幻觉率降 52.5%

先说结论 — OpenAI 5 月 5 日把 ChatGPT 默认模型从 GPT-5.3 Instant 换成 GPT-5.5 Instant，API 别名 chat-latest。这次升级的主线不是新能力，是”少出错、少废话、更懂你”——医疗/法律/金融领域幻觉率降 52.5%，回答字数缩 30.2%。和 4 月 23 日发的 GPT-5.5 旗舰是两条产品线，别搞混。ofox 即将开放支持。

这次发的不是新旗舰，是新默认值

GPT-5.5 这个系列到目前为止有两条线，定位完全不同：

产品	发布日	定位	API model	ofox 状态
GPT-5.5 / GPT-5.5 Pro	4-23	thinking/agent 旗舰，1M 上下文	`openai/gpt-5.5`、`openai/gpt-5.5-pro`	已上架
GPT-5.5 Instant	5-5	ChatGPT 默认对话模型	`chat-latest`（别名）	即将开放

旗舰那条之前我们拆过一遍——基座完整重训、Terminal-Bench 2.0 拿到 82.7%、价格翻倍到 $5/$30。今天是另一条线：Instant。OpenAI 自己的话是”hundreds of millions of people 每天用的 daily driver”。这一代不是用来做 agent 的，是用来”日常聊”的。

逻辑很清楚：旗舰打 benchmark、Instant 打留存。改进 Instant 的边际收益最大——日活几亿人，每个回答省 30% 字数，省下来的就是几亿人的注意力。把幻觉减半、把废话砍掉，比再涨几个点的 SWE-Bench 分对终端用户更切肤。

关键数字一次看完

指标	改进幅度	对照基线
高风险领域（医疗/法律/金融）幻觉率	↓ 52.5%	GPT-5.3 Instant
用户标记的事实错误对话	↓ 37.3%	GPT-5.3 Instant
回答字数	↓ 30.2%	GPT-5.3 Instant
回答行数	↓ 29.2%	GPT-5.3 Instant

数据来源：OpenAI 内部评估（官方公告）。

注意几个口径问题：

对照基线是 5.3 Instant，不是其他厂商。这是同一条产品线的内部代际改进，不是”打过 Claude Haiku”也不是”打过 Gemini Flash”。
52.5% 幻觉率下降的领域被特别标记为 medicine, law, finance——这三个领域的共性是用户问的问题往往有”标准答案”，模型说错了用户不一定立刻发现。Instant 在这种场景里把幻觉率减半，对要在客服、医患问诊、合规咨询场景部署 chat 类产品的人是实质利好。
37.3% 是”用户标记的事实错误对话”——OpenAI 拿了一批被用户实际投诉过的对话做评测集，5.5 Instant 在上面把错误率又往下压了三分之一。这是更接近真实分布的数据。

字数和行数的下降值得单独说。OpenAI 公告里给了一个职场建议的对比例子，同一个问题（“怎么跟唠叨的同事说让他闭嘴”），5.3 Instant 给了 5 条带”什么不要做”补充段的完整答案；5.5 Instant 给了 5 条更短的脚本，每条都是可以直接抄走的句子，没有”什么不要做”那段总结。前者更”全面”，后者更”用得上”。

不只是变短：5.5 Instant 真正在意的三件事

OpenAI 公告里强调的不是”更聪明”，是三件具体的事：

1. 事实更准

数学题的对照是这次最值得看的例子。题目是 √(x+7) = x-1 解 x。GPT-5.3 Instant 接到用户已经做完的解题过程后，先肯定”答案对了”，到检验阶段发现 x=3 不满足原方程时，得出”无实数解”的错误结论。GPT-5.5 Instant 也发现 x=3 失败，但它进一步回到代数步骤，找到原始解题里把 x²-2x+1 写成 x²-x+1 的算术错误，重新推导得出 x = (3+√33)/2。

这个例子的关键不是”做对了题”，是模型从自己的”已经认可”里翻盘的能力。前一代会在错误的轨道上继续到底；这一代会回头修原始算式。这种”recovery”对生产场景里的”我让 AI 帮我审 PR”或”AI 复核我的计算”类用法是质变。

2. 回答更短

OpenAI 描述 5.5 Instant”删除冗余、减少不必要的反问、避免堆 emoji”。在职场建议那个例子里，5.5 Instant 用了 30.2% 更少的字数和 29.2% 更少的行数交付同样的内容。

短不等于简陋——5.5 Instant 把”什么不要做”那段砍了，但 5.3 Instant 那段对建议本身没增加新信息，只是把已有建议反过来再说一遍。砍掉的都是”看起来更全面”的填充内容。

对开发者侧的影响：同样的 prompt，token 消耗大概率会下降。如果你在调 ChatGPT API 做客服或助手，按用量付费的成本曲线会跟着回答长度变化——这次升级是少见的”性能涨、用量降”的同向改动。

3. 更懂你

5.5 Instant 在用过往对话、文件、Gmail（如果你连接了）做上下文这件事上更主动。OpenAI 同时上线了 memory sources——回答下面会显示这次回答用了哪些 saved memory、哪些过往对话，可以删掉不想要的来源。

这个功能听上去像隐私强化，本质是”个性化更激进”的承诺：要让模型用更多上下文，前提是用户能看见用了什么、能撤回。Plus / Pro 用户先在 web 拿到，移动端”很快”，后续推到 Free / Go / Business / Enterprise。

API 端：`chat-latest` 是什么

公告原文：

rolling out… in the API as chat-latest

chat-latest 是 OpenAI 给”当前 ChatGPT 默认模型”的别名（alias）。它不是固定 model ID，而是一个动态指针：

一周前：指向 gpt-5.3-instant
现在：指向 gpt-5.5-instant
半年后：可能指向更下一代

实际工程取舍很简单：

场景	用什么
想”始终跟 ChatGPT 默认走”，不操心升级	`chat-latest` 别名
实验复现、行为可预测、合规留痕	具体版本号 `gpt-5.5-instant`
生产端需要 SLA、要 grandfather 锁定行为	显式 pin 到版本号

把 chat-latest 写到生产环境前要意识到一件事：模型行为会在没有通知的情况下变。如果你的回归测试、提示工程、甚至下游格式解析依赖具体输出风格，pin 版本是更保守的选择。

ofox 上的当前局面

按 ofox 模型列表（截至撰文时），OpenAI 系列已上架：

GPT-5.5、GPT-5.5 Pro（4 月 23 日发的旗舰，已上架）
GPT-5.4、GPT-5.4 Pro / Mini / Nano
GPT-5.3 Chat、GPT-5.3 Codex

GPT-5.5 Instant（chat-latest）即将开放。在它上线之前，如果你的场景对”快+准”的平衡有要求，几个过渡选项：

GPT-5.4 Mini：低延迟、便宜，最接近”日常对话”那种用法
GPT-5.5 Thinking：能力更强、但贵 6 倍而且推理慢，不适合替 Instant 的位置
GPT-5.3 Chat：和 5.3 Instant 同代，知道 5.5 Instant 升了什么后再决定要不要继续用

我们会在 Instant 上架后更新本文，到时直接换 model ID 即可，base URL 不变。

该不该现在切？

这次升级的判断条件比”新旗舰”那种好做很多——大部分场景”切就对了”，少数场景需要特别小心：

直接切

客服 / FAQ / 助手类产品，主流量来自普通用户对话——回答更短 + 幻觉更少基本是单向利好
教育 / 辅导类应用，模型自我修正能力直接对应学生体验
已经在用 5.3 Instant 但抱怨”太啰嗦”的产品

先 A/B 再切

医疗 / 法律 / 金融类生产部署：52.5% 是 OpenAI 内部数据，独立 benchmark 没出，自己拿 100 条领域 prompt 跑一下 A/B 再决定
输出风格对下游格式有依赖（如严格 JSON、固定段落数）：5.5 Instant 默认更短，prompt 要不要重新调
客户对”模型更换”有合规要求：3 个月窗口内可以慢慢切

暂时别切

生产环境的回归测试套挂在 5.3 Instant 上、没有时间重跑——3 个月窗口够你慢慢迁
重度依赖”上下文很长”的场景：Instant 系列本来就不是 1M 上下文路线，要长上下文请选 GPT-5.5 旗舰

一个被低估的细节：模型不再”瞎连搜索”

公告里有句容易被忽略的话：“better at deciding when to use web search”。

这件事对 RAG 应用很重要。前几代 ChatGPT 的搜索调用经常是”问什么都搜一下”，搜回来的网页质量参差不齐，反而拉低回答准确度。5.5 Instant 在”什么时候应该搜、什么时候直接答”上做了改进——这意味着把它接到自己的搜索/RAG 流水线里，不必要的搜索调用应该会下降，整体延迟和成本都跟着改善。

如果你的产品是”AI + 搜索”形态，这次升级可能比直接看到的数字更值。

几个常被问到的限定条件

幻觉率比较是英文还是多语言？ OpenAI 公告没具体说，但内部评估通常以英文为主。中文场景的幻觉率改进幅度可能比 52.5% 弱一些（Instant 系列不是为多语言专门优化的）。
Instant 还是 Thinking？ 默认场景全部用 Instant；要做 agent、做长链推理、做难数学题，用 Thinking（即 gpt-5.5）。这两个不是替代关系，是分工。
chat-latest 价格是多少？ OpenAI 没在公告里写定价，但 Instant 系列历来比 Thinking 便宜很多。具体数字 ofox 上线后会同步。
Memory sources 在 API 里有吗？ 没有。Memory sources 是 ChatGPT 产品里的功能，API 直接调模型不带 ChatGPT 的 memory 系统。要做”记住用户偏好”的产品，自己存上下文。

OpenAI 把”几亿人每天用的模型”做了一次幻觉减半 + 字数砍 30% 的升级，这种改动比榜首多 3 分对真实世界的影响更大。GPT-5.5 Instant 不是新一代旗舰，但是 5.x 系列里第一个明确”为终端用户优化”而不是”为 benchmark 优化”的版本——值得花半天接进来跑一遍。