灰度发布从多少流量开始合适？

对外部用户场景，1% → 5% → 20% → 50% → 100% 是 2026 年主流配方。每一档至少观察 24 小时，关键业务路径建议拉到 72 小时。内部场景可以从 5% 起步，但务必先用 shadow mode 跑一遍，避免线上首次撞击就是真用户。

上游厂商已经 EOL 旧版本，但新版评测分更差怎么办？

三条路：一是先用 ofox 这类聚合网关把流量切到同代次的别家模型（比如 Claude Opus 4 今日 2026-06-15 EOL，预先切到 Opus 4.7 或 GPT-5.4 同档），二是给新版做 prompt 适配（旧版的 prompt 在新版未必最优），三是和厂商谈 enterprise extended support。最差的方案是装作没看见——EOL 当天 4xx 飙升才是真正的灾难。

A/B 比较和 canary 是同一件事吗？

不是。Canary 关心新版本是否稳定（崩不崩、贵不贵、慢不慢），A/B 关心新版本是否更好（用户更满意、转化更高、幻觉更少）。顺序是先 canary 跑稳，再放 A/B 比效果。直接上 A/B 等于把信号噪声和稳定性故障混在一起，拆不出原因。

ofox 这种聚合网关在版本治理里能帮到什么？

三个具体场景：① 一个 API key 同时挂多个版本，切换只改 model 字段而不改鉴权；② 跨厂商兜底——某家版本临时不稳时可以临时回退到同档的另一家；③ 用量按 model 维度聚合，便于按版本拉成本/QPS 曲线做 A/B 收益评估。但 ofox 不替你做评测和决策，治理决策还在你这边。

回滚到底要多快算合格？

工程上目标是 5 分钟内：从 PagerDuty 收到告警到流量 100% 回到旧版，途中只动一个 config 字段（流量分桶比例），不重启服务、不动鉴权、不改业务代码。真正难的不是切换动作，是触发条件——把『p99 涨 30%』『拒答率破阈值』『成本上涨 2x』这类规则提前写进监控，让回滚自动 fire 而不是等人盯。

企业级模型版本治理实战 2026：灰度发布、A/B 比较、回滚与生命周期

TL;DR — 光是 2026 年 5 月这一个月就有两件事提醒企业：OpenAI 5 月 8 日通知废弃 gpt-5.2-chat-latest 和 gpt-5.3-chat-latest 快照，Anthropic 4 月 14 日通告 Claude Opus 4 和 Sonnet 4 在 6 月 15 日下线。没有版本治理体系的团队，到那一天就是临时抢救；有体系的团队，提前两周完成迁移、灰度、回滚预案，平静过日。下文按四个支柱讲清楚怎么落地：灰度发布、A/B 比较、回滚机制、生命周期管理。

为什么 2026 年的企业必须严肃看待版本治理

过去两年很多团队把 LLM 接入当作”选个 model 字符串”，因为模型整体能力还在快速爬升，“换新版基本都是变好”。这个时代结束了。

第一，主流厂商进入硬性退役节奏。Anthropic 公开承诺至少提前 60 天通知模型 retire，但 60 天对企业落地不算长。OpenAI 退役更激进，gpt-4o 首发快照（2024-05-13）发布后约两年半就进入 shutdown 名单（2026-10-23）。Google 的 Gemini 系列每个小版本之间快照保留期也在收缩。

第二，新版未必更好。大模型每一代主要优化”中位用例”，但企业用例分布的尾部（长上下文、特定语种、结构化输出严格度、tool use 链路）经常在新版本上出现意外的回退。如果不做对照评测，新版上线后客诉变多，根因就找不到。

第三，“模型行为变更”是看不见的破坏者。同一个 model id 在版本内的小调整（safety tuning、tokenizer 微调、stop token 处理）有时不公告，但会让线上的 prompt 表现漂移。没有 evaluation 防线，这种漂移会被工程团队错误归因到自家代码。

合在一起，企业 LLM 链路的版本治理必须做到四件事：能渐进上线、能科学比较、能秒级回滚、能预知 EOL。

支柱一：灰度发布（Canary Deployment）

灰度发布的核心是把新版本的”风险敞口”控制在小流量内，先验证再放量。LLM 场景的灰度发布跟传统服务有几个独有的坑要避开。

流量分桶的工程化做法

主流配方是 1% → 5% → 20% → 50% → 100%，每一档至少观察 24 小时。这套数字不是拍脑袋，是社区在过去 18 个月真实事故里收敛出来的：1% 用来抓”启动期就崩”的硬故障，5% 用来识别尾部用例回退，20% 用来观察成本/延迟在更大并发下的真实形态。

工程实现上最容易被忽略的一点是 sticky bucketing：同一个用户在同一个 session 内必须命中同一个版本。LLM 输出有累积效应（对话上下文、记忆、工具调用链路），如果一个用户的第 3 轮对话突然切到另一个版本，结果是人格不一致、风格漂移，甚至 tool schema 兼容性直接挂掉。

实现 sticky bucketing 的常规做法是用 hash(user_id) % 100 落在哪个桶上决定走哪个版本，桶配置存在中央配置（feature flag service 或自家 config service），改桶位即时生效。

LLM 灰度必看的四类指标

不是把传统服务的 SLO 拿来照搬就够了，LLM 灰度要盯的指标分四类：

类别	关键指标	阈值参考
基础稳定性	4xx/5xx 率、p50/p95/p99 延迟	4xx ≤ 1%、p99 不超过基线 1.3x
成本	平均 token / 请求、单次成本	新版 vs 旧版偏差 ≤ 15%
输出质量	refuse rate、空回复率、长度分布漂移	拒答率涨幅 ≤ 2 个百分点
业务指标	转化、点击、用户满意度、人工评估通过率	至少不显著下降

p99 延迟单独说一句。LLM 的延迟分布天然长尾，重大版本切换时常常出现 p50/p95 平稳但 p99 翻倍的情况，通常是新版对长 prompt 的 token cache 命中策略变了。光看 p50 会错过这种问题。

Shadow Mode 是灰度的前置一步

很多团队跳过 shadow mode 直接 1% canary，这是 2026 年最常见的错。Shadow mode 是把请求复制一份发给新版本，但只用旧版本的回复给用户、新版的回复落日志做离线对比。优点是用户零风险，缺点是成本翻倍。对外部用户场景（C 端、付费 API），shadow mode 是动手 canary 之前的”试驾”，尤其是新厂商或者跨大版本（4.6 → 5.0 这种）时。

支柱二：A/B 比较——比较什么、怎么比

Canary 解决”会不会崩”，A/B 解决”哪个更好”。两件事完全不同，混在一起做意味着把噪声和信号搅到一起。

A/B 框架的最小可用版本

不必上 LangSmith、Arize、Helicone 这类重型平台。最小可用的 A/B 框架只需要：

离线 eval 数据集：从生产日志里采样 500–2000 条真实请求（脱敏后），加人工标注的”理想回复”或者打分维度（准确性、有用性、安全性）
双盲打分：让评估者（人工 + LLM 评委）看到的是匿名的 A/B 两份输出，不知道哪份来自哪个版本，避免锚定偏差
配对统计检验：用 paired t-test 或 Wilcoxon signed-rank test 算两个版本的差值是否显著，不是简单看均值

很多团队 A/B 跑了一周看新版分数高 3% 就准备全量切换，但没做统计显著性检验。3% 的差异在 500 样本上完全可能只是噪声。

LLM 评委的常见坑

用 GPT-5.4 或 Claude 4.6 当评委去给 A/B 输出打分（LLM-as-judge），是 2026 年的事实标准。但有两个坑要注意。

位置偏差。很多 LLM 评委倾向于第一个出现的答案。把 A/B 顺序随机化，或者跑两遍取均值。

风格偏差。LLM 评委偏好”看起来更长更详细”的答案，但用户实际上未必喜欢。最好在小样本（50 条左右）上同步跑人工评估做 sanity check，看 LLM 评委和人工的打分相关性是不是足够高。

在线 A/B vs 离线 eval

维度	离线 eval	在线 A/B
周期	小时级（一次跑完）	周级（要等用户行为信号）
成本	一次性 API 成本	持续双倍成本
可信度	取决于 eval 集质量	真实用户反馈
适用	模型筛选、prompt 调优	最终上线决策、业务指标验证

实践上的次序：离线 eval → shadow mode → canary → 在线 A/B → 全量。跳哪一步都有代价。

支柱三：回滚机制——速度比技巧更重要

回滚的工程目标只有一个：从告警触发到流量 100% 回到稳定版本，控制在 5 分钟内。围绕这个目标倒推，回滚机制必须满足三个性质。

单按钮回滚

切换动作越复杂，半夜 oncall 越容易出错。“单按钮回滚”是指：把”流量分桶比例”做成一个独立的、可热更新的配置项，不需要重启服务，不需要改鉴权 key，不需要改业务代码。

实现方式	切换延迟	适合规模
配置中心（Apollo、Nacos、Consul KV）	秒级	中大型
Feature flag service（LaunchDarkly、Statsig）	秒级	中大型
网关层 model routing（ofox、自建 API gateway）	秒级	任意
改代码 + 重新部署	分钟到小时级	不推荐

自动触发的告警规则

回滚速度的瓶颈往往不在切换动作，而在”什么时候开始切”。等人工发现问题再决策，平均要 30–90 分钟，足够把事故扩大十倍。把以下规则写进监控系统让它自动 fire：

p99 延迟连续 5 分钟超基线 1.5 倍。典型原因是新版 token cache 失效
4xx/5xx 率连续 3 分钟超 2%。常见 quota 配置不一致、tokenizer 不兼容
拒答率（refuse rate）单小时涨超 5 个百分点。新版 safety tuning 过严
平均 token 用量单小时涨超 30%。新版输出冗长，成本失控

每条规则触发后，先把灰度桶位回到上一个稳定档（从 50% 退到 20%），观察 5 分钟仍有问题则全量回滚。不要直接 100% → 0%，避免误杀。

兜底版本与同代切换

最难处理的情况是新版本有问题，但旧版本已经被厂商 EOL，回不去了。这时候需要事前准备一个”同代次兜底”。比如 Claude Opus 4 在 2026-06-15 EOL（这是 Anthropic 公开的真实退役日，不是假设），如果你还卡在 Opus 4 → Opus 4.6/4.7 的评估期，预先在网关里配好 GPT-5.4 同档作为兜底路由，真出事时一行配置切过去。

这是统一 API 聚合网关在企业架构里的核心价值：一个 key 同时挂多家，跨厂商兜底切换不需要重新分发 secret。

支柱四：版本生命周期管理

前三个支柱处理”事中”和”事后”，第四个支柱处理”事前”：把每个版本的状态、时间表、决策提前摆到桌面上。

一张版本生命周期表

每个上架的模型版本，至少要有这几列：

字段	说明
模型 ID	上游裸 ID 如 `claude-opus-4-7`、`gpt-5.4`、`gemini-3.1-pro`；ofox 调用前缀写成 `anthropic/claude-opus-4.7`、`openai/gpt-5.4`、`google/gemini-3.1-pro-preview`（带 provider 前缀和点）
厂商	Anthropic / OpenAI / Google / 国产厂商
当前状态	评估中 / Shadow / Canary / Active / Sunset / EOL
流量占比	当前线上分配比例
EOL 公告日期	厂商正式宣布退役的日期
EOL 实际日期	实际下线的日期
兜底版本	该版本 EOL 后切到哪
业务负责人	谁来推动迁移
上次评估日期	离线 eval 跑过的最近一次

这张表不复杂，但它是 EOL 提前预警的唯一可靠来源。每周自动跑一次脚本，把”距离 EOL ≤ 30 天”和”距离 EOL ≤ 60 天”的行高亮发到团队 IM。

状态机：每个版本只能在六个状态里走

评估中  →  Shadow  →  Canary  →  Active  →  Sunset  →  EOL
                                       ↓
                                   （新版本上 Canary 时
                                    旧版本进入 Sunset）

每个状态的进入和退出都要有明确条件，不要让版本卡在 Canary 三个月。那等于既没全量验证、又把成本和复杂度永久扛着。常见的进入条件：

Shadow → Canary：连续 7 天 shadow 输出与旧版的核心指标偏差 < 阈值
Canary → Active：在最大档（50%）观察 ≥ 7 天无告警，A/B 业务指标不下降
Active → Sunset：新版本进入 Canary 且通过初步验证
Sunset → EOL：流量降到 0% 已 ≥ 30 天，或厂商已正式 EOL

厂商 EOL 公告的监控自动化

厂商的 deprecation 页面是版本治理的关键情报源。Anthropic 的 deprecation 页（platform.claude.com/docs/en/about-claude/model-deprecations）、OpenAI 的 deprecation 页（developers.openai.com/api/docs/deprecations）、Google 的 Gemini 版本 release notes，建议用每日 cron 抓一次，diff 出新增的退役条目自动推送到团队 IM。

抓站点 diff 的轻量做法是把页面 HTML 简单 hash 一下落库，每天对比；进阶做法是用 LLM 把 diff 翻译成结构化的”新增退役项”通知。

ofox 在版本治理里的具体落地路径

ofox 是 LLM 聚合网关，在企业版本治理里能覆盖以下场景。

一个 API key 挂多版本，切换零成本。换 model 字段就是换版本，不用管多家厂商的鉴权、限流、计费三套系统。Canary 阶段直接在网关侧做流量分桶。

跨厂商兜底。前文说到 Claude Opus 4 即将 EOL 而新版未验证完时，可以临时把流量切到 GPT-5.4 或 Gemini 3.1 Pro 同档。聚合网关让”跨厂商切换”和”同厂商切版本”用同一套 routing 配置。

用量数据按版本聚合。看每个 model 的 QPS、token、成本、错误率，是 A/B 决策的事实底盘。ofox 提供按 model 维度的用量聚合视图，减少自家埋点工作量。

报错码统一。跨厂商的错误码经过聚合层标准化（参考 Claude/OpenAI/Gemini 报错排查手册），回滚触发规则可以用同一套 4xx/5xx 语义写，不必为 Anthropic 和 OpenAI 各写一份。

需要说明，ofox 不替团队做评测和治理决策，决策权和评测体系还在企业自己。聚合网关只是把”切换”的工程成本降到几乎为零，让灰度、A/B、回滚三个支柱可以专注在策略层而不是管道层。

常见陷阱清单

拿生产事故复现做 A/B：用过去三个月的事故请求重放给新版看会不会更好。这是反向选择，eval 集偏向旧版的弱项，结论不可外推
只看均值不看分位：新版平均延迟降 10%，但 p99 涨 80%，长尾用户体验崩了你看不见
canary 用员工流量：员工的 prompt 分布和真实用户差距很大，验证不出真实问题
回滚没演练：演练一次的成本远低于真出事时手忙脚乱的成本，建议每季度跑一次 chaos drill（参考企业 AI 链路 Failover 混沌演练）
不记录回滚原因：每次回滚后 5 分钟内必须有 root cause 记录，否则下一个新版上线还会踩同一个坑
EOL 日才切流量：厂商 EOL 当天的网关常常抖动，应该提前 7 天完成 100% 切换

写在最后

版本治理的本质是承认”模型不是基础设施而是产品”。它会发布、会迭代、会退役、会回退、会有 release notes 没说的 breaking change。把模型当 SQL 那样”一次接入用十年”是 2024 年的玩法，2026 年的工程师默认家里有 5 个版本同时在管。

灰度、A/B、回滚、生命周期不是四件孤立的工具，而是一个闭环：灰度让新版安全上线，A/B 让上线决策科学，回滚让事故损失可控，生命周期让长期演进可预期。任何一环缺位，企业 AI 链路的”模型治理债”都会在某次 EOL 那天集中清算。

如果还没开始建版本治理，最低成本的第一步是用一个共享文档建那张版本生命周期表：现在生产用的所有 model id、状态、EOL 日期、兜底方案。比起任何”模型治理平台”采购，这一步带来的收益最大。