GLM 5.2 是免费的吗？

不是。Z.ai Coding Plan 上的托管版本最低约 $10/月（Lite 档），需要等 Coding Plan API 在 2026 年 6 月 22 日那周开放后才能开通。MIT 开源权重按计划在同一周登陆 Hugging Face 的 zai-org 组织。自托管不需付许可费，但要自己承担 GPU 账单（HF 官方 model card 现已确认 GLM 5.2 是 753B 总参数的 MoE；智谱未单独公布激活参数量）。

GLM 5.2 能配合 Claude Code 使用吗？

可以，前提是 Coding Plan API 在 2026 年 6 月 22 日那周开放之后。Z.ai 在 `https://api.z.ai/api/anthropic` 暴露了一个专门给 Claude Code 用的 Anthropic 兼容 endpoint，另外在 `https://api.z.ai/api/coding/paas/v4` 提供 OpenAI 兼容 endpoint 给发布公告里另外七个客户端（Cline、OpenCode、Roo Code、Goose、Crush、OpenClaw、Kilo Code）。Claude Code 设置 `ANTHROPIC_BASE_URL` 和 `ANTHROPIC_AUTH_TOKEN`；其他客户端设置 `OPENAI_BASE_URL` 和 `OPENAI_API_KEY`。endpoint 路径是发布公告里已列出的，dashboard 上线前都按暂定对待。

1M token 的上下文窗口实际有多大？

输入最多 1,000,000 token，输出最多 131,072 token。这大致相当于一个中型 monolith 项目源码加测试一次塞进去，但真正的瓶颈是你的延迟预算 —— 长上下文调用首 token 延迟更高，即便走托管 Coding Plan 单次成本也更高。

GLM 5.2 发布 SWE-bench 或 LiveCodeBench 成绩了吗？

没有。截至 2026 年 6 月 14 日 —— 发布后 24 小时 —— 智谱尚未公布 SWE-bench Verified、LiveCodeBench、HumanEval 或 Aider polyglot 任何一项结果。独立第三方 benchmark 也还没出。在 benchmark 数字落地前，任何声称 GLM 5.2「超过 Claude」的说法都属于未经验证。

MIT 权重什么时候、在哪里发布？

智谱发布博文写的是从 6 月 13 日算起的「下周」—— 也就是 2026 年 6 月 22 日那一周（与 Z.ai Coding Plan API 开放是同一窗口）。关注 huggingface.co/zai-org 上的 GLM-5.2 仓库。MIT 许可意味着商业使用、修改和再分发都允许。

能在 ofox 上调用 GLM 5.2 吗？

写作时还不能。ofox 模型目录（2026 年 6 月 15 日对照 ofox.ai/en/models 核对）已收录 DeepSeek V4 Pro、Kimi K2.6 和 Qwen3 Coder Next 等托管型中文 coding 替代方案，但 GLM 5.2 暂未上架。如果你现在就想用单一 OpenAI 兼容 endpoint 接入托管型中文 coding 模型，DeepSeek V4 Pro 是最接近的替代。

GLM 5.2 的「High」和「Max」思考档位有什么区别？

智谱只提供 High 和 Max 两个思考预设 —— 没有其他推理模型那种 Low / Auto 档。Max 消耗更多思考 token，针对多小时的 agentic 重构场景；High 是常规 coding 轮次的默认档。档位选择不会改变权重，只改变推理预算。

本地跑 GLM 5.2 权重能比 Coding Plan 省钱吗？

只有非常高的用量下才划算。HF 官方 model card 确认 GLM 5.2 是 753B 总参数的 MoE（激活参数量未单独公布），这个体量超出单卡推理能力，全精度生产吞吐至少需要 8 张 H100 或等效配置。在每周 ~3,000 次 prompt 以下，Coding Plan 的 $30/月 Pro 档比自托管节点的电费加折旧更划算。

GLM 5.2 接入教程（2026 最新）：API 配置、定价与免费开源权重

智谱一次宣布里塞下了三件事：1M token 上下文窗口、MIT 许可的开源权重、$10/月起价 —— 而且模型本身是前沿级 coding 模型。Z.ai Coding Plan API 和 MIT 权重都在 2026 年 6 月 22 日那周开放。如果你一直在等一个真能 fork 的开源权重 Claude Code 替代品，接下来这七天就是读完本文、敲定档位、预先 stage 客户端配置的窗口 —— 让你在 key 上线那天就能接好。

为什么是现在：反叙事窗口正在打开

GLM 5.2 不是凭空落地的。它发布前后 24 小时的事件，是本文存在的原因 —— 也是「该不该切？」对部分读者不再是个假设性问题的原因。

2026 年 6 月 12 日 —— Anthropic 接到美国商务部出口管制指令，限制外籍人士（在美境内外）访问 Claude Fable 5 和 Mythos 5。触发原因是经由 Amazon 报告的一项安全发现：CEO Andy Jassy 将 jailbreak 研究升级到了行政高层，包括财政部长 Scott Bessent（Fortune、Semafor）。Anthropic 没有选择推出仅限美国版本，而是把这两个模型从公共可用名单中撤下。

2026 年 6 月 13 日 —— 也就是 Anthropic 撤回登上新闻周期的同一天 —— 智谱发布 GLM 5.2。GLM 团队负责人、清华大学的唐杰发了一条 X：「GLM-5.2 is Fully Open, Frontier Intelligence Belongs to Everyone」，把发布定调为正面回应：「某些前沿模型突然受限令人深感遗憾……前沿模型的访问因非技术原因被骤然切断」（Jie Tang on X, June 13）。这条帖子传开了 —— 36 小时内大约 89.8 万次浏览，登上 Hacker News 首页。

一方	动作	时间
美方（商务部 + Anthropic）	出口管制指令 → Anthropic 撤下 Fable 5 + Mythos 5 公共可用版本	6 月 12 日通知，6 月 13 日公开，2026
中方（智谱）	发布 GLM 5.2，宣布 7 日内开源 MIT 权重	2026 年 6 月 13 日
公共信号	唐杰推文 —— 约 89.8 万次浏览，Hacker News 首页	2026 年 6 月 13–15 日

有一处细节值得说清楚：Fable 5 不是被 Anthropic deprecate、sunset 或退役了。它是在美方出口管制令下被撤回，而 Anthropic 公开质疑了触发该指令的 jailbreak 发现的严重性（Tom’s Hardware）。如果你在别处写或读到「Anthropic 关停了 Fable」这种说法，叙事是错的。

对多数读者来说这层地缘背景无关紧要 —— coding 模型按价格和 benchmark 选就行。但接下来 30 天里有三件具体的事会变，决定本文剩余部分对你是否有价值：

对冲价值：如果你的团队在用 Claude Fable 做 coding 工作流且你身处美国境外，GLM 5.2 是第一个有许可（MIT，下周开权重）让你 fork 自托管的前沿级 coding 模型。「开源权重作为政治保险」不再是抽象说法。
价格压力：开源权重前沿模型给托管订阅价格设置了天花板。预计 Anthropic、OpenAI 和 Google 会在 60 天内放松 coding-plan 档位 —— 不论 GLM 5.2 的 benchmark 是否真的有竞争力。
工具链对齐：Z.ai 在发布当天就提供了 Claude Code drop-in 支持（专用 /api/anthropic endpoint，下文 Drop-in 章节有详述）。2026 年标准 coding CLI 工作流不再被锁死在单一模型家族。

如果上面三条都不适用，跳到配置章节。如果有一条适用，本文剩余部分就是操作路径：在 Z.ai API 于 6 月 22 日那周开放后 10 分钟接入、Claude Code drop-in 替换、以及同一周 MIT 权重落地后的自托管计划。

关于可用性的说明（请先读）

智谱 2026 年 6 月 13 日的发布是公告 + 文档，不是一个当天就能登入的 dashboard。两个访问面会在 Z.ai 下一轮发布波次中开放：

Z.ai Coding Plan API —— 2026 年 6 月 22 日那周开放。账号创建、Coding Plan 档位选择、API key 发放，以及 /api/anthropic 和 /api/coding/paas/v4 两个 endpoint 都会在那个窗口上线。在那之前，本文里的 endpoint URL 是发布公告里已列出的；在你能真正打中之前都按暂定对待。
MIT 开源权重 —— 同一周在 huggingface.co/zai-org/GLM-5.2 下发布。HF 仓库当前只是占位；确认架构的 config.json 和 BF16 / FP8 shard 会按这个时间窗落地。

本文结构是让你这一周做规划（选档位、预先 stage 环境变量、决定 drop-in 还是从零装），等 API 那天用 ~10 分钟跑完配置。如果你今天就要能跑的东西，跳到替代方案章节 —— ofox 已经在单一 endpoint 上提供 DeepSeek V4 Pro / Kimi K2.6 / Qwen3 Coder Next。

GLM 5.2 给你什么（30 秒答案）

项目	说明
今天能做（2026 年 6 月 13–21 日）	读完本指南、选 Coding Plan 档位、预先 stage `~/.claude/settings.json` 或 `OPENAI_BASE_URL` 环境变量，并在 `z.ai` 上能注册时排上 waitlist
API 开放后能做（2026 年 6 月 22 日那周）	通过 Z.ai 托管 Coding Plan，在 Claude Code、Cline、OpenCode、OpenClaw、Goose、Crush、Roo Code 或 Kilo Code 里调 GLM 5.2；从 `huggingface.co/zai-org` 自托管 MIT 许可的权重（按 HF 官方 model card 是 753B 总参数的 MoE）
key 上线后首次调用耗时	约 10 分钟（注册 → API key → CLI 配置 → smoke test）
最低成本	约 $10/月 Lite 档；约 $30/月 Pro 档支持每周约 2,000 次 prompt
你需要	一个 Z.ai 账号，一个 OpenAI 兼容 coding 客户端（或任何支持自定义 `base_url` 的工具），以及给第一次长上下文调用留 8 GB 的耐心
暂时做不到	引用 SWE-bench 数字（智谱没公布），用 5 档思考预设（只有 High 和 Max），或通过 ofox 直接拉权重（DeepSeek V4 Pro 是最接近的托管替代）

决策框架：什么时候 GLM 5.2 值得你花时间配置

先用这一节决定要不要读下去。

该用 GLM 5.2 的场景

你在 monolith 项目里做多文件重构，已经反复撞上其他 coding agent 的 200K 上下文上限
合规团队要求开源、可审计的模型权重 —— MIT 是 LLM 领域最友好的开源许可之一
你想用一个中国出身的 coding 模型对冲美方接入限制 —— GLM 5.2 发布的当天，Anthropic 因美国商务部出口管制指令撤下了 Claude Fable 5 + Mythos 5（上文为什么是现在有完整时间线）

不该用 GLM 5.2 的场景

你需要在交付到生产团队前看到公开 benchmark。截至 2026 年 6 月 14 日，智谱尚未发布 SWE-bench、LiveCodeBench 或 Aider 任何数字 —— 独立 benchmark 至少还要等几天
你已经付费用 Sonnet/Opus 跑 Claude Code，没有具体痛点要 GLM 来解。切换成本（工具配置、prompt 重调、eval 重跑）不会因为每月省 $10 而划算 —— 除非上下文窗口真的是瓶颈
你想要一个统一托管的 endpoint，能用一把 API key 同时调 GLM、GPT-5.5 和 Claude Opus 4.8。GLM 5.2 暂未上 ofox（2026 年 6 月 15 日核对）—— 如果 endpoint 收敛比这个具体模型更重要，见替代方案章节

退出规则

如果你过去 30 天在真实任务里从没撞上 200K token 上下文上限，你不需要 GLM 5.2。停下来，等智谱发布 benchmark 或 ofox 上架 —— 看哪个先来。

系统要求

开始配置前先确认：

一个 Z.ai 账号，绑定付款方式（Coding Plan 按月计费，USD 或 RMB）
一个 OpenAI 兼容 coding CLI —— 以下之一：Claude Code v0.x、Cline ≥ 3.x、OpenCode、Roo Code、Goose、Crush、OpenClaw、Kilo Code。每个都支持自定义 base_url 和模型名覆盖
能访问 api.z.ai —— 用 curl -I https://api.z.ai/api/paas/v4/ 验证（应得到 HTTP 响应，而不是连接错误）
一个 repo 的 side branch 用于首次跑。长上下文 coding agent 在 prompt 含糊时聪明到会删无关文件 —— 第一天绝不要指向 main

如果你想在权重于 2026 年 6 月 22 日那周开放时自托管，额外要求：

8 张 H100 80GB 或等效配置用于全精度生产吞吐。HF 官方 model card 确认 GLM 5.2 是 753B 总参数的 MoE（激活参数量未单独公布）。社区已有低显存 GGUF 量化（2-bit 到 4-bit）可在单机推理
vLLM 或 SGLang 作为推理服务（社区示例会在 HF 仓库出现；上线后看 huggingface.co/zai-org/GLM-5.2）
权重 shard 的磁盘空间 —— 如果 GLM-5 家族形态成立，估算 BF16 约 1.5 TB、FP8 约 860 GB；在 HF 仓库确认前，这是规划占位数字而非采购数字

分步配置（托管，约 10 分钟 — API 开放后）

Z.ai Coding Plan API 在 2026 年 6 月 22 日那周开放。下面第 1–4 步会在 dashboard 上线那天用 ~10 分钟跑完；在那之前，你可以预先 stage CLI 配置（第 3 步），并在 z.ai 上能注册时排上 waitlist。

flowchart LR
  A[注册 Z.ai] --> B[选 Coding Plan 档位]
  B --> C[生成 API key]
  C --> D[配置 CLI base_url + 模型名]
  D --> E[首次 smoke test]
  E --> F[接入 repo，跑真实任务]

第 1 步：注册 Z.ai Coding Plan（开放后）

去 https://z.ai 创建账号。选一个 Coding Plan 档位：

档位	大约价格	配额	适合场景
Lite	约 $10/月	每周约 400 prompt	个人折腾、轻量副项目
Pro	约 $30/月	每周约 2,000 prompt	独立开发者、日常 coding agent 使用
Max	约 $80/月	每周约 8,000 prompt	重度 agentic 重构、多小时自动跑
Team	按席位	组织内共享池	3 人以上开发团队共享配额

预期结果：账号 dashboard 出现「Coding Plan」条目，显示档位和剩余配额。

第 2 步：生成 API key

在 Z.ai dashboard 里打开 API Keys → Create new key。范围限定到「Coding Plan」 —— Z.ai 还暴露其他付费 endpoint（通用 chat、视觉），它们共用钱包但不应共用同一把 key。

export ZAI_API_KEY="zai-..."

预期结果：以 zai- 开头的 key。放进 shell 密钥文件或 1Password —— Z.ai 完整 key 只会显示一次。

第 3 步：配置 coding CLI

Z.ai 暴露两个兼容 endpoint，按客户端类型选。Claude Code 说 Anthropic 协议；其他七个发布日客户端（Cline、OpenCode、Roo Code、Goose、Crush、OpenClaw、Kilo Code）说 OpenAI chat-completions 形态。

Claude Code（Anthropic 兼容 endpoint） —— 最小配置是 shell 环境变量或 ~/.claude/settings.json 里的 env 块，详见下文 Claude Code Drop-in 替换章节。那一节也列了哪些东西原样可用（CLAUDE.md、slash command、subagent）哪些会变（思考预设、tool-result 桥接） —— 提交前先读完再粘。

OpenAI 兼容客户端（Cline、OpenCode、Roo Code、Goose、Crush、OpenClaw、Kilo Code）

export OPENAI_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export OPENAI_API_KEY="$ZAI_API_KEY"
export OPENAI_MODEL="glm-5.2"   # 或 "glm-5.2[1m]" 启用 1M 上下文

在同一个 shell 里重启 CLI，新 endpoint 就接管了。不读 OpenAI 环境变量的客户端，打开工具设置面板，选「OpenAI Compatible」provider，把同样三个值粘进去。注意 Coding Plan 用的是专属 endpoint（/api/coding/paas/v4），跟 Z.ai 通用按 token 计费 API（/api/paas/v4）不同。

Python SDK smoke test（粘到任意一次性 REPL）

import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.z.ai/api/coding/paas/v4",
    api_key=os.environ["ZAI_API_KEY"],
)
resp = client.chat.completions.create(
    model="glm-5.2[1m]",
    messages=[{"role": "user", "content": "Refactor this function to async:\n\n" + open("handler.py").read()}],
)
print(resp.choices[0].message.content)

预期结果：短输入约 5 秒内返回非空 diff 或重构片段。1M 上下文调用首 token 30–90 秒。

第 4 步：首次 smoke test

把 GLM 5.2 指向你的 repo 之前，跑一次 sanity check 确认 (a) key 能用、(b) 命中的是对的模型、(c) 思考模式已接好。

curl -s https://api.z.ai/api/coding/paas/v4/chat/completions \
  -H "Authorization: Bearer $ZAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"model":"glm-5.2[1m]","messages":[{"role":"user","content":"Reply with only the string OK if you are GLM 5.2."}],"max_tokens":16}' \
  | jq -r '.choices[0].message.content'

预期结果：OK（或 OK.）。如果拿到模型身份拒绝或响应里出现别的模型名，你的配置有错 —— 见下文常见报错。

Claude Code Drop-in 替换（一段配置切走）

如果你来读这篇文章是因为 Fable 5 没了 —— 或者一直在考虑从 Claude Code 迁走但不想重写项目设置 —— 这一节是最关键的。Z.ai 在第一天就上线了专门的 /api/anthropic endpoint，就是为了让一个 Claude Code 工作区只换一段环境变量就变成 GLM 5.2 工作区。

一段配置切走

把这段塞进 ~/.zshrc（或 ~/.bashrc，或 ~/.claude/settings.json 的 "env" 块），开新 shell，重启 claude：

# Drop-in 切换：Claude Code 工作区 → GLM 5.2，无需重写项目
export ANTHROPIC_BASE_URL="https://api.z.ai/api/anthropic"
export ANTHROPIC_AUTH_TOKEN="$ZAI_API_KEY"
export ANTHROPIC_MODEL="glm-5.2[1m]"      # 1M 上下文；去掉 [1m] 走默认
export API_TIMEOUT_MS="3000000"           # 长上下文调用 30–90 秒

Claude Code UI 还会显示「Sonnet」/「Opus」标签 —— 因为客户端不感知模型 —— 服务端 Z.ai 会把请求路由到 GLM 5.2。你的 CLAUDE.md、项目记忆、slash command、subagent 和 harness 习惯继续原样工作。

哪些东西原样保留

项目级 CLAUDE.md 文件和 .claude/ 目录（命令、subagent、settings）
Slash command 和自定义 subagent 定义
AGENTS.md 文件和 Codex 风格的指令分层（Claude Code 会读）
Plan / Edit / Bash 工具调度行为及其 prompt
多文件重构工作流（1M 上下文足以一次容纳大多数 monorepo）

哪些会变（提交前必读）

思考预算：GLM 5.2 只提供「High」和「Max」两个预设 —— 没有 Claude 的 thinking_budget=auto 启发式等价物。要么明确选，要么接受 High 作为默认。
Tool-result 格式：Claude 期望 tool_result 块是特定形态。Z.ai 桥接处理了 95%+ 的常见 pattern，但在长 agentic loop 里偶尔会丢嵌套 content 块。如果你看到 assistant turn 反复发同一个 tool call 而不是 ack —— 那就是故障模式。退路是切到 OpenAI 兼容 endpoint（/api/coding/paas/v4），在那个工作流里用 Cline 或 OpenCode。
延迟特征：1M 上下文首 token 延迟 30–90 秒，对比 Claude 同等大小 prompt 的 5–15 秒。上面的 API_TIMEOUT_MS=3000000 是必须，不是可选 —— Claude Code 默认值会在长 Plan 模式调用时杀掉连接。
配额模型：你现在花的是 Coding Plan 配额，不是 Claude Plan 配额。在 Claude 那边几小时榨干周配额的 bursty agent loop 同样会榨干 Lite 档 —— 长期使用预算 Pro 或 Max。

选 drop-in 还是从零装 Cline

选 drop-in 切换	选从零装 Cline / OpenCode
你有 3 个以上 slash command、调过的 subagent、或迭代了几周的 `CLAUDE.md`	你在开新项目，没有 Claude Code 历史投资
团队已经在 Claude Code UI 上标准化，换工具意味着重新培训工程师	你其他工具链（lint、telemetry）说 OpenAI 风格请求
你想在不烧掉一个 sprint 日的前提下 A/B GLM 5.2 vs 现有 Claude 工作流	你撞上了上面的 tool-result 桥接问题，绕过比换工具更麻烦

回退路径（提交前先准备好）

unset ANTHROPIC_BASE_URL ANTHROPIC_AUTH_TOKEN ANTHROPIC_MODEL，重启 Claude Code。claude CLI 重新捡起 Anthropic 默认值。切换过程不动项目里任何状态 —— 完全在 shell 环境里。

配置时的常见报错

报错	可能原因	修复
`401 invalid_api_key`	Key 范围选错产品，或粘贴时带了空白字符	重新生成带「Coding Plan」范围；用不会被剥空白的剪贴板粘
调用 `glm-5.2` 或 `glm-5.2[1m]` 报 `model not found`	Z.ai 用 `glm-5.2` 表示标准上下文窗口，`[1m]` 后缀作为模型别名切到 1M 上下文配置	需要完整 1M 窗口用 `glm-5.2[1m]`；默认上下文用纯 `glm-5.2`。两个都是 Coding Plan endpoint 的合法 model ID
工作几分钟后 `429 Too Many Requests`	Lite 档配额（每周约 400 prompt）被 agent loop 烧光	升级到 Pro，或通过 `max_iterations` 减少 agent 迭代轮数
响应体为空，无报错	思考预算超过了 `max_tokens`	把 `max_tokens` 提到 ≥ 4096；思考模型先流式推理再回答
Tool-use 调用以 raw JSON 出现在 assistant 文本里	Z.ai OpenAI 兼容层在请求没带 `tools` 字段时不自动解析 tool_use	第一轮就传 `tools` 数组；或如果客户端支持改用 Anthropic 兼容 endpoint
多文件重构出现 504 / 超时	长上下文（>500K token）首 token 延迟超过客户端默认超时	把 CLI 的 `requestTimeoutMs` 调到 600000（10 分钟）应对 1M 上下文调用

团队 / 多开发者配置

3 个以上开发者要共享配额，Coding Plan 的 Team 档支持按席位池化 —— 但配置 pattern 跟独立开发者不一样：

每个开发者一把 API key，统一计费到组织钱包 —— 绝不要跨机器共用一把 key（这是把配额烧到追不到溯源最快的办法）
一个共享 .env.team 入私有 secrets repo，只包含 OPENAI_BASE_URL=https://api.z.ai/api/coding/paas/v4 和 OPENAI_MODEL=glm-5.2[1m] —— API key 不入 git
CI 里加预算护栏：让 coding agent 的 CI 步骤在单 PR completion token 超过 N 时中止（数字你定 —— 从 200K 起，到周五调）
配额可观测：Z.ai dashboard 显示每把 key 的用量；想程序化轮询，Coding Plan 在 https://api.z.ai/api/monitor/usage/quota/limit 暴露配额 endpoint，覆盖 5 小时 token 周期、周配额、月 MCP 用量 —— 拉进你现有可观测栈（Datadog、Honeycomb）

如果你的组织无法经由中国 API endpoint 路由（egress 管控、合规），实操 pattern 是把同样的 OpenAI 兼容配置镜像到另一个上游 —— 见替代方案。

进阶：MIT 开源权重计划

智谱发布公告里承诺了「下周」开放 MIT 许可权重 —— 也就是 2026 年 6 月 22 日那周，与 Z.ai Coding Plan API 开放是同一窗口。HF 组织是 huggingface.co/zai-org；跟踪 GLM-5.2 仓库等实际发布。

MIT 给你什么：

商业使用、修改、再分发 —— 没有用量上限，自托管后没有按 token 计费
微调权利 —— 你可以在自己的代码库上训 LoRA 或全量微调，并交付结果
Fork 权 —— 如果智谱关停了你依赖的功能（或者更可能，涨价），社区 fork 仍可继续运行

MIT 不给你什么：

推理算力的免费午餐。753B 总参数（按 HF 官方 model card）意味着全精度生产吞吐仍在 8 张 H100 量级，且强烈依赖量化质量
未来模型更新 —— MIT 发布是时点性的；GLM 5.3 可能开也可能不开
Anthropic 级别的安全调优 —— Z.ai 的 RLHF 是自家风格，拒绝边界会不同

多数团队的现实路径：接下来 30–60 天先用托管 Coding Plan，观察社区把权重量化成 4-bit 和 2-bit 变体，等单节点配置出现后再重评估自托管。

替代方案：ofox 上的托管开源权重 coding 模型

如果你想要单一 OpenAI 兼容 endpoint 已经覆盖托管型中文 coding 模型 —— 不想等 GLM 5.2 权重发布也不想自建 H100 集群 —— 截至 2026 年 6 月 15 日，ofox 上有三个不错的替代方案：

模型	ofox API ID	优势	什么时候比 GLM 5.2 更合适
DeepSeek V4 Pro	`deepseek/deepseek-v4-pro`	Coding 调优的旗舰，社区使用面广	你要的是有公开 benchmark 的模型（DeepSeek 有公开，GLM 5.2 暂无）
Qwen3 Coder Next	`bailian/qwen3-coder-next`	阿里最新 coding 专用档位，多语言代码	你交付的是中文/日文多语言代码库，想用阿里第一方 Qwen 支持
Kimi K2.6	`moonshotai/kimi-k2.6`	长上下文召回稳	你需要已经验证过的长上下文，不是「声称但未 benchmark」

任何一个都用跟 GLM 5.2 同样的配置形态接入 —— 只换 base URL 和模型 ID：

# 同样的 Cline / OpenCode 配置，换上游
export OPENAI_BASE_URL="https://api.ofox.ai/v1"
export OPENAI_MODEL="deepseek/deepseek-v4-pro"

这就是单 endpoint pattern：一把 key、多个模型、不用按厂商分别注册。当前定价和能力 flag 见 ofox 模型目录。GLM 5.2 上 ofox（暂未上 —— 2026 年 6 月 15 日核对）那天，你只需要改一个字符串就切走。

盯着 Z.ai 状态和配额

第一周要接两件事：

Z.ai 状态页 —— 注册当天就加书签；新产品头 30 天总会至少出一次 rate-limit 调参或配额计数 bug
PR 级用量埋点 —— 把每次 API 响应的 usage.total_tokens 打进你现有 PR 级遥测（Datadog、Honeycomb，自己选）。Coding agent 容易在兔子洞重构里漂移烧配额，唯一能在 PR 级别抓到这事的办法就是埋点

参考信息来源

Codersera：《GLM 5.2 Just Launched: 1M Context, Coding-First, Open Weights Next Week (Day-One Brief)》—— https://codersera.com/blog/glm-5-2-release-1m-context-coding-2026/
AI Weekly：《Zhipu Deploys GLM 5.2 to All GLM Coding Plan Tiers With 1M-Token Context》—— https://aiweekly.co/node/2946
Agent-Wars：《Zhipu ships GLM 5.2 with a 1M-token context and no benchmarks》—— https://agent-wars.com/news/2026-06-14-glm-5-2-million-token-context
ofox 模型目录快照 —— https://ofox.ai/en/models
权重 Hugging Face 组织 —— https://huggingface.co/zai-org （GLM-5.2 仓库截至 2026 年 6 月 15 日尚未发布）
唐杰 X —— “GLM-5.2 is Fully Open, Frontier Intelligence Belongs to Everyone” —— https://x.com/jietang/status/2065784751345287314 （2026 年 6 月 13 日；6 月 15 日约 89.8 万次浏览）
Fortune：《A warning from Amazon led the White House to shut down Anthropic’s Mythos model》—— https://fortune.com/2026/06/14/how-a-warning-from-amazon-led-the-white-house-to-shut-down-anthropics-mythos-model/
Semafor：《White House move to limit Anthropic linked to concerns about Chinese access to Mythos》—— https://www.semafor.com/article/06/13/2026/white-house-move-to-limit-anthropic-linked-to-concerns-about-chinese-access-to-mythos
Tom’s Hardware：美国政府警告 Anthropic Fable 5 被 jailbreak —— https://www.tomshardware.com/tech-industry/artificial-intelligence/trump-adviser-david-sacks-says-anthropic-refused-to-fix-fable-5-jailbreak-before-us-export-controls

这次发布真正不同的地方不是百万 token 上下文 —— Anthropic 和 Google 早就到位了。而是 GLM 5.2 是第一个前沿级 coding 模型，你能读权重、按 MIT 审计训练许可、在自己机器上跑 fork —— 同时在迁移期间不用放弃托管版本的亚秒级响应。接下来 30 天会告诉我们 benchmark 是否兑现宣传。