GLM 5.2 接入指南:定价、API 配置与 MIT 开源权重计划(2026)
(updated )

GLM 5.2 接入指南:定价、API 配置与 MIT 开源权重计划(2026)

智谱一次宣布里塞下了三件事:1M token 上下文窗口、MIT 许可的开源权重、$10/月起价 —— 而且模型本身是前沿级 coding 模型。Z.ai Coding Plan API 和 MIT 权重都在 2026 年 6 月 22 日那周开放。如果你一直在等一个真能 fork 的开源权重 Claude Code 替代品,接下来这七天就是读完本文、敲定档位、预先 stage 客户端配置的窗口 —— 让你在 key 上线那天就能接好。

为什么是现在:反叙事窗口正在打开

GLM 5.2 不是凭空落地的。它发布前后 24 小时的事件,是本文存在的原因 —— 也是「该不该切?」对部分读者不再是个假设性问题的原因。

2026 年 6 月 12 日 —— Anthropic 接到美国商务部出口管制指令,限制外籍人士(在美境内外)访问 Claude Fable 5 和 Mythos 5。触发原因是经由 Amazon 报告的一项安全发现:CEO Andy Jassy 将 jailbreak 研究升级到了行政高层,包括财政部长 Scott Bessent(FortuneSemafor)。Anthropic 没有选择推出仅限美国版本,而是把这两个模型从公共可用名单中撤下。

2026 年 6 月 13 日 —— 也就是 Anthropic 撤回登上新闻周期的同一天 —— 智谱发布 GLM 5.2。GLM 团队负责人、清华大学的唐杰发了一条 X:「GLM-5.2 is Fully Open, Frontier Intelligence Belongs to Everyone」,把发布定调为正面回应:「某些前沿模型突然受限令人深感遗憾……前沿模型的访问因非技术原因被骤然切断」Jie Tang on X, June 13)。这条帖子传开了 —— 36 小时内大约 89.8 万次浏览,登上 Hacker News 首页。

一方动作时间
美方(商务部 + Anthropic)出口管制指令 → Anthropic 撤下 Fable 5 + Mythos 5 公共可用版本6 月 12 日通知,6 月 13 日公开,2026
中方(智谱)发布 GLM 5.2,宣布 7 日内开源 MIT 权重2026 年 6 月 13 日
公共信号唐杰推文 —— 约 89.8 万次浏览,Hacker News 首页2026 年 6 月 13–15 日

有一处细节值得说清楚:Fable 5 不是被 Anthropic deprecate、sunset 或退役了。它是在美方出口管制令下被撤回,而 Anthropic 公开质疑了触发该指令的 jailbreak 发现的严重性(Tom’s Hardware)。如果你在别处写或读到「Anthropic 关停了 Fable」这种说法,叙事是错的。

对多数读者来说这层地缘背景无关紧要 —— coding 模型按价格和 benchmark 选就行。但接下来 30 天里有三件具体的事会变,决定本文剩余部分对你是否有价值:

  • 对冲价值:如果你的团队在用 Claude Fable 做 coding 工作流且你身处美国境外,GLM 5.2 是第一个有许可(MIT,下周开权重)让你 fork 自托管的前沿级 coding 模型。「开源权重作为政治保险」不再是抽象说法。
  • 价格压力:开源权重前沿模型给托管订阅价格设置了天花板。预计 Anthropic、OpenAI 和 Google 会在 60 天内放松 coding-plan 档位 —— 不论 GLM 5.2 的 benchmark 是否真的有竞争力。
  • 工具链对齐:Z.ai 在发布当天就提供了 Claude Code drop-in 支持(专用 /api/anthropic endpoint,下文 Drop-in 章节有详述)。2026 年标准 coding CLI 工作流不再被锁死在单一模型家族。

如果上面三条都不适用,跳到配置章节。如果有一条适用,本文剩余部分就是操作路径:在 Z.ai API 于 6 月 22 日那周开放后 10 分钟接入、Claude Code drop-in 替换、以及同一周 MIT 权重落地后的自托管计划。

关于可用性的说明(请先读)

智谱 2026 年 6 月 13 日的发布是公告 + 文档,不是一个当天就能登入的 dashboard。两个访问面会在 Z.ai 下一轮发布波次中开放:

  • Z.ai Coding Plan API —— 2026 年 6 月 22 日那周开放。账号创建、Coding Plan 档位选择、API key 发放,以及 /api/anthropic/api/coding/paas/v4 两个 endpoint 都会在那个窗口上线。在那之前,本文里的 endpoint URL 是发布公告里已列出的;在你能真正打中之前都按暂定对待。
  • MIT 开源权重 —— 同一周huggingface.co/zai-org/GLM-5.2 下发布。HF 仓库当前只是占位;确认架构的 config.json 和 BF16 / FP8 shard 会按这个时间窗落地。

本文结构是让你这一周做规划(选档位、预先 stage 环境变量、决定 drop-in 还是从零装),等 API 那天用 ~10 分钟跑完配置。如果你今天就要能跑的东西,跳到替代方案章节 —— ofox 已经在单一 endpoint 上提供 DeepSeek V4 Pro / Kimi K2.6 / Qwen3 Coder Next。

GLM 5.2 给你什么(30 秒答案)

项目说明
今天能做(2026 年 6 月 13–21 日)读完本指南、选 Coding Plan 档位、预先 stage ~/.claude/settings.jsonOPENAI_BASE_URL 环境变量,并在 z.ai 上能注册时排上 waitlist
API 开放后能做(2026 年 6 月 22 日那周)通过 Z.ai 托管 Coding Plan,在 Claude Code、Cline、OpenCode、OpenClaw、Goose、Crush、Roo Code 或 Kilo Code 里调 GLM 5.2;从 huggingface.co/zai-org 自托管 MIT 许可的权重(MoE;5.2 参数量尚未官方确认 —— 可能延续 GLM-5 线 744B 总参 / 40B 激活的体量)
key 上线后首次调用耗时约 10 分钟(注册 → API key → CLI 配置 → smoke test)
最低成本约 $10/月 Lite 档;约 $30/月 Pro 档支持每周约 2,000 次 prompt
你需要一个 Z.ai 账号,一个 OpenAI 兼容 coding 客户端(或任何支持自定义 base_url 的工具),以及给第一次长上下文调用留 8 GB 的耐心
暂时做不到引用 SWE-bench 数字(智谱没公布),用 5 档思考预设(只有 High 和 Max),或通过 ofox 直接拉权重(DeepSeek V4 Pro 是最接近的托管替代)

决策框架:什么时候 GLM 5.2 值得你花时间配置

先用这一节决定要不要读下去。

该用 GLM 5.2 的场景

  • 你在 monolith 项目里做多文件重构,已经反复撞上其他 coding agent 的 200K 上下文上限
  • 合规团队要求开源、可审计的模型权重 —— MIT 是 LLM 领域最友好的开源许可之一
  • 你想用一个中国出身的 coding 模型对冲美方接入限制 —— GLM 5.2 发布的当天,Anthropic 因美国商务部出口管制指令撤下了 Claude Fable 5 + Mythos 5(上文为什么是现在有完整时间线)

不该用 GLM 5.2 的场景

  • 你需要在交付到生产团队前看到公开 benchmark。截至 2026 年 6 月 14 日,智谱尚未发布 SWE-bench、LiveCodeBench 或 Aider 任何数字 —— 独立 benchmark 至少还要等几天
  • 你已经付费用 Sonnet/Opus 跑 Claude Code,没有具体痛点要 GLM 来解。切换成本(工具配置、prompt 重调、eval 重跑)不会因为每月省 $10 而划算 —— 除非上下文窗口真的是瓶颈
  • 你想要一个统一托管的 endpoint,能用一把 API key 同时调 GLM、GPT-5.5 和 Claude Opus 4.8。GLM 5.2 暂未上 ofox(2026 年 6 月 15 日核对)—— 如果 endpoint 收敛比这个具体模型更重要,见替代方案章节

退出规则

如果你过去 30 天在真实任务里从没撞上 200K token 上下文上限,你不需要 GLM 5.2。停下来,等智谱发布 benchmark 或 ofox 上架 —— 看哪个先来。

系统要求

开始配置前先确认:

  • 一个 Z.ai 账号,绑定付款方式(Coding Plan 按月计费,USD 或 RMB)
  • 一个 OpenAI 兼容 coding CLI —— 以下之一:Claude Code v0.x、Cline ≥ 3.x、OpenCode、Roo Code、Goose、Crush、OpenClaw、Kilo Code。每个都支持自定义 base_url 和模型名覆盖
  • 能访问 api.z.ai —— 用 curl -I https://api.z.ai/api/paas/v4/ 验证(应得到 HTTP 响应,而不是连接错误)
  • 一个 repo 的 side branch 用于首次跑。长上下文 coding agent 在 prompt 含糊时聪明到会删无关文件 —— 第一天绝不要指向 main

如果你想在权重于 2026 年 6 月 22 日那周开放时自托管,额外要求:

  • 8 张 H100 80GB 或等效配置 —— 这是基于「5.2 延续 GLM-5 线 ~744B 总参 / ~40B 激活 MoE 形态」的估算;截至 2026 年 6 月 15 日,智谱尚未官方确认 5.2 参数量。等 huggingface.co/zai-org/GLM-5.2/config.json 落地后重新调整。预计权重发布后 30 天内会有社区低显存 fork 出现
  • vLLM 或 SGLang 作为推理服务(社区示例会在 HF 仓库出现;上线后看 huggingface.co/zai-org/GLM-5.2
  • 权重 shard 的磁盘空间 —— 如果 GLM-5 家族形态成立,估算 BF16 约 1.5 TB、FP8 约 860 GB;在 HF 仓库确认前,这是规划占位数字而非采购数字

分步配置(托管,约 10 分钟 — API 开放后)

Z.ai Coding Plan API 在 2026 年 6 月 22 日那周开放。下面第 1–4 步会在 dashboard 上线那天用 ~10 分钟跑完;在那之前,你可以预先 stage CLI 配置(第 3 步),并在 z.ai 上能注册时排上 waitlist。

flowchart LR
  A[注册 Z.ai] --> B[选 Coding Plan 档位]
  B --> C[生成 API key]
  C --> D[配置 CLI base_url + 模型名]
  D --> E[首次 smoke test]
  E --> F[接入 repo,跑真实任务]

第 1 步:注册 Z.ai Coding Plan(开放后)

https://z.ai 创建账号。选一个 Coding Plan 档位:

档位大约价格配额适合场景
Lite约 $10/月每周约 400 prompt个人折腾、轻量副项目
Pro约 $30/月每周约 2,000 prompt独立开发者、日常 coding agent 使用
Max约 $80/月每周约 8,000 prompt重度 agentic 重构、多小时自动跑
Team按席位组织内共享池3 人以上开发团队共享配额

预期结果:账号 dashboard 出现「Coding Plan」条目,显示档位和剩余配额。

第 2 步:生成 API key

在 Z.ai dashboard 里打开 API Keys → Create new key。范围限定到「Coding Plan」 —— Z.ai 还暴露其他付费 endpoint(通用 chat、视觉),它们共用钱包但不应共用同一把 key。

export ZAI_API_KEY="zai-..."

预期结果:以 zai- 开头的 key。放进 shell 密钥文件或 1Password —— Z.ai 完整 key 只会显示一次。

第 3 步:配置 coding CLI

Z.ai 暴露两个兼容 endpoint,按客户端类型选。Claude Code 说 Anthropic 协议;其他七个发布日客户端(Cline、OpenCode、Roo Code、Goose、Crush、OpenClaw、Kilo Code)说 OpenAI chat-completions 形态。

Claude Code(Anthropic 兼容 endpoint) —— 最小配置是 shell 环境变量或 ~/.claude/settings.json 里的 env 块,详见下文 Claude Code Drop-in 替换章节。那一节也列了哪些东西原样可用(CLAUDE.md、slash command、subagent)哪些会变(思考预设、tool-result 桥接) —— 提交前先读完再粘。

OpenAI 兼容客户端(Cline、OpenCode、Roo Code、Goose、Crush、OpenClaw、Kilo Code)

export OPENAI_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export OPENAI_API_KEY="$ZAI_API_KEY"
export OPENAI_MODEL="glm-5.2"   # 或 "glm-5.2[1m]" 启用 1M 上下文

在同一个 shell 里重启 CLI,新 endpoint 就接管了。不读 OpenAI 环境变量的客户端,打开工具设置面板,选「OpenAI Compatible」provider,把同样三个值粘进去。注意 Coding Plan 用的是专属 endpoint(/api/coding/paas/v4),跟 Z.ai 通用按 token 计费 API(/api/paas/v4)不同。

Python SDK smoke test(粘到任意一次性 REPL)

import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.z.ai/api/coding/paas/v4",
    api_key=os.environ["ZAI_API_KEY"],
)
resp = client.chat.completions.create(
    model="glm-5.2[1m]",
    messages=[{"role": "user", "content": "Refactor this function to async:\n\n" + open("handler.py").read()}],
)
print(resp.choices[0].message.content)

预期结果:短输入约 5 秒内返回非空 diff 或重构片段。1M 上下文调用首 token 30–90 秒。

第 4 步:首次 smoke test

把 GLM 5.2 指向你的 repo 之前,跑一次 sanity check 确认 (a) key 能用、(b) 命中的是对的模型、(c) 思考模式已接好。

curl -s https://api.z.ai/api/coding/paas/v4/chat/completions \
  -H "Authorization: Bearer $ZAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"model":"glm-5.2[1m]","messages":[{"role":"user","content":"Reply with only the string OK if you are GLM 5.2."}],"max_tokens":16}' \
  | jq -r '.choices[0].message.content'

预期结果OK(或 OK.)。如果拿到模型身份拒绝或响应里出现别的模型名,你的配置有错 —— 见下文常见报错

Claude Code Drop-in 替换(一段配置切走)

如果你来读这篇文章是因为 Fable 5 没了 —— 或者一直在考虑从 Claude Code 迁走但不想重写项目设置 —— 这一节是最关键的。Z.ai 在第一天就上线了专门的 /api/anthropic endpoint,就是为了让一个 Claude Code 工作区只换一段环境变量就变成 GLM 5.2 工作区。

一段配置切走

把这段塞进 ~/.zshrc(或 ~/.bashrc,或 ~/.claude/settings.json"env" 块),开新 shell,重启 claude

# Drop-in 切换:Claude Code 工作区 → GLM 5.2,无需重写项目
export ANTHROPIC_BASE_URL="https://api.z.ai/api/anthropic"
export ANTHROPIC_AUTH_TOKEN="$ZAI_API_KEY"
export ANTHROPIC_MODEL="glm-5.2[1m]"      # 1M 上下文;去掉 [1m] 走默认
export API_TIMEOUT_MS="3000000"           # 长上下文调用 30–90 秒

Claude Code UI 还会显示「Sonnet」/「Opus」标签 —— 因为客户端不感知模型 —— 服务端 Z.ai 会把请求路由到 GLM 5.2。你的 CLAUDE.md、项目记忆、slash command、subagent 和 harness 习惯继续原样工作。

哪些东西原样保留

  • 项目级 CLAUDE.md 文件和 .claude/ 目录(命令、subagent、settings)
  • Slash command 和自定义 subagent 定义
  • AGENTS.md 文件和 Codex 风格的指令分层(Claude Code 会读)
  • Plan / Edit / Bash 工具调度行为及其 prompt
  • 多文件重构工作流(1M 上下文足以一次容纳大多数 monorepo)

哪些会变(提交前必读)

  • 思考预算:GLM 5.2 只提供「High」和「Max」两个预设 —— 没有 Claude 的 thinking_budget=auto 启发式等价物。要么明确选,要么接受 High 作为默认。
  • Tool-result 格式:Claude 期望 tool_result 块是特定形态。Z.ai 桥接处理了 95%+ 的常见 pattern,但在长 agentic loop 里偶尔会丢嵌套 content 块。如果你看到 assistant turn 反复发同一个 tool call 而不是 ack —— 那就是故障模式。退路是切到 OpenAI 兼容 endpoint(/api/coding/paas/v4),在那个工作流里用 Cline 或 OpenCode。
  • 延迟特征:1M 上下文首 token 延迟 30–90 秒,对比 Claude 同等大小 prompt 的 5–15 秒。上面的 API_TIMEOUT_MS=3000000 是必须,不是可选 —— Claude Code 默认值会在长 Plan 模式调用时杀掉连接。
  • 配额模型:你现在花的是 Coding Plan 配额,不是 Claude Plan 配额。在 Claude 那边几小时榨干周配额的 bursty agent loop 同样会榨干 Lite 档 —— 长期使用预算 Pro 或 Max。

选 drop-in 还是从零装 Cline

选 drop-in 切换选从零装 Cline / OpenCode
你有 3 个以上 slash command、调过的 subagent、或迭代了几周的 CLAUDE.md你在开新项目,没有 Claude Code 历史投资
团队已经在 Claude Code UI 上标准化,换工具意味着重新培训工程师你其他工具链(lint、telemetry)说 OpenAI 风格请求
你想在不烧掉一个 sprint 日的前提下 A/B GLM 5.2 vs 现有 Claude 工作流你撞上了上面的 tool-result 桥接问题,绕过比换工具更麻烦

回退路径(提交前先准备好)

unset ANTHROPIC_BASE_URL ANTHROPIC_AUTH_TOKEN ANTHROPIC_MODEL,重启 Claude Code。claude CLI 重新捡起 Anthropic 默认值。切换过程不动项目里任何状态 —— 完全在 shell 环境里。

配置时的常见报错

报错可能原因修复
401 invalid_api_keyKey 范围选错产品,或粘贴时带了空白字符重新生成带「Coding Plan」范围;用不会被剥空白的剪贴板粘
调用 glm-5.2glm-5.2[1m]model not foundZ.ai 用 glm-5.2 表示标准上下文窗口,[1m] 后缀作为模型别名切到 1M 上下文配置需要完整 1M 窗口用 glm-5.2[1m];默认上下文用纯 glm-5.2。两个都是 Coding Plan endpoint 的合法 model ID
工作几分钟后 429 Too Many RequestsLite 档配额(每周约 400 prompt)被 agent loop 烧光升级到 Pro,或通过 max_iterations 减少 agent 迭代轮数
响应体为空,无报错思考预算超过了 max_tokensmax_tokens 提到 ≥ 4096;思考模型先流式推理再回答
Tool-use 调用以 raw JSON 出现在 assistant 文本里Z.ai OpenAI 兼容层在请求没带 tools 字段时不自动解析 tool_use第一轮就传 tools 数组;或如果客户端支持改用 Anthropic 兼容 endpoint
多文件重构出现 504 / 超时长上下文(>500K token)首 token 延迟超过客户端默认超时把 CLI 的 requestTimeoutMs 调到 600000(10 分钟)应对 1M 上下文调用

团队 / 多开发者配置

3 个以上开发者要共享配额,Coding Plan 的 Team 档支持按席位池化 —— 但配置 pattern 跟独立开发者不一样:

  • 每个开发者一把 API key,统一计费到组织钱包 —— 绝不要跨机器共用一把 key(这是把配额烧到追不到溯源最快的办法)
  • 一个共享 .env.team 入私有 secrets repo,只包含 OPENAI_BASE_URL=https://api.z.ai/api/coding/paas/v4OPENAI_MODEL=glm-5.2[1m] —— API key 不入 git
  • CI 里加预算护栏:让 coding agent 的 CI 步骤在单 PR completion token 超过 N 时中止(数字你定 —— 从 200K 起,到周五调)
  • 配额可观测:Z.ai dashboard 显示每把 key 的用量;想程序化轮询,Coding Plan 在 https://api.z.ai/api/monitor/usage/quota/limit 暴露配额 endpoint,覆盖 5 小时 token 周期、周配额、月 MCP 用量 —— 拉进你现有可观测栈(Datadog、Honeycomb)

如果你的组织无法经由中国 API endpoint 路由(egress 管控、合规),实操 pattern 是把同样的 OpenAI 兼容配置镜像到另一个上游 —— 见替代方案。

进阶:MIT 开源权重计划

智谱发布公告里承诺了「下周」开放 MIT 许可权重 —— 也就是 2026 年 6 月 22 日那周,与 Z.ai Coding Plan API 开放是同一窗口。HF 组织是 huggingface.co/zai-org;跟踪 GLM-5.2 仓库等实际发布。

MIT 给你什么:

  • 商业使用、修改、再分发 —— 没有用量上限,自托管后没有按 token 计费
  • 微调权利 —— 你可以在自己的代码库上训 LoRA 或全量微调,并交付结果
  • Fork 权 —— 如果智谱关停了你依赖的功能(或者更可能,涨价),社区 fork 仍可继续运行

MIT 不给你什么:

  • 推理算力的免费午餐 —— 如果 5.2 延续 GLM-5 线 ~744B 总参 / ~40B 激活 MoE 形态(智谱尚未官方确认 5.2),生产吞吐仍在 8 张 H100 量级,且强烈依赖量化质量
  • 未来模型更新 —— MIT 发布是时点性的;GLM 5.3 可能开也可能不开
  • Anthropic 级别的安全调优 —— Z.ai 的 RLHF 是自家风格,拒绝边界会不同

多数团队的现实路径:接下来 30–60 天先用托管 Coding Plan,观察社区把权重量化成 4-bit 和 2-bit 变体,等单节点配置出现后再重评估自托管。

替代方案:ofox 上的托管开源权重 coding 模型

如果你想要单一 OpenAI 兼容 endpoint 已经覆盖托管型中文 coding 模型 —— 不想等 GLM 5.2 权重发布也不想自建 H100 集群 —— 截至 2026 年 6 月 15 日,ofox 上有三个不错的替代方案:

模型ofox API ID优势什么时候比 GLM 5.2 更合适
DeepSeek V4 Prodeepseek/deepseek-v4-proCoding 调优的旗舰,社区使用面广你要的是有公开 benchmark 的模型(DeepSeek 有公开,GLM 5.2 暂无)
Qwen3 Coder Nextbailian/qwen3-coder-next阿里最新 coding 专用档位,多语言代码你交付的是中文/日文多语言代码库,想用阿里第一方 Qwen 支持
Kimi K2.6moonshotai/kimi-k2.6长上下文召回稳你需要已经验证过的长上下文,不是「声称但未 benchmark」

任何一个都用跟 GLM 5.2 同样的配置形态接入 —— 只换 base URL 和模型 ID:

# 同样的 Cline / OpenCode 配置,换上游
export OPENAI_BASE_URL="https://api.ofox.ai/v1"
export OPENAI_MODEL="deepseek/deepseek-v4-pro"

这就是单 endpoint pattern:一把 key、多个模型、不用按厂商分别注册。当前定价和能力 flag 见 ofox 模型目录。GLM 5.2 上 ofox(暂未上 —— 2026 年 6 月 15 日核对)那天,你只需要改一个字符串就切走。

盯着 Z.ai 状态和配额

第一周要接两件事:

  • Z.ai 状态页 —— 注册当天就加书签;新产品头 30 天总会至少出一次 rate-limit 调参或配额计数 bug
  • PR 级用量埋点 —— 把每次 API 响应的 usage.total_tokens 打进你现有 PR 级遥测(Datadog、Honeycomb,自己选)。Coding agent 容易在兔子洞重构里漂移烧配额,唯一能在 PR 级别抓到这事的办法就是埋点

本次更新核对过的信息源

这次发布真正不同的地方不是百万 token 上下文 —— Anthropic 和 Google 早就到位了。而是 GLM 5.2 是第一个前沿级 coding 模型,你能读权重、按 MIT 审计训练许可、在自己机器上跑 fork —— 同时在迁移期间不用放弃托管版本的亚秒级响应。接下来 30 天会告诉我们 benchmark 是否兑现宣传。