GLM-5 API 接入完全指南:国产编程 SOTA 模型上手实战(GLM-5 / GLM-5.1 / GLM-5-Turbo)
SWE-Bench Pro 58.4% 是什么概念
智谱 GLM-5.1 在 SWE-Bench Pro 上跑出 58.4%,超过了 GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro,这是 2026 年 Q1 全球最高分。SWE-Bench Pro 测的是真实 GitHub issue 的修复能力——给你一个报 bug 的 issue,能不能自动定位到代码,写出正确的 patch。
不是选择题,是真实修代码。
更值得关注的是「8 小时」这个数字。GLM-5.1 能在单次任务里持续工作 8 小时,期间自主规划、执行、验证、修复,最后交付一个可运行的结果。大部分模型还停在单轮问答的阶段,GLM-5.1 已经在跑一整个工程项目了。
GLM-5 系列三款模型怎么选
智谱当前维护三个 GLM-5 系列版本,定位有明显差异:
| 模型 | 定位 | 上下文 | 输入价格 | 输出价格 | 适合场景 |
|---|---|---|---|---|---|
| GLM-5.1 | 旗舰基座 | 200K | 6 元/百万 | 24 元/百万 | 复杂 Agent、长程编程任务 |
| GLM-5 | 编程 SOTA | 200K | 4 元/百万 | 18 元/百万 | 日常代码生成、工具调用 |
| GLM-5-Turbo | Agent 专用 | 200K | 5 元/百万 | 22 元/百万 | 高频工具调用、AutoGLM 配套 |
| GLM-4.7-Flash | 免费版 | 200K | 免费 | 免费 | 开发测试、低预算项目 |
三款里 GLM-5.1 能力最强,SWE-Bench Pro 的成绩是系列里最高的。GLM-5 便宜 1/3,在常规代码生成和函数调用场景跑起来效果差别不大。GLM-5-Turbo 专门为 Agent 长链路优化过,用在自动化流水线里工具调用的稳定性好一些。
如果只是想测一下能力,GLM-4.7-Flash 完全免费,200K 上下文,同样 OpenAI 兼容,先跑几百个请求感受一下再决定要不要升级。
国内怎么接入 GLM-5 API
两条路:直接用 bigmodel.cn,或者通过 OfoxAI 统一接入。
直接调 bigmodel.cn:注册智谱账号,申请 API Key,base_url 填 https://open.bigmodel.cn/api/paas/v4,model 填 glm-5.1。国内无网络限制,支持人民币充值,只用智谱模型的项目走这条路就够。
通过 OfoxAI 接:base_url 换成 https://api.ofox.ai/v1,model 换成 z-ai/glm-5.1(也可以是 z-ai/glm-5 或 z-ai/glm-5-turbo)。好处是一个 Key 能调 Claude Opus 4.6、GPT-5.4、Kimi K2.5、MiniMax M2.7,不用给每家单独充值。
项目初期选型不确定用哪个模型时,OfoxAI 的方式更灵活,随时切换不用改太多代码。
接入 OfoxAI 后,原来跑 OpenAI 的代码几乎不用改:
from openai import OpenAI
client = OpenAI(
api_key="your-ofoxai-key",
base_url="https://api.ofox.ai/v1"
)
response = client.chat.completions.create(
model="z-ai/glm-5.1",
messages=[{"role": "user", "content": "分析这段 Python 代码的性能瓶颈"}]
)
已有 GPT 代码的话,把 api_key 和 base_url 换一下,model 改成 GLM 系列的 ID,基本就跑通了。
Function Call 和 Thinking 模式
GLM-5 系列的 Function Call 格式和 OpenAI 完全一致,tools 参数定义不用改,直接复用现有代码:
tools = [
{
"type": "function",
"function": {
"name": "get_weather",
"parameters": {"type": "object", "properties": {"city": {"type": "string"}}}
}
}
]
response = client.chat.completions.create(
model="z-ai/glm-5.1",
messages=[{"role": "user", "content": "上海今天天气"}],
tools=tools
)
Thinking 模式在 GLM-5.1 里支持,在 messages 外加一个 thinking 参数开启:
response = client.chat.completions.create(
model="z-ai/glm-5.1",
messages=[{"role": "user", "content": "解释一下这个算法的时间复杂度"}],
extra_body={"thinking": {"type": "enabled"}}
)
开启后模型会在回答前先做推理链,复杂算法分析、bug 定位这类任务质量明显提升,代价是响应时间变长、token 消耗增加。做批量代码审查的时候看情况开。
几个实际场景
Coding Agent 主力
AutoClaw(OpenClaw)加 GLM-5.1 做后端的组合,自动分析报错、定位代码、提交修复,已经有不少开发者在生产环境跑了。SWE-Bench Pro 58.4% 不是实验室数字,是真实 GitHub issue 的修复率,这个指标直接对应 Agent 的落地质量。
长链路任务里,GLM-5.1 跑偏的概率比多数模型低。原因不完全清楚,可能和它的训练数据分布有关,但实测结果就是这样。
关于 OpenClaw 里接 GLM-5 系列的配置,可以参考《OpenClaw 模型配置完全教程》,里面有逐步的 Provider 添加流程。
替代 Claude 做代码审查
Claude Opus 4.6 的代码审查质量没有争议,但价格不低(约 108 元/百万 token 输入,540 元/百万 token 输出)。GLM-5.1 输入 6 元、输出 24 元,价格约是 Claude 的 1/18。
对大部分代码质量检查、注释生成、重构建议这类任务,两者的实际输出差距比 benchmark 数字显示的小。预算有限的项目,先用 GLM-5.1 跑一段,遇到处理不了的复杂推理问题再升 Claude 不迟。
关于 Claude 和 GLM-5 在编程任务上的实际差异,《2026 AI 编程工具大横评》里有更详细的场景对比。
搭配 GLM-5V-Turbo 做多模态任务
GLM-5.1 是纯文本模型,没有视觉输入能力。如果任务涉及界面截图、设计稿还原,可以在视觉子任务里调 GLM-5V-Turbo,文本推理和代码生成交给 GLM-5.1。
两个模型都通过 OfoxAI 接,一个 Key 管两个模型,流量切换不需要改任何认证逻辑。
GLM-5V-Turbo 的接入方法和视觉能力测试数据可以看《GLM-5V-Turbo 多模态视觉 API 接入指南》。
价格横向对比
和几个主流模型比一下(以输入 token 价格为基准):
| 模型 | 输入价格 | 输出价格 | GLM-5.1 的价格倍数 |
|---|---|---|---|
| Claude Opus 4.6 | ~108 元/百万 | ~540 元/百万 | 18×贵 |
| GPT-5.4 | ~90 元/百万 | ~360 元/百万 | 15×贵 |
| Kimi K2.5 | ~28 元/百万 | ~96 元/百万 | 4.7×贵 |
| GLM-5.1 | 6 元/百万 | 24 元/百万 | 基准 |
| GLM-5 | 4 元/百万 | 18 元/百万 | 0.67×(更便宜) |
| GLM-4.7-Flash | 免费 | 免费 | — |
不是说便宜就好。Claude Opus 4.6 在复杂推理、创意写作、微妙语义理解这些维度上确实有差距。但对编程任务这个具体场景,GLM-5.1 的 SWE-Bench Pro 成绩已经说明它在这一块超过 Claude 了。
用什么模型干什么事,这是实际降成本最直接的方式。
注意事项
Thinking 模式默认关闭,需要手动传 thinking: {type: "enabled"} 参数。不传就是普通模式,复杂问题质量不稳定时先查这里。
上下文 200K,但输出上限是 128K。要求模型输出超长内容时记得设 max_tokens,不然会被截断。
GLM-5-Turbo 不是 GLM-5.1 的降级版,是专门为 Agent 工具调用优化的。高频调用场景下它比 GLM-5.1 更稳,但通用推理弱一些,选错了两边都吃亏。
免费的 GLM-4.7-Flash 有并发限制,生产高峰期别完全依赖它,配个付费版做 fallback。
总结
GLM-5.1 在编程任务上的成绩已经超过 Claude Opus 4.6,定价是后者的 1/18。对以代码为主的项目来说,不测一下说不过去。
已经在用 OfoxAI 的话,一行 model="z-ai/glm-5.1" 就能切过去。没开始的话,注册 OfoxAI 有免费额度,GLM 系列和 Claude、GPT 可以在同一个账号里直接对比效果。


