GLM-5 API 接入完全指南:国产编程 SOTA 模型上手实战(GLM-5 / GLM-5.1 / GLM-5-Turbo)

GLM-5 API 接入完全指南:国产编程 SOTA 模型上手实战(GLM-5 / GLM-5.1 / GLM-5-Turbo)

SWE-Bench Pro 58.4% 是什么概念

智谱 GLM-5.1 在 SWE-Bench Pro 上跑出 58.4%,超过了 GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro,这是 2026 年 Q1 全球最高分。SWE-Bench Pro 测的是真实 GitHub issue 的修复能力——给你一个报 bug 的 issue,能不能自动定位到代码,写出正确的 patch。

不是选择题,是真实修代码。

更值得关注的是「8 小时」这个数字。GLM-5.1 能在单次任务里持续工作 8 小时,期间自主规划、执行、验证、修复,最后交付一个可运行的结果。大部分模型还停在单轮问答的阶段,GLM-5.1 已经在跑一整个工程项目了。

GLM-5 系列三款模型怎么选

智谱当前维护三个 GLM-5 系列版本,定位有明显差异:

模型定位上下文输入价格输出价格适合场景
GLM-5.1旗舰基座200K6 元/百万24 元/百万复杂 Agent、长程编程任务
GLM-5编程 SOTA200K4 元/百万18 元/百万日常代码生成、工具调用
GLM-5-TurboAgent 专用200K5 元/百万22 元/百万高频工具调用、AutoGLM 配套
GLM-4.7-Flash免费版200K免费免费开发测试、低预算项目

三款里 GLM-5.1 能力最强,SWE-Bench Pro 的成绩是系列里最高的。GLM-5 便宜 1/3,在常规代码生成和函数调用场景跑起来效果差别不大。GLM-5-Turbo 专门为 Agent 长链路优化过,用在自动化流水线里工具调用的稳定性好一些。

如果只是想测一下能力,GLM-4.7-Flash 完全免费,200K 上下文,同样 OpenAI 兼容,先跑几百个请求感受一下再决定要不要升级。

国内怎么接入 GLM-5 API

两条路:直接用 bigmodel.cn,或者通过 OfoxAI 统一接入。

直接调 bigmodel.cn:注册智谱账号,申请 API Key,base_urlhttps://open.bigmodel.cn/api/paas/v4modelglm-5.1。国内无网络限制,支持人民币充值,只用智谱模型的项目走这条路就够。

通过 OfoxAI 接:base_url 换成 https://api.ofox.ai/v1model 换成 z-ai/glm-5.1(也可以是 z-ai/glm-5z-ai/glm-5-turbo)。好处是一个 Key 能调 Claude Opus 4.6、GPT-5.4、Kimi K2.5、MiniMax M2.7,不用给每家单独充值。

项目初期选型不确定用哪个模型时,OfoxAI 的方式更灵活,随时切换不用改太多代码。

接入 OfoxAI 后,原来跑 OpenAI 的代码几乎不用改:

from openai import OpenAI

client = OpenAI(
    api_key="your-ofoxai-key",
    base_url="https://api.ofox.ai/v1"
)

response = client.chat.completions.create(
    model="z-ai/glm-5.1",
    messages=[{"role": "user", "content": "分析这段 Python 代码的性能瓶颈"}]
)

已有 GPT 代码的话,把 api_keybase_url 换一下,model 改成 GLM 系列的 ID,基本就跑通了。

Function Call 和 Thinking 模式

GLM-5 系列的 Function Call 格式和 OpenAI 完全一致,tools 参数定义不用改,直接复用现有代码:

tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "parameters": {"type": "object", "properties": {"city": {"type": "string"}}}
        }
    }
]
response = client.chat.completions.create(
    model="z-ai/glm-5.1",
    messages=[{"role": "user", "content": "上海今天天气"}],
    tools=tools
)

Thinking 模式在 GLM-5.1 里支持,在 messages 外加一个 thinking 参数开启:

response = client.chat.completions.create(
    model="z-ai/glm-5.1",
    messages=[{"role": "user", "content": "解释一下这个算法的时间复杂度"}],
    extra_body={"thinking": {"type": "enabled"}}
)

开启后模型会在回答前先做推理链,复杂算法分析、bug 定位这类任务质量明显提升,代价是响应时间变长、token 消耗增加。做批量代码审查的时候看情况开。

几个实际场景

Coding Agent 主力

AutoClaw(OpenClaw)加 GLM-5.1 做后端的组合,自动分析报错、定位代码、提交修复,已经有不少开发者在生产环境跑了。SWE-Bench Pro 58.4% 不是实验室数字,是真实 GitHub issue 的修复率,这个指标直接对应 Agent 的落地质量。

长链路任务里,GLM-5.1 跑偏的概率比多数模型低。原因不完全清楚,可能和它的训练数据分布有关,但实测结果就是这样。

关于 OpenClaw 里接 GLM-5 系列的配置,可以参考《OpenClaw 模型配置完全教程》,里面有逐步的 Provider 添加流程。

替代 Claude 做代码审查

Claude Opus 4.6 的代码审查质量没有争议,但价格不低(约 108 元/百万 token 输入,540 元/百万 token 输出)。GLM-5.1 输入 6 元、输出 24 元,价格约是 Claude 的 1/18。

对大部分代码质量检查、注释生成、重构建议这类任务,两者的实际输出差距比 benchmark 数字显示的小。预算有限的项目,先用 GLM-5.1 跑一段,遇到处理不了的复杂推理问题再升 Claude 不迟。

关于 Claude 和 GLM-5 在编程任务上的实际差异,《2026 AI 编程工具大横评》里有更详细的场景对比。

搭配 GLM-5V-Turbo 做多模态任务

GLM-5.1 是纯文本模型,没有视觉输入能力。如果任务涉及界面截图、设计稿还原,可以在视觉子任务里调 GLM-5V-Turbo,文本推理和代码生成交给 GLM-5.1。

两个模型都通过 OfoxAI 接,一个 Key 管两个模型,流量切换不需要改任何认证逻辑。

GLM-5V-Turbo 的接入方法和视觉能力测试数据可以看《GLM-5V-Turbo 多模态视觉 API 接入指南》

价格横向对比

和几个主流模型比一下(以输入 token 价格为基准):

模型输入价格输出价格GLM-5.1 的价格倍数
Claude Opus 4.6~108 元/百万~540 元/百万18×贵
GPT-5.4~90 元/百万~360 元/百万15×贵
Kimi K2.5~28 元/百万~96 元/百万4.7×贵
GLM-5.16 元/百万24 元/百万基准
GLM-54 元/百万18 元/百万0.67×(更便宜)
GLM-4.7-Flash免费免费

不是说便宜就好。Claude Opus 4.6 在复杂推理、创意写作、微妙语义理解这些维度上确实有差距。但对编程任务这个具体场景,GLM-5.1 的 SWE-Bench Pro 成绩已经说明它在这一块超过 Claude 了。

用什么模型干什么事,这是实际降成本最直接的方式。

注意事项

Thinking 模式默认关闭,需要手动传 thinking: {type: "enabled"} 参数。不传就是普通模式,复杂问题质量不稳定时先查这里。

上下文 200K,但输出上限是 128K。要求模型输出超长内容时记得设 max_tokens,不然会被截断。

GLM-5-Turbo 不是 GLM-5.1 的降级版,是专门为 Agent 工具调用优化的。高频调用场景下它比 GLM-5.1 更稳,但通用推理弱一些,选错了两边都吃亏。

免费的 GLM-4.7-Flash 有并发限制,生产高峰期别完全依赖它,配个付费版做 fallback。

总结

GLM-5.1 在编程任务上的成绩已经超过 Claude Opus 4.6,定价是后者的 1/18。对以代码为主的项目来说,不测一下说不过去。

已经在用 OfoxAI 的话,一行 model="z-ai/glm-5.1" 就能切过去。没开始的话,注册 OfoxAI 有免费额度,GLM 系列和 Claude、GPT 可以在同一个账号里直接对比效果。