Claude Code 国内使用实录:Opus 4.6 编程到底强在哪(2026)

Claude Code 国内使用实录:Opus 4.6 编程到底强在哪(2026)

Claude Code 出来快一年了,国内开发者的反应挺有意思。一部分人用得停不下来,另一部分人装完就卸了,倒不是工具有问题,卡在网络上了。

我从今年初开始拿 Claude Code 干活,Sonnet 4.6 和 Opus 4.6 都用了不少。安装配置这里不重复了,之前写过一篇《Claude Code 接入第三方 API 配置教程》,照着走就行。这篇主要聊实际使用体验:国内跑起来到底顺不顺,Opus 4.6 写代码水平怎么样,我日常怎么用它干活。

国内使用 Claude Code 的现实情况

Claude Code 国内不能开箱即用,配好之后和海外没区别。

症结就一个:Anthropic 的 API 端点 api.anthropic.com 国内访问不了。Claude Code 启动后连这个地址做认证,连不上就报错退出。

解法是把 API 请求转到国内能访问的地址。三种方案我都试过:

API 聚合平台最省事。拿 ofox.ai 来说,注册拿 Key,把 ANTHROPIC_BASE_URL 改成 https://api.ofox.ai/anthropic,完了。协议完全兼容,tool use、streaming、Extended Thinking 都正常。充值方式支持支付宝和微信,具体可以看《Claude API 付费指南》

自建代理适合有海外服务器的团队。VPS 上跑一层反代,转发到 Anthropic。可控性强,但高可用和故障切换得自己搞,个人开发者没必要折腾这个。

AWS Bedrock 适合本身就在用 AWS 的公司。通过 Bedrock 调 Claude,走 AWS 全球网络。配置比前两种麻烦,但如果团队 AWS 基础设施已经成熟,也算顺手。

个人和小团队选聚合平台,企业看已有的基础设施。

实际延迟表现

在上海实测,通过聚合平台调 Claude Code,首 token 延迟大概 800ms 到 1.5s,和科学上网直连 Anthropic 差不多。长输出场景 streaming 很稳,没断过。

Opus 4.6 开 Extended Thinking 的时候,思考阶段要等 3-8 秒才出第一个 token,这是模型本身的行为,跟网络没关系。Sonnet 4.6 没有这个等待期,响应很快。

Opus 4.6 编程到底强在哪

配置聊完了,说说 Opus 4.6 写代码怎么样。跑分数据好看,SWE-bench Verified 80.8%,Terminal-Bench 2.0 拿了 65.4%,都是当前最高。不过跑分和实际干活是两码事。Opus 4.6 的完整能力分析可以看《Claude Opus 4.6 API 完全指南》,这里说说我用下来印象最深的几个点。

项目级上下文理解

我让它在一个 monorepo 里给一个 API 模块加 rate limiting。它先扫了项目里已有的中间件结构,发现我们用的是特定的链式调用模式,然后新代码直接按同样的模式写。配置文件放的位置、环境变量命名规范、错误处理风格,全都跟项目已有代码一致。

Sonnet 4.6 也能完成这个任务,但给出的是”一个能跑的实现”。Opus 4.6 给的是”看起来像你自己写的实现”。小项目感受不到这个差别。几万行代码的项目里,差别很大。

跨文件修改的准确性

传统的 AI 补全工具改一个文件还行,一旦涉及多个文件联动修改就容易出问题——改了接口忘记改调用方,改了类型定义忘记改序列化逻辑。

Opus 4.6 在 Claude Code 里做跨文件修改,基本不漏。我做过一次 API 版本升级,12 个文件要改:路由定义、controller、service 层、DTO、测试用例、文档注释。一次性全改对了,测试用例里的 mock 数据也跟着更新了。

这跟 Opus 4.6 的 1M token 上下文窗口有关,整个项目塞得进去。Claude Code 的项目索引也帮了忙,它知道文件之间的依赖。

自适应推理的实际价值

Opus 4.6 的自适应推理(Adaptive Thinking)用下来确实不一样。

“把这个变量名改成 snake_case” 这种活,它几乎不过脑子,直接改。“这个并发 bug 根因是什么” 这种问题,它会先花几秒分析调用链路、锁粒度、线程模型,然后给出带推理过程的结论。

我平时默认用 Sonnet 4.6,快且便宜。碰到硬骨头再切 Opus 4.6,用完切回来。对话上下文切换后还在。

日常开发工作流

说说日常怎么用。

代码审查

用得最多的场景。提交 PR 之前让 Claude Code 过一遍改动,它找 bug 比我自己 review 要准,尤其是边界条件和错误处理的遗漏。正向逻辑没问题但异常路径没覆盖,这种情况人很容易忽略。

重构

有个 800 行的”上帝类”,我让 Opus 4.6 拆成职责单一的模块。它给的拆分方案比我预想的合理,看到了几处我没注意的隐式耦合。它不是机械地重命名或提取函数,是理解了代码在干什么之后再拆的。

写测试

省时间最多的活。给一个函数或模块,它生成的测试用例覆盖面很全:边界值、异常输入、并发场景都有。我过一遍确认逻辑就行,不用从零写。Sonnet 4.6 写测试也还行,但 Opus 4.6 对边界条件的覆盖更细。

Debug

有次碰到一个间歇性的 race condition,我翻了半天没头绪。把报错和代码丢给 Opus 4.6,30 秒指出问题:两个 goroutine 没加锁就写同一个 map。

Opus 4.6 vs Sonnet 4.6:什么时候用哪个

不是所有场景都需要 Opus 4.6。我的经验是按任务复杂度选:

场景推荐模型原因
日常补全、小修改Sonnet 4.6响应快,成本低,质量够用
写测试、写文档Sonnet 4.6不需要深度推理,Sonnet 足矣
跨文件重构Opus 4.6需要理解全局架构
复杂 bug 排查Opus 4.6推理链路更长更准
Agent 任务(多步骤)Opus 4.6规划能力和工具调用更准确
架构设计讨论Opus 4.6给出的方案更成熟

成本方面,Sonnet 4.6 输入 $3/百万 token,输出 $15/百万 token;Opus 4.6 输入 $5/百万 token,输出 $25/百万 token。日常开发混合使用,平均每天 $5-10 就能覆盖大部分需求。

Claude Code vs Cursor vs Copilot:体感对比

三个都在用,各有各的位置。

GitHub Copilot 最轻量,装上就能用,行级别补全命中率还行。但它不看项目全局,也做不了跨文件的事。

Cursor 是带 AI 的编辑器。Cmd+K 和 Composer 挺顺手,在编辑器里从提问到改代码能闭环完成。大项目的上下文理解不如 Claude Code。

Claude Code 是命令行工具,能自己读文件、跑命令、改多个文件、提交 Git。定位是一个理解代码的 Agent,强在项目结构理解、跨文件依赖把控、复杂任务拆解。现在也有 VS Code 和 JetBrains 扩展,不一定非要在终端里用。

我的习惯:Copilot 常驻做补全,改具体代码块用 Cursor 的 Cmd+K,大范围修改或复杂任务开 Claude Code。

几个实用的配置建议

用了两个月,几个配置上的经验。

CLAUDE.md 文件好好写。这是项目根目录的配置文件,Claude Code 每次启动都读。把技术栈、代码规范、特殊约定写清楚,生成的代码会更贴合项目风格。我在里面写了”error 信息用英文,注释用中文”,之后它就一直遵守。

/compact 命令别忘了用。长对话下来上下文越来越大,token 消耗跟着涨。/compact 压缩历史对话,保留关键信息。我大概每 30-40 轮对话 compact 一次。

模型随时可以切换。默认 Sonnet 4.6,碰到难活切 Opus 4.6,搞定了切回来。

碰到问题怎么办

Claude Code 调用 API 本质上就是 HTTP 请求,遇到报错按照 HTTP 状态码排查就行。最常见的几个:429 rate limit(请求太频繁)、401 认证失败(Key 有问题)、529 overloaded(Anthropic 服务器过载)。具体的排查方法写过一篇完整的《Claude API 报错排查手册》

如果你用的是 OpenClaw 之类的 AI 编程工具,配置 Claude 模型的方式类似——本质都是指定 API 地址和 Key。详细的模型配置可以参考《OpenClaw 模型配置完全教程》

写在最后

Claude Code 在国内的门槛就是网络那一层,配好 API 端点之后体验没差别。Opus 4.6 在项目级理解和跨文件修改上确实是现在最强的编程模型,简单任务 Sonnet 4.6 性价比更高。

第一次接触 Claude API 的话,建议先看《Claude API 国内使用指南》了解接入方式。

两个月用下来,重构和 debug 这两件最耗精力的事,交给 Claude Code 之后轻松了不少。具体能省多少时间因人而异,但值得试一试。