MiniMax M3 在 2026 年 6 月已经开放权重了吗？

还没有。MiniMax 在 6 月 1 日发布时说权重会在 10 天左右上 Hugging Face，但到 6 月中旬，GitHub 仓库还挂着 'this model is not yet released' 的占位说明。API 在 ofox 这种聚合商那边已经能调，但你今天没办法自己拉权重在私有集群跑。

为什么 MiniMax M3 在 SWE-Bench Pro 上比 Claude Opus 4.8 低？

M3 的 59.0% 比 Opus 4.8 的 69.2% 低了大约 10 分。差距主要集中在活跃仓库的多文件 diff 上，Opus 4.8 在推理能力上相对 4.7（64.3%）有明显提升，所以把分数拉开了。M3 的卖点不是单题质量，是性价比——每 token 价格大约低 10 倍，分数和 GPT-5.5 的 58.6% 基本同档。

MiniMax 是不是故意挑 Opus 4.7 而不是 4.8 来对比？

差不多算是。MiniMax 发布会的 PPT 拿 M3 对 Opus 4.7。但 Anthropic 在 5 月 28 日（M3 发布前 4 天）就出了 Opus 4.8。Benchmark 一般在发布前几周就跑完了，所以这个版本错位不算造假，但确实让 M3 看上去离第一梯队更近——按 4.8 真实数字算其实没那么近。

MiniMax M3 真的能在一个 prompt 里塞 1M token 代码吗？

可以——MiniMax Sparse Attention（MSA）撑起 1M 上下文，最大输出 131K token。MSA 让 1M 上下文场景下解码大约快 15.6 倍、prefill 大约快 9.7 倍（对比老的 M2 系列），但满上下文下的实际吞吐还是看具体负载。建议跟 Opus 4.8（同样 1M 上下文）在你自己的真实 prompt 上 A/B 之后再定。

生产环境跑编码 agent，哪个更便宜？

MiniMax M3，差距很大。ofox 上 M3 输入 $0.6/M、输出 $2.4/M；Opus 4.8 输入 $5/M、输出 $25/M。一次 1M 输入 + 200K 输出的 agent 任务，M3 大约 $1.08，Opus 4.8 大约 $10——单次差 9 倍，团队规模一上来就是数量级的差。

Claude Code 配 MiniMax M3 跑 agent 工作流可以吗？

可以。MiniMax 自己跑 SWE-Bench Pro 的时候用的就是 Claude Code 当脚手架。把 Claude Code 的 base_url 指向 ofox，model ID 填 minimax/minimax-m3 就能跑。注意长 agent loop 上偶尔有 tool 格式上的小坑——Claude Code 工具链默认 Anthropic 风格语义，不是每家 provider 都对得严丝合缝。

什么 benchmark 上 MiniMax M3 反过来比 Claude Opus 4.8 强？

成本调整后的 benchmark 和长时长任务。MSA 专门针对 1M 上下文解码速度优化，所以 35+ 小时的自主运行和全仓重构按 $/任务算应该是 M3 占优。Opus 4.8 在硬核推理的单次质量上仍然领先。

SWE-Bench Pro 那个分数有第三方独立复现过吗？

还没有。MiniMax 是在自己的基础设施上跑的，用 Claude Code 当脚手架，自报 59.0%。SWE-Bench Pro 官方榜到 6 月中旬还没把 M3 收进去。这个数字目前只能当方向性信号看，等第三方复现再下定论。

MiniMax M3 对比 Claude Opus 4.8：SWE-Bench 差 10 分但便宜 10 倍，怎么选（2026）

MiniMax M3 刚以 Claude Opus 4.8 十分之一的价格在 SWE-Bench Pro 拿到 59%——但标题里那句 “M3 干掉 GPT-5.5”，悄悄拿来对比的其实是 Anthropic 的上一代旗舰。

30 秒决策表

问题	答案
SWE-Bench Pro 分数更高？	Claude Opus 4.8（69.2% vs M3 的 59.0%）
每 token 更便宜？	MiniMax M3（输入输出都便宜约 10 倍）
上下文窗口更大？	平手——都是 1M token
今天能拿到开源权重？	实际两个都没——M3 权重超出承诺的 10 天窗口仍未发布
跑常规编码 agent 更划算？	M3——按 $/任务算，质量差距被价格差距填平
硬核多文件 diff 和审计场景？	Opus 4.8——约 10 分的 benchmark 差距是真实的

结论：负载是价格敏感的 agent 跑批，选 MiniMax M3，ofox 上 model ID 填 minimax/minimax-m3；负载是多文件 PR 上的硬推理，选 anthropic/claude-opus-4.8。最干净的验证方式是改一个字符串，用同一个 prompt 把两个模型都跑一遍——代码贴在文末。

速览：四种场景该选哪个

四个场景大概覆盖了 90% 的真实编码工作，一行决策：

场景	选	原因
Lint-fix 循环、格式化 agent、低风险重构	MiniMax M3	单次便宜 10 倍；简单 diff 上看不出质量差距
IDE agent 插件（Cursor、Windsurf、Cline）	默认 MiniMax M3，“解释这个 bug” 切到 Opus 4.8	M3 扛得住工具循环量；需要推理的少数 prompt 切 Opus
多文件重构，一个错 patch 等于一小时 debug	Claude Opus 4.8	10 分 SWE-Bench 差距 = 硬仓库上明显更少的烂 diff
1M 上下文全仓 grep + patch	两个都测	MSA 长上下文更快；Opus 准确率更高。拿你自己的仓库 A/B

最大的坑是把这个当成一锤子决策。大多数团队真正想要的是两个模型都接好、按任务路由——这也是 ofox 同 base_url 一行切换设计要解决的事。路由模式见后面的 ofox 切换方案。

关键规格对比

价格信息来自 ofox 模型广场 2026-06-13 快照。上下文和输出上限来自厂商文档。

规格	MiniMax M3	Claude Opus 4.8
ofox model ID	`minimax/minimax-m3`	`anthropic/claude-opus-4.8`
输入价格	$0.60/M token	$5.00/M token
输出价格	$2.40/M token	$25.00/M token
缓存输入价格	$0.12/M token	$0.50/M token
上下文窗口	1M token	1M token
最大输出	131K token	128K token（Simon Willison 2026-05-28 review）
输入模态	文本 + 图片 + 视频	文本 + 图片
厂商自报 SWE-Bench Pro	59.0%	69.2%
发布日期	2026-06-01	2026-05-28
开源权重？	承诺过，未按期发	否（闭源）
架构	MiniMax Sparse Attention（MSA）	Dense transformer（Anthropic）

两条规格值得停下来看一眼：

输入价比是 8.3 倍，输出价比是 10.4 倍。 典型编码 agent 每个输入 token 会吐出 0.2–0.5 个输出 token，所以实际生效的价比落在 9 到 10 倍之间——拍脑袋估算就按 10 倍走。

最大输出基本平手。 M3 是 131K，Opus 4.8 是 128K——这 3K 的差对操作形态没影响。两边都能一次吐一个小文件或十来个单元测试，超过约 130K 都要分多次调用。在输出上限上别纠结，按价格或质量选。

SWE-Bench Pro：故事的起点

SWE-Bench Pro 是 SWE-bench 家族里最难的变种——题目来自活跃维护的仓库，多文件 diff，不存在公开 ground truth 泄漏。在编码 benchmark 里，这是目前最难靠死记硬背刷分的一个。

2026 年 6 月初，三家旗舰的分数排队站好：

模型	SWE-Bench Pro	发布日期	备注
Claude Opus 4.8	69.2%	2026-05-28	Anthropic 自测，官方
Claude Opus 4.7	64.3%	2026-04	MiniMax 拿来对比 M3 的那个
MiniMax M3	59.0%	2026-06-01	自家基建跑，Claude Code 当脚手架
GPT-5.5	58.6%	2026-04-23	OpenAI 自测
Gemini 3.1 Pro	< 58.6%	2026	公榜显示低于 GPT-5.5

MiniMax 6 月 1 日发布稿的第一句话大意是：“M3 在 SWE-Bench Pro 上以十分之一的成本超越 GPT-5.5 和 Gemini 3.1 Pro。” 字面意思没错。漏说的是：Anthropic 四天前已经出了 Opus 4.8 拿 69.2%，而 MiniMax 的对比图选的是上一代 Opus 4.7 的 64.3%。

第三方验证状态是另一行小字。MiniMax 是在自己基建上跑的，用 Claude Code 当 agent 脚手架，评测逻辑对齐了官方方法论。SWE-Bench Pro 官方榜到本文成稿时还没收 M3。59.0% 当方向性信号看就行——第三方干净复现可能落在 56% 或 61%，但结论的形状不会变：M3 在 GPT-5.5 同一档，比 Opus 4.8 低一档。

诚实的一句话总结：M3 的数字是真的，但市场表达是有选择的。

Terminal-Bench 2.1 和多模态：M3 拉近差距的地方

SWE-Bench Pro 只是一个信号。在 Terminal-Bench 2.1 上——这是长时长终端执行的 benchmark，比如让 agent “把开发环境装好并跑通失败的测试”——MiniMax 报 M3 拿 66.0%。这个分数和 Opus 4.8 在类似区间打平（按 Anthropic release notes），明显领先 GPT-5.5。原因是 MSA 在长上下文下的解码速度让长工具循环的重试成本更低，agent 能在同一个预算内从更多失败里爬出来。

原生多模态是另一个卖点。M3 既吃图也吃视频。Opus 4.8 吃图但不吃视频。落到编码场景里这两条意义在两件事上：粘贴 stack trace 截图，喂一段 UI bug 的屏幕录像。截图两边都搞得定；屏幕录像只有 M3 能直接处理。

95% 的编码工作里这两条都决定不了选型——你大部分时间在盯文本。但只要你开始造那种”真去看浏览器”的 agent，这两条就开始起作用了。

价格数学：1M token 真实账单

厂商 benchmark 跑在理想基建上，账单跑在生产流量上。三种真实负载形态：

负载形态	token 量	MiniMax M3 成本	Claude Opus 4.8 成本	倍数
常规重构 agent（1M 输入 + 200K 输出）	1.2M	$1.08	$10.00	9.3×
重代码生成（500K 输入 + 500K 输出）	1M	$1.50	$15.00	10.0×
全仓 grep + patch（1M 输入 + 50K 输出）	1.05M	$0.72	$6.25	8.7×
长上下文审计（1M 缓存命中 + 50K 输出）	1.05M	$0.24	$1.75	7.3×

数字基于 ofox 2026-06-13 公布的价格：M3 输入 $0.60/M，输出 $2.40/M，缓存 $0.12/M；Opus 4.8 输入 $5/M，输出 $25/M，缓存 $0.50/M。算法是单价 × token 量，没做四舍五入。

放到团队规模上，画面就变了。拍一组代表性参数——5 名开发，每人每天 100 次 agent 调用，每次 500K 输入 + 100K 输出，每月 22 个工作日：

M3 单次：$0.30 + $0.24 = $0.54。每月：5 × 100 × 22 × $0.54 = $5,940。
Opus 4.8 单次：$2.50 + $2.50 = $5.00。每月：5 × 100 × 22 × $5.00 = $55,000。

5 个工程师默认路由到 Opus，每月烧掉一份小房贷。同样团队，M3 当默认、Opus 只在硬问题上调用（比如 10% 占比），账单大约 $11K。M3 的性价比论点不是”便宜就行”，而是省下来的 $44K 让你能在真正需要推理的 prompt 上更多调用 Opus。

“开源权重”那个小字：权重到底在哪？

MiniMax 6 月 1 日发布稿把 M3 定位成”唯一一个同时具备前沿编码能力、1M 上下文和原生多模态的开源权重模型”。权重和技术报告原计划在发布后约 10 天上 Hugging Face 和 GitHub——也就是 6 月 10–11 日窗口。

到 2026 年 6 月 13 日，MiniMax-M3 GitHub 仓库上还挂着这行字：“this model is not yet released — this repository exists so the community can share what they need next.” API 在 ofox 等聚合商已经能调，但今天没办法自托管。这个仓库挂了占位符将近两周。

这不是致命问题——厂商权重发布迟到是常态，“10 天”是软窗口不是合同。但它确实改变了实际对比。如果你选 M3 就是冲着两周内能把权重拉进私有集群——这个赌还没赢。眼下从部署角度看，MiniMax M3 和 Claude Opus 4.8 都是 API-only，开源权重这条轴在 2026 年 6 月还分不出胜负。

等权重真的出来，账面会再变一次。自托管 M3 集群按你的 GPU 租约摊销，不按 token 计价——对于 24/7 持续负载，这是一条根本不同于 Opus 按 token 算的成本曲线。但那是权重真出现在 Hugging Face 那天再写的文章。

什么时候选 MiniMax M3

满足任一条件就选 minimax/minimax-m3：

跑 agent 量很大。 Lint 修复 bot、格式化循环、codemod agent、“补 docstring” 流水线——这些场景的瓶颈是 token 成本，不是单 prompt 质量。M3 的 10 倍价格优势把 10 分的质量差距按 $/任务算压平了。
付费在长上下文输入上。 全仓 prompt（1M token 输入，小 diff 输出）是 MSA 解码速度和 M3 输入价格叠加的甜点区。一百万缓存 token 在 M3 上 $0.12，在 Opus 上 $0.50。
视频输入是硬需求。 Opus 4.8 吃图但不吃视频。如果你的 agent 要看 30 秒 UI bug 录屏，本文比的两个模型里只有一个能做。
要对冲 Opus 4.8 价位的风险。 即使主用 Opus 4.8 的团队也会把常规 prompt 路由到便宜模型上。M3 目前是 1M 上下文的子 $1/M 编码选项里最强的一个。
第三方 SWE-Bench Pro 复现一旦走低你就准备切。 59% 当临时数字用，把你的栈搭成能一行 config 把 minimax/minimax-m3 换成下一个便宜的挑战者。

什么时候选 Claude Opus 4.8

满足任一条件就选 anthropic/claude-opus-4.8：

一个错 patch 比 token 账单更贵。 生产 hotfix、安全敏感的重构、任何你 merge 前自己也会过一遍 diff 的场景。约 10 分的 SWE-Bench Pro 差距集中在最难的题上——不是平均题。
造推理重的 agent。 “读这份事故复盘，提三个修法。""审一遍这段 OAuth 流程，找 bug。” Opus 4.8 在推理上相对 4.7 的提升是肉眼可见的，参考 Anthropic release notes 和 Simon Willison 的独立 review。
已经在 Anthropic 生态里。 Claude Code、Anthropic MCP 工具链、动态工作流——都默认 Anthropic 风格的工具语义。M3 配 Claude Code 能跑（MiniMax 自己就用它当脚手架），但工具格式预期上会有边角 case。
“Fast mode” 价位刚好对得上你的场景。 Opus 4.8 出了一档 $10/M 输入 / $50/M 输出的 Fast mode，给延迟敏感场景用。比常规档贵，但比降级到 Opus 4.7 等更久强。这层对比的对手不是 M3——是 Anthropic 自家的 Opus 4.8 常规档 vs Fast 档，我们在 Claude Opus 4.8 发布解读里讲过。
评测套件已经按 Opus 校准过。 如果你的团队有一套”高级评审会不会过这个 PR”的评测，是按 Opus 输出调过的，换模型相当于让评测失效，得重新校准。这是真工程成本，不是手感问题。

什么时候两个都不选（和该用什么替代）

有几种场景，这个对比本身就是问错了问题：

每 token 预算低于 $0.10、做简单重构。 看更小的模型，比如 Claude Haiku 4 或 GPT-5.4 Mini——我们在预算编码模型对比里写过。lint-fix 用 GPT-5.4 Mini $0.10/M 就够的事，非要花 M3 $0.60/M 是表演。
今天就要本地部署。 M3（权重没到）和 Opus 4.8（闭源）都是 API-only。今天能本地跑的前沿编码模型选项是 Qwen 3.7 Max 之类——参考我们 Qwen 对比 Claude Opus 4.6 编码那篇。
优化目标是严格延迟 SLA，不是成本。 M3 和 Opus 4.8 都是质量导向的，不是 p50 延迟导向。更小的快模型在 TTFT 上能把两个都甩开。
要一次评估多个前沿模型。 搭对比 harness，别选一个。多 agent 编码工具对比那篇写过 harness 模式。

通过 ofox 同时跑两边：10 行代码 A/B

整个对比可以收敛成一个字符串改动，前提是你通过 ofox 的 OpenAI 兼容 endpoint 调两个模型。同一个 base_url、同一个 SDK，只换 model 参数。

Python——一个循环跑两个模型

from openai import OpenAI

client = OpenAI(api_key=OFOX_API_KEY, base_url="https://api.ofox.ai/v1")
PROMPT = "把这个函数重构一下，去掉重复逻辑: ..."

for model in ["minimax/minimax-m3", "anthropic/claude-opus-4.8"]:
    resp = client.chat.completions.create(
        model=model,
        messages=[{"role": "user", "content": PROMPT}],
    )
    print(model, resp.usage.total_tokens, resp.choices[0].message.content[:120])

跑一次你能拿到每个模型的 token 用量，和输出前 120 字符——肉眼对比。把 total_tokens 数字塞回上面那张价格表，你得到的是真实 prompt 上的单次成本，不是厂商 benchmark 数字。

Node——同样的形状

import OpenAI from "openai";

const client = new OpenAI({ apiKey: process.env.OFOX_API_KEY, baseURL: "https://api.ofox.ai/v1" });
const prompt = "把这个函数重构一下，去掉重复逻辑: ...";

for (const model of ["minimax/minimax-m3", "anthropic/claude-opus-4.8"]) {
  const r = await client.chat.completions.create({ model, messages: [{ role: "user", content: prompt }] });
  console.log(model, r.usage.total_tokens, r.choices[0].message.content.slice(0, 120));
}

形状一样、endpoint 一样、SDK 调用一样。模型之间的迁移成本就是一个字符串。这也是这种对比能在 10 行代码里被回答，而不是一周对接两家厂商的唯一原因。

带工具调用的多轮 agent 循环也一样——两个模型都通过 ofox 接受 OpenAI 风格的 tools 数组。具体工具的格式建议在你那边测一遍，因为每家 provider 的严格模式处理在边缘上会差一点，但合同是同一份。

兼容性小坑：两个 API 实际差在哪

同一个 endpoint、同一个 SDK 调用——但有几个尖角值得在接生产之前知道。

系统 prompt 处理。 Claude Opus 4.8 把 system 角色当严格系统 prompt，权重最高。MiniMax M3（走 OpenAI 兼容路径时）把 system 折回对话流里，约束更松。如果你的 agent 依赖”系统 prompt 独占约束”——比如”除非用户问，不要调这个工具""永远用 JSON 返回”——M3 大多数时候会遵守，但长 tool 循环上更可能跑偏。解法：把关键约束在第一条用户消息里再说一遍。

工具调用格式严格度。 Opus 4.8 强校验工具参数 schema——你 parameters JSON Schema 把字段标 required 但模型填不出来，它会拒绝调用。M3 更宽松，偶尔会用占位字符串发出工具调用。如果你的工具层把占位串当合法参数，就会静默执行错动作；如果严校验，就会看到更多重试。修法两边都一样：在服务端校验工具参数，不要只靠模型。

缓存语义。 两边都有缓存输入价，但 Anthropic 把账单拆成 write 和 read。Opus 4.8 上你先付一次性的 cache write $6.25/M（5 分钟 TTL）或 $10/M（1 小时 TTL），之后每次 cache read 都按 $0.50/M——也就是上面规格表里的数字。M3 在 ofox 上是单一的 $0.12/M read 价，TTL 隐式，没有单独的写入加价。对那种一分钟里反复命中同一个长上下文 prompt 的负载（比如静态仓库 prompt 的代码评审 agent），M3 在 cache read 层显著更便宜。对那种缓存能保持几个小时、write 成本被多次 read 摊销的负载，Opus 4.8 的 1 小时档在质量之外也有竞争力。

流式 chunk 形状。 两边都流 OpenAI 兼容的 chunks，但 Opus 4.8 启用 extended thinking 时会吐更细的 delta.thinking 事件（在我们 Opus 4.8 解读里讲过）。如果你客户端把 thinking delta 跟 content delta 分开解析，那段代码对 Opus 有效，对 M3 是空操作——M3 目前不通过 OpenAI 兼容路径暴露 thinking delta。不是 bug，只是字段没被用。

provider 边缘的限流。 通过 ofox 调两个模型，你共享同一份限流配额，挂在你的 API key 上——不是两家厂商各自的独立配额。这正是网关形态要解决的事：Opus 限流时回落到 M3，M3 限流时回落到 Opus，全都不用倒腾两套凭据。

MiniMax M3 对比 Claude Opus 4.8 的整个问题，可以收敛成同一个 endpoint 上的一次字符串切换——这也是 2026 年选编码模型唯一靠谱的方式。

参考信息来源

Anthropic — Introducing Claude Opus 4.8 （2026-06-13 验证）
MiniMax-M3 GitHub 仓库（权重状态 2026-06-13 验证）
TestingCatalog on X — Opus 4.8 SWE-Bench Pro 69.2% vs 4.7 64.3%
The Decoder — MiniMax M3：百万 token 上下文的开源权重模型挑战闭源旗舰
Simon Willison — Claude Opus 4.8: a modest but tangible improvement
ofox 模型广场快照 minimax/minimax-m3 与 anthropic/claude-opus-4.8 （价格 2026-06-13 验证）