Mar 18, 2026

GPT-5.4-mini 和 GPT-5.4-nano API 完全指南：性能、价格与最佳实践（2026）

TL;DR

GPT-5.4-mini 在编程、推理、多模态和工具调用上全面超越 GPT-5-mini，速度快 2 倍以上，SWE-Bench Pro 得分 54.4%（接近旗舰版的 57.7%）
GPT-5.4-nano 是目前性价比最高的小模型，输入 $0.20/百万 token，比 Gemini 3.1 Flash-Lite 还便宜
两个模型专为 Sub-Agent 架构 设计，适合编程助手、自动化任务分发、实时多模态应用
国内开发者可通过 Ofox.ai 的 OpenAI 兼容接口直接调用，无需额外配置

发布背景：为什么需要小模型

2026 年 3 月 17 日，OpenAI 正式发布了 GPT-5.4-mini 和 GPT-5.4-nano——继两周前 GPT-5.4 旗舰模型之后的”轻量级双子星”。

这次发布的时机很有意思。AI 应用正在从”单次对话”走向 多 Agent 协作 的架构时代。一个复杂任务不再由一个大模型独自完成，而是由一个”调度 Agent”拆分成多个子任务，分发给更小、更快、更便宜的模型并行执行。

这就是 OpenAI 官方所说的 Sub-Agent 时代：

“这些模型针对延迟直接影响产品体验的工作负载进行了优化：需要实时响应的编程助手、快速完成辅助任务的 Sub-Agent、捕获和解读截图的计算机操控系统，以及实时推理图像的多模态应用。”

简单说，GPT-5.4-mini 和 nano 不是旗舰模型的”阉割版”，而是为特定工作负载量身打造的生产力工具。

GPT-5.4-mini vs nano：核心参数对比

参数	GPT-5.4	GPT-5.4-mini	GPT-5.4-nano
输入价格 ($/百万 token)	$2.50	$0.75	$0.20
缓存输入 ($/百万 token)	$0.25	$0.075	$0.02
输出价格 ($/百万 token)	$15.00	$4.50	$1.25
速度	基准	2x+ 于 GPT-5-mini	最快
SWE-Bench Pro	57.7%	54.4%	52.4%
GPQA Diamond	93.0%	88.0%	82.8%
OSWorld-Verified	75.0%	72.1%	39.0%
可用渠道	API	API + ChatGPT + Codex	仅 API
最佳场景	复杂推理	编程/工具调用	分类/提取/子任务

一个关键数据：GPT-5.4-nano 的 SWE-Bench Pro 得分（52.4%）已经超过了上一代 GPT-5-mini（45.7%）。也就是说，最便宜的新模型比上一代的”中杯”编码能力还强。

GPT-5.4 全系列性能与定价对比

基准测试深度解析

SWE-Bench Pro：真实软件工程能力

SWE-Bench Pro 测试模型解决真实 GitHub issue 的能力，是目前最权威的编码基准之一。

模型	SWE-Bench Pro	对比
GPT-5.4	57.7%	旗舰基准
GPT-5.4-mini	54.4%	仅差 3.3 个百分点
GPT-5.4-nano	52.4%	超越上代 GPT-5-mini
GPT-5-mini（上代）	45.7%	—

解读：GPT-5.4-mini 的编程能力已经接近旗舰版，只花 30% 的价格就能获得 94% 的编程能力。这对 AI 编程助手产品来说是巨大的成本优化空间。

GPQA Diamond：科学推理

GPQA Diamond 包含物理、化学、生物等高难度研究生级别的科学推理题。

GPT-5.4-nano 得分 82.8%，已经超过上代 GPT-5-mini 的 81.6%
GPT-5.4-mini 得分 88.0%，接近旗舰版的 93.0%

OSWorld-Verified：桌面操控

这是一个测试模型”操控电脑”能力的基准——通过截图理解界面并执行操作。

GPT-5.4-mini 高达 72.1%，几乎追平旗舰版（75.0%）
GPT-5.4-nano 只有 39.0%，明显落后

结论：如果你的应用需要 Computer Use（如 RPA、UI 自动化测试），选 mini 而非 nano。

定价分析：贵了还是值了？

与上一代相比，GPT-5.4 系列小模型确实涨价了：

对比	输入涨幅	输出涨幅
mini vs GPT-5-mini	3x	2.25x
nano vs GPT-5-nano	4x	3.125x

看到 3-4 倍的涨幅先别慌。我们算一笔账：

实际成本测算

场景 1：AI 客服 Bot（日均 10 万次对话）

假设每次对话平均 800 input tokens + 200 output tokens：

GPT-5.4-nano 日成本：
  输入：100,000 × 800 / 1,000,000 × $0.20 = $16.00
  输出：100,000 × 200 / 1,000,000 × $1.25 = $25.00
  合计：$41.00/天 ≈ ¥300/天

GPT-5.4-mini 日成本：
  输入：100,000 × 800 / 1,000,000 × $0.75 = $60.00
  输出：100,000 × 200 / 1,000,000 × $4.50 = $90.00
  合计：$150.00/天 ≈ ¥1,090/天

场景 2：代码 Review Agent（日均 500 个 PR）

假设每个 PR 平均 5,000 input tokens + 1,000 output tokens：

GPT-5.4-mini 日成本：
  输入：500 × 5,000 / 1,000,000 × $0.75 = $1.88
  输出：500 × 1,000 / 1,000,000 × $4.50 = $2.25
  合计：$4.13/天 ≈ ¥30/天

每天 30 块钱就能跑一个接近旗舰水平的代码审查 Agent，这个 ROI 非常可观。

缓存输入的威力

注意 Cached Input 价格——GPT-5.4-nano 缓存输入只要 $0.02/百万 token。如果你的 System Prompt 或上下文模板是固定的（大多数生产应用都是），实际成本可以再降 90%。

API 调用实战

基础调用

GPT-5.4-mini 和 nano 完全兼容 OpenAI Chat Completions API，model 参数分别是 gpt-5.4-mini 和 gpt-5.4-nano。

Python 示例：

from openai import OpenAI

client = OpenAI(api_key="your-api-key")

# 使用 GPT-5.4-mini
response = client.chat.completions.create(
    model="gpt-5.4-mini",
    messages=[
        {"role": "system", "content": "你是一个资深 Python 开发者，擅长代码审查。"},
        {"role": "user", "content": "请审查这段代码的性能问题：\n\nfor i in range(len(data)):\n    result.append(process(data[i]))"}
    ],
    temperature=0.3
)
print(response.choices[0].message.content)

Node.js 示例：

import OpenAI from 'openai';

const client = new OpenAI({ apiKey: 'your-api-key' });

const response = await client.chat.completions.create({
  model: 'gpt-5.4-nano',
  messages: [
    { role: 'system', content: '你是一个 JSON 数据提取助手，只返回结构化数据。' },
    { role: 'user', content: '从以下文本中提取姓名、邮箱和电话：张三，邮箱 zhangsan@example.com，手机 13800138000' }
  ],
  response_format: { type: 'json_object' }
});

console.log(JSON.parse(response.choices[0].message.content));

Sub-Agent 架构示例

GPT-5.4-mini/nano 最强大的用法是在 Multi-Agent 系统中充当子任务执行者：

from openai import OpenAI
import json

client = OpenAI(api_key="your-api-key")

def orchestrator(task: str) -> dict:
    """主调度 Agent（可以用 GPT-5.4 旗舰版）"""
    plan = client.chat.completions.create(
        model="gpt-5.4",
        messages=[{
            "role": "system",
            "content": "将用户任务拆解为 3-5 个独立子任务，返回 JSON 数组。"
        }, {
            "role": "user",
            "content": task
        }],
        response_format={"type": "json_object"}
    )
    return json.loads(plan.choices[0].message.content)

def sub_agent(subtask: str, model: str = "gpt-5.4-nano") -> str:
    """子任务执行 Agent（用 nano 降低成本）"""
    result = client.chat.completions.create(
        model=model,
        messages=[{
            "role": "system",
            "content": "简洁高效地完成给定任务，直接输出结果。"
        }, {
            "role": "user",
            "content": subtask
        }],
        temperature=0.2
    )
    return result.choices[0].message.content

# 使用示例
subtasks = orchestrator("分析我们产品在 GitHub 上的竞品，整理对比表格")
for task in subtasks.get("tasks", []):
    # 简单任务用 nano，复杂任务用 mini
    model = "gpt-5.4-mini" if task.get("complexity") == "high" else "gpt-5.4-nano"
    result = sub_agent(task["description"], model=model)
    print(f"✅ {task['description']}: {result[:100]}...")

这种架构的核心思想：用旗舰模型做决策，用小模型做执行。一个任务的 80% 子步骤都可以用 nano 完成，只有关键决策点才需要 mini 或旗舰版。

Function Calling / Tool Use

GPT-5.4-mini 的工具调用能力是亮点之一，特别适合构建 AI Agent：

tools = [{
    "type": "function",
    "function": {
        "name": "search_database",
        "description": "搜索产品数据库",
        "parameters": {
            "type": "object",
            "properties": {
                "query": {"type": "string", "description": "搜索关键词"},
                "category": {"type": "string", "enum": ["电子产品", "服装", "食品"]},
                "max_results": {"type": "integer", "default": 10}
            },
            "required": ["query"]
        }
    }
}]

response = client.chat.completions.create(
    model="gpt-5.4-mini",
    messages=[{"role": "user", "content": "帮我找一下最新的降噪耳机"}],
    tools=tools,
    tool_choice="auto"
)

五大典型应用场景

1. AI 编程助手（推荐 mini）

GPT-5.4-mini 在 SWE-Bench Pro 上 54.4% 的得分意味着它能处理大多数真实的代码修改任务。对于 OpenClaw、Cursor 等 AI 编程工具来说，用 mini 替换旗舰模型可以把 API 成本砍掉 70% 而几乎不损失质量。

适用任务：代码补全、Bug 修复、代码审查、重构建议、单元测试生成

2. 数据处理流水线（推荐 nano）

nano 的 $0.20/百万 input token 价格使大规模数据处理变得经济可行：

文本分类和情感分析
结构化数据提取（如从简历中提取字段）
日志分析和异常检测
批量内容审核

Simon Willison 的实测数据：用 GPT-5.4-nano 描述 76,000 张照片只需 $52.44。

3. 实时多模态应用（推荐 mini）

mini 在 OSWorld-Verified 上 72.1% 的高分证明它能很好地理解屏幕截图和 UI 元素，适合：

RPA 自动化（读取和操作桌面应用）
视觉问答（实时理解摄像头画面）
文档 OCR + 理解

4. 客服 / 对话机器人（推荐 nano）

对于意图识别、FAQ 匹配、简单对话等场景，nano 的性价比无与伦比。配合缓存输入（$0.02/百万 token），每次对话成本可以低到 不到 0.01 美分。

5. Multi-Agent 系统中的执行层（推荐 nano + mini 混合）

在 LangChain、CrewAI 等框架中：

调度 Agent：GPT-5.4 旗舰版（负责任务拆解和决策）
执行 Agent：GPT-5.4-mini（处理复杂子任务如编程、分析）
辅助 Agent：GPT-5.4-nano（处理简单子任务如格式化、分类、摘要）

国内开发者接入方案

GPT-5.4-mini 和 nano 的 API 接口与标准 OpenAI Chat Completions 完全一致，只需要修改 model 参数即可。但对于国内开发者来说，直接访问 OpenAI API 存在网络延迟高、连接不稳定等问题。

方案：通过 Ofox.ai 低延迟接入

Ofox.ai 提供 OpenAI 兼容的 API 网关，部署在阿里云和火山云上，国内访问延迟低于 100ms。

接入步骤：

在 ofox.ai 注册并获取 API Key
将 base_url 指向 Ofox 的 API 端点
其他代码完全不变

from openai import OpenAI

# 只需修改 base_url 和 api_key
client = OpenAI(
    base_url="https://api.ofox.ai/v1",
    api_key="your-ofox-api-key"
)

# 调用方式完全相同
response = client.chat.completions.create(
    model="gpt-5.4-mini",
    messages=[{"role": "user", "content": "用 Python 写一个快速排序"}]
)
print(response.choices[0].message.content)

// Node.js 同样只需改 baseURL
import OpenAI from 'openai';

const client = new OpenAI({
  baseURL: 'https://api.ofox.ai/v1',
  apiKey: 'your-ofox-api-key'
});

Ofox 的优势：

一个 Key 用所有模型：GPT-5.4 全系列、Claude、Gemini、DeepSeek、Qwen 等 50+ 模型，统一接口
国内低延迟：阿里云/火山云节点加速，TTFB（首 token 延迟）通常 < 500ms
支持人民币支付：支付宝/微信充值，无需海外信用卡
兼容所有 OpenAI SDK：Python、Node.js、Go、Java，改一行 base_url 即可切换

更多配置细节请参考 Ofox 开发者文档。

与竞品模型横向对比

维度	GPT-5.4-mini	GPT-5.4-nano	Gemini 3.1 Flash-Lite	Claude 4.5 Haiku	DeepSeek V3
输入价格	$0.75	$0.20	$0.25	$0.80	$0.27
输出价格	$4.50	$1.25	$1.50	$4.00	$1.10
编程能力	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐
推理能力	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐
多模态	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐
速度	快	极快	极快	快	快
最佳场景	全能型	高并发/低成本	多模态	代码/对话	中文场景

关键发现：

GPT-5.4-nano（$0.20 input）比 Gemini 3.1 Flash-Lite（$0.25 input）还便宜，但编码能力更强
GPT-5.4-mini 在编程任务上领先所有同价位模型
如果主要做中文文本处理，DeepSeek V3 在价格上更有优势

选型建议：通过 Ofox.ai 这类多模型聚合平台，你可以在不同任务上灵活切换模型，不被任何一家锁定。

常见问题（FAQ）

Q: GPT-5.4-mini 和 nano 支持 Function Calling 吗？

支持。两个模型都完整支持 OpenAI 的 Function Calling（Tool Use）功能，包括并行函数调用和 Structured Outputs。mini 的工具调用准确率更高，推荐在 Agent 场景中使用。

Q: GPT-5.4-nano 适合做 RAG 吗？

适合做 RAG 中的 生成环节。nano 的 GPQA Diamond 得分 82.8% 说明它的知识检索和推理能力不差。但如果 RAG 查询本身涉及复杂的多跳推理，建议用 mini。

Q: 已有的 GPT-5-mini 代码需要改什么？

只需要将 model 参数从 "gpt-5-mini" 改为 "gpt-5.4-mini" 或 "gpt-5.4-nano"。API 接口完全兼容，无需其他改动。

Q: 国内调用会不会很慢？

直连 OpenAI 的确延迟较高。通过 Ofox.ai 等国内 API 网关接入，TTFB 可以控制在 500ms 以内。对于批量处理场景，还可以使用 Batch API 进一步优化。

Q: mini 和 nano 怎么选？

一句话原则：对质量敏感的用 mini，对成本敏感的用 nano。

具体来说：

面向用户的输出（客服回复、内容生成）→ mini
后台处理（分类、提取、日志分析）→ nano
Agent 执行层 → 简单任务 nano，复杂任务 mini

Q: GPT-5.4-nano 比 GPT-5-mini 强吗？

在编码上是的。nano 的 SWE-Bench Pro 得分（52.4%）超过了 GPT-5-mini（45.7%）。但在桌面操控（OSWorld）上 nano 只有 39.0%，不如 GPT-5-mini 的 42.0%。

总结与行动建议

GPT-5.4-mini 和 nano 标志着 AI 行业正式进入 Sub-Agent 时代。小模型不再是大模型的”降级替代品”，而是多 Agent 系统中不可或缺的执行单元。

你现在应该做的：

评估现有应用的模型分层：哪些调用可以从旗舰版降级到 mini/nano？粗略估算，80% 的 API 调用都可以用小模型完成
尝试 Sub-Agent 架构：把复杂任务拆解为多个子任务，用 nano 并行执行，成本可以降低一个数量级
利用缓存输入：如果你的 System Prompt 是固定的，cached input 可以再省 90% 的输入成本
通过聚合平台灵活切换：在 Ofox.ai 上同时接入 GPT-5.4、Claude、Gemini 等模型，根据任务特性自动路由到最合适的模型

AI 的未来不是一个模型打天下，而是一个由不同规模模型组成的协作网络。GPT-5.4-mini 和 nano 就是这个网络中关键的执行节点。

GPT-5.4-mini 和 GPT-5.4-nano API 完全指南：性能、价格与最佳实践（2026）

GPT-5.4-mini 和 GPT-5.4-nano API 完全指南：性能、价格与最佳实践（2026）

TL;DR

目录

发布背景：为什么需要小模型

GPT-5.4-mini vs nano：核心参数对比

基准测试深度解析

SWE-Bench Pro：真实软件工程能力

GPQA Diamond：科学推理

OSWorld-Verified：桌面操控

定价分析：贵了还是值了？

实际成本测算

缓存输入的威力

API 调用实战

基础调用

Sub-Agent 架构示例

Function Calling / Tool Use

五大典型应用场景

1. AI 编程助手（推荐 mini）

2. 数据处理流水线（推荐 nano）

3. 实时多模态应用（推荐 mini）

4. 客服 / 对话机器人（推荐 nano）

5. Multi-Agent 系统中的执行层（推荐 nano + mini 混合）

国内开发者接入方案

方案：通过 Ofox.ai 低延迟接入

与竞品模型横向对比

常见问题（FAQ）

Q: GPT-5.4-mini 和 nano 支持 Function Calling 吗？

Q: GPT-5.4-nano 适合做 RAG 吗？

Q: 已有的 GPT-5-mini 代码需要改什么？

Q: 国内调用会不会很慢？

Q: mini 和 nano 怎么选？

Q: GPT-5.4-nano 比 GPT-5-mini 强吗？

总结与行动建议

参考资料