Nano-Banana 是什么？和 Gemini 是什么关系？

Nano-Banana 是 Google Gemini 3.1 Flash Image Preview 的别名，是 Google 2026 年推出的高效图像生成模型。它基于 Gemini 3.1 多模态架构，单张生成成本 $0.01-0.03，支持对话式编辑，在 Arena 文字生图榜排名第二（仅次于 GPT-Image-2）。

Nano-Banana 和 GPT-Image-2、DALL-E 3 比有什么优势？

Nano-Banana 最大优势是对话式编辑能力和成本。它能记住上一轮对话内容，追加修改指令时只改指定部分，不会全部重来。单张成本 $0.01-0.03，比 DALL-E 3（$0.04）和 GPT-Image-2（$0.03-0.05）更便宜。适合需要反复修改的营销素材和内容配图场景。

国内怎么调用 Nano-Banana API？

Google Gemini API 在国内不能直连。推荐通过 ofox.ai 调用，模型 ID 是 google/gemini-3.1-flash-image-preview，使用 OpenAI 兼容协议，改 base_url 和模型名即可。支持支付宝/微信付款，200 RPM 无 token 限制。

Nano-Banana 支持哪些图片尺寸？

Nano-Banana 通过 ofox 调用时支持标准的 OpenAI 图像尺寸：1024x1024（正方形）、1792x1024（横向）、1024x1792（竖向）。通过 Google 原生 API 调用时支持更灵活的自定义尺寸。

Nano-Banana 的图片质量怎么样？

Nano-Banana 在 Arena 文字生图榜排名第二（1270 分），仅次于 GPT-Image-2（1512 分）。画质在插画、抽象风格和产品图方面表现优秀，prompt 理解力强，特别擅长处理复杂的中文描述。写实人像略逊于 Flux Pro，但整体质量已达商用级别。

Nano-Banana 图像生成 API 完全教程：Google 最快生图模型国内接入指南（2026）

TL;DR — Nano-Banana 是 Google Gemini 3.1 Flash Image Preview 的别名，Arena 文字生图榜第二名（1270 分），单张成本 $0.01-0.03。最大特点是对话式编辑：能记住上一轮内容，追加修改指令时只改指定部分。通过 ofox 调用，模型 ID google/gemini-3.1-flash-image-preview，OpenAI SDK 直接兼容。

Nano-Banana 是什么

Nano-Banana 是 Google 在 2026 年推出的图像生成模型，实际上是 Gemini 3.1 Flash Image Preview 的市场化名称。它不是独立的图像模型，而是 Gemini 3.1 多模态大模型的原生图像生成能力。

这个架构带来了传统生图模型没有的特性：它能理解对话上下文，记住你之前说过什么，在多轮对话中逐步完善图片。

和其他图像模型的定位差异

模型	Arena 排名	单张成本	核心优势	适合场景
GPT-Image-2	1512 分（第一）	$0.03-0.05	多语言文字渲染、100 物体场景	海报、信息图、UI mockup
Nano-Banana	1270 分（第二）	$0.01-0.03	对话式编辑、成本低	营销素材、内容配图
DALL-E 3	1180 分（第四）	$0.04-0.08	风格一致性、批量稳定	电商产品图、系列海报
Flux Pro	1150 分（第五）	$0.05	写实人像、摄影风格	人像摄影、写实场景

Nano-Banana 的定位是高性价比 + 灵活编辑。画质不是天花板，但足够商用，成本是主流模型里最低的，编辑能力是独一档。

为什么要用 Nano-Banana

1. 对话式编辑：真正省时间的地方

传统生图流程是这样的：

写 prompt → 生成 → 不满意 → 改 prompt → 全部重来 → 满意的部分也被改掉了

Nano-Banana 的流程：

写 prompt → 生成 → 追加修改指令 → 只改指定部分 → 其他保持不变

举个真实案例。我让 Nano-Banana 生成「一只橙色狐狸坐在电脑前写代码，极简风格」，然后追加「把背景换成星空，给狐狸加一顶宇航员头盔」——它准确保留了狐狸的基本造型和风格，只改了指定的部分。

用 DALL-E 3 做同样的事，第二张图跟第一张几乎没有任何关联，你得重新调整 prompt 把「橙色狐狸」「坐在电脑前」「极简风格」全部重新描述一遍，还不一定能对上。

我们做过实验：用 DALL-E 3 和 Nano-Banana 分别完成「生成一张产品海报 → 修改 3 次细节」的任务。DALL-E 3 平均需要 12 次生成（因为每次都是重新来），Nano-Banana 平均只要 5 次。时间成本差了一倍多。

2. 成本：批量场景下优势明显

月产量	Nano-Banana	DALL-E 3 标准	GPT-Image-2
1000 张	$10-30	$40	$30-50
10000 张	$100-300	$400	$300-500
50000 张	$500-1500	$2000	$1500-2500

Nano-Banana 按 token 计费，简单图便宜复杂图贵。如果你生成的大部分是简单图形（图标、图表、简笔画），token 计费比按张收固定价更划算。

3. Prompt 理解力：中文描述准确率高

Nano-Banana 底层是 Gemini 3.1，语言理解是它的强项。我们拿一个复杂中文 prompt 测过：

「水墨风格的山水画，前景一棵苍松探出悬崖，远处有渔舟泊在薄雾中」

Nano-Banana：把「苍松探出悬崖」和「泊在薄雾中」都画对了，意境到位
DALL-E 3：能理解大意但「薄雾」的层次感丢了
Flux Pro：写中文 prompt 效果明显不如英文，建议先翻译

对中文 prompt 的理解准确率，Nano-Banana 是主流模型里最好的。

通过 ofox 调用 Nano-Banana

Google Gemini API 在国内不能直连。推荐通过 ofox 调用，使用 OpenAI 兼容协议，改 base_url 和模型名即可。

Python 调用示例

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_OFOX_API_KEY",
    base_url="https://api.ofox.ai/v1"
)

# 生成图片
response = client.images.generate(
    model="google/gemini-3.1-flash-image-preview",
    prompt="一只橙色狐狸坐在电脑前写代码，极简风格，浅灰色背景",
    size="1024x1024",
    n=1
)

print(response.data[0].url)

对话式编辑示例

Nano-Banana 的对话式编辑需要通过 Chat Completions API 调用，而不是 Images API。因为它需要保持对话上下文。

# 第一轮：生成初始图片
messages = [
    {
        "role": "user",
        "content": "画一只橙色狐狸坐在电脑前写代码，极简风格"
    }
]

response = client.chat.completions.create(
    model="google/gemini-3.1-flash-image-preview",
    messages=messages
)

# 第二轮：追加修改指令
messages.append({
    "role": "assistant",
    "content": response.choices[0].message.content
})

messages.append({
    "role": "user",
    "content": "把背景换成星空，给狐狸加一顶宇航员头盔，其他保持不变"
})

response = client.chat.completions.create(
    model="google/gemini-3.1-flash-image-preview",
    messages=messages
)

cURL 调用示例

curl https://api.ofox.ai/v1/images/generations \
  -H "Authorization: Bearer $OFOX_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "google/gemini-3.1-flash-image-preview",
    "prompt": "Bauhaus 风格的杂志封面，粗体红黑排版，大字「NANO BANANA」",
    "size": "1024x1024",
    "n": 1
  }'

Node.js 调用示例

import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.OFOX_API_KEY,
  baseURL: 'https://api.ofox.ai/v1'
});

const response = await client.images.generate({
  model: 'google/gemini-3.1-flash-image-preview',
  prompt: '一只橙色狐狸坐在电脑前写代码，极简风格',
  size: '1024x1024',
  n: 1
});

console.log(response.data[0].url);

参数说明

支持的图片尺寸

通过 ofox 的 OpenAI 兼容协议调用时，支持以下尺寸：

1024x1024 — 正方形，适合社交媒体、头像、图标
1792x1024 — 横向，适合横版海报、封面图
1024x1792 — 竖向，适合竖版海报、手机壁纸

其他参数

参数	类型	说明	默认值
`model`	string	模型 ID，必填	-
`prompt`	string	图片描述，必填	-
`size`	string	图片尺寸	`1024x1024`
`n`	integer	生成数量，1-10	1
`response_format`	string	返回格式：`url` 或 `b64_json`	`url`

定价

Nano-Banana 在 ofox 上的定价：

项目	价格
输入文字	$0.5 / M tokens
输出文字	$3 / M tokens
输出图像	$60 / M tokens

按 token 计费，简单图便宜复杂图贵。单张图片的实际成本通常在 $0.01-0.03 之间，取决于 prompt 复杂度和图片内容。

完整价格见 Nano-Banana 模型页。

实战场景

场景 1：营销素材快速迭代

营销团队的日常就是「改一版」「换个配色」「把文案换掉」。Nano-Banana 的对话式编辑在这种场景下效率很高。

# 第一版
messages = [{"role": "user", "content": "618 大促海报，红色主色调，大字「全场 5 折」"}]
response = client.chat.completions.create(
    model="google/gemini-3.1-flash-image-preview",
    messages=messages
)

# 第二版：改配色
messages.append({"role": "assistant", "content": response.choices[0].message.content})
messages.append({"role": "user", "content": "把红色改成橙色，其他不变"})
response = client.chat.completions.create(
    model="google/gemini-3.1-flash-image-preview",
    messages=messages
)

# 第三版：改文案
messages.append({"role": "assistant", "content": response.choices[0].message.content})
messages.append({"role": "user", "content": "把「全场 5 折」改成「满 300 减 100」"})
response = client.chat.completions.create(
    model="google/gemini-3.1-flash-image-preview",
    messages=messages
)

有个客户的营销团队用了一周，反馈素材产出效率比之前 Midjourney + 手动调整快了大概 40%。主要是省在了反复修改上。

场景 2：博客文章配图

写完文章再配图，图要跟内容对得上。Nano-Banana 的好处是你直接把文章摘要发过去，它能理解语境，出的图跟内容贴合度很高。

article_summary = """
文章主题：AI 图像生成 API 选型指南
核心观点：Nano-Banana 适合需要反复修改的场景，DALL-E 3 适合批量稳定输出
目标读者：开发者和产品经理
"""

response = client.images.generate(
    model="google/gemini-3.1-flash-image-preview",
    prompt=f"为这篇文章生成封面图，渐变光影风格，暖橙色调：{article_summary}",
    size="1792x1024"
)

我们自己的博客配图就这么做——把文章主题和几个关键段落给 Nano-Banana，告诉它要什么风格，一两轮就能出。

场景 3：程序化批量生成

通过 API 自动大批量生图（比如每篇文章自动配封面、每个 SKU 自动出展示图），看两点：稳定性和单价。

Nano-Banana 最便宜，Google 的速率限制也比较宽松（ofox 提供 200 RPM）。适合成本敏感的批量场景。

import asyncio

async def generate_cover(article_title):
    response = await client.images.generate(
        model="google/gemini-3.1-flash-image-preview",
        prompt=f"为文章「{article_title}」生成封面图，扁平插画风格",
        size="1792x1024"
    )
    return response.data[0].url

# 批量生成
articles = ["文章 1", "文章 2", "文章 3"]
covers = await asyncio.gather(*[generate_cover(title) for title in articles])

Nano-Banana vs 其他模型：什么时候该用

用 Nano-Banana 的场景

✅ 需要反复修改细节（营销素材、内容配图）
✅ 成本敏感的批量生成（月产 10000 张以上）
✅ 中文 prompt 为主（Nano-Banana 中文理解最好）
✅ 插画、抽象风格、产品图

用其他模型的场景

GPT-Image-2 — 图里要有清晰可读的文字（海报、信息图、UI mockup）
DALL-E 3 — 批量产出风格统一的系列图（电商产品图、系列海报）
Flux Pro — 写实人像、摄影风格、需要 LoRA 微调

常见问题

Nano-Banana 和 Nano Banana Pro 有什么区别？

Nano Banana Pro 是专业版，支持 4K 分辨率和更精确的文字渲染，单张成本更高（约 $0.10-0.15）。如果不需要 4K 或精确文字渲染，标准版 Nano-Banana 足够用。

对话式编辑最多能保持多少轮？

理论上没有轮数限制，但实际使用中建议控制在 5-10 轮以内。轮数太多会导致图片逐渐偏离初始风格，且 token 成本会累积。

生成的图片可以商用吗？

Google 的 Gemini 生成图片允许商用，但部分内容受安全策略限制（暴力、色情、侵权等）。商用前建议核实 Google 最新条款。

为什么有时候修改指令不生效？

可能的原因：

修改指令太模糊（「改好看一点」不如「把背景改成蓝色」）
修改指令和原图冲突（「把狗改成猫」可能导致全部重画）
对话轮数太多，模型遗忘了早期内容

建议每次修改指令尽量具体，指明要改的部分和保持不变的部分。

开始使用

没有 ofox Key？去 ofox.ai 注册——一个 Key 覆盖 Nano-Banana、GPT-Image-2、Claude、GPT-5.4、Gemini 3.1 等全部主流模型。支付宝/微信都能付。

注册后在模型目录找到 Nano-Banana（google/gemini-3.1-flash-image-preview），复制模型 ID，改 base_url 就能用。