Nano-Banana 图像生成 API 完全教程:Google 最快生图模型国内接入指南(2026)

Nano-Banana 图像生成 API 完全教程:Google 最快生图模型国内接入指南(2026)

TL;DR — Nano-Banana 是 Google Gemini 3.1 Flash Image Preview 的别名,Arena 文字生图榜第二名(1270 分),单张成本 $0.01-0.03。最大特点是对话式编辑:能记住上一轮内容,追加修改指令时只改指定部分。通过 ofox 调用,模型 ID google/gemini-3.1-flash-image-preview,OpenAI SDK 直接兼容。

Nano-Banana 是什么

Nano-Banana 是 Google 在 2026 年推出的图像生成模型,实际上是 Gemini 3.1 Flash Image Preview 的市场化名称。它不是独立的图像模型,而是 Gemini 3.1 多模态大模型的原生图像生成能力。

这个架构带来了传统生图模型没有的特性:它能理解对话上下文,记住你之前说过什么,在多轮对话中逐步完善图片。

和其他图像模型的定位差异

模型Arena 排名单张成本核心优势适合场景
GPT-Image-21512 分(第一)$0.03-0.05多语言文字渲染、100 物体场景海报、信息图、UI mockup
Nano-Banana1270 分(第二)$0.01-0.03对话式编辑、成本低营销素材、内容配图
DALL-E 31180 分(第四)$0.04-0.08风格一致性、批量稳定电商产品图、系列海报
Flux Pro1150 分(第五)$0.05写实人像、摄影风格人像摄影、写实场景

Nano-Banana 的定位是高性价比 + 灵活编辑。画质不是天花板,但足够商用,成本是主流模型里最低的,编辑能力是独一档。

为什么要用 Nano-Banana

1. 对话式编辑:真正省时间的地方

传统生图流程是这样的:

写 prompt → 生成 → 不满意 → 改 prompt → 全部重来 → 满意的部分也被改掉了

Nano-Banana 的流程:

写 prompt → 生成 → 追加修改指令 → 只改指定部分 → 其他保持不变

举个真实案例。我让 Nano-Banana 生成「一只橙色狐狸坐在电脑前写代码,极简风格」,然后追加「把背景换成星空,给狐狸加一顶宇航员头盔」——它准确保留了狐狸的基本造型和风格,只改了指定的部分。

用 DALL-E 3 做同样的事,第二张图跟第一张几乎没有任何关联,你得重新调整 prompt 把「橙色狐狸」「坐在电脑前」「极简风格」全部重新描述一遍,还不一定能对上。

我们做过实验:用 DALL-E 3 和 Nano-Banana 分别完成「生成一张产品海报 → 修改 3 次细节」的任务。DALL-E 3 平均需要 12 次生成(因为每次都是重新来),Nano-Banana 平均只要 5 次。时间成本差了一倍多。

2. 成本:批量场景下优势明显

月产量Nano-BananaDALL-E 3 标准GPT-Image-2
1000 张$10-30$40$30-50
10000 张$100-300$400$300-500
50000 张$500-1500$2000$1500-2500

Nano-Banana 按 token 计费,简单图便宜复杂图贵。如果你生成的大部分是简单图形(图标、图表、简笔画),token 计费比按张收固定价更划算。

3. Prompt 理解力:中文描述准确率高

Nano-Banana 底层是 Gemini 3.1,语言理解是它的强项。我们拿一个复杂中文 prompt 测过:

「水墨风格的山水画,前景一棵苍松探出悬崖,远处有渔舟泊在薄雾中」

  • Nano-Banana:把「苍松探出悬崖」和「泊在薄雾中」都画对了,意境到位
  • DALL-E 3:能理解大意但「薄雾」的层次感丢了
  • Flux Pro:写中文 prompt 效果明显不如英文,建议先翻译

对中文 prompt 的理解准确率,Nano-Banana 是主流模型里最好的。

通过 ofox 调用 Nano-Banana

Google Gemini API 在国内不能直连。推荐通过 ofox 调用,使用 OpenAI 兼容协议,改 base_url 和模型名即可。

Python 调用示例

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_OFOX_API_KEY",
    base_url="https://api.ofox.ai/v1"
)

# 生成图片
response = client.images.generate(
    model="google/gemini-3.1-flash-image-preview",
    prompt="一只橙色狐狸坐在电脑前写代码,极简风格,浅灰色背景",
    size="1024x1024",
    n=1
)

print(response.data[0].url)

对话式编辑示例

Nano-Banana 的对话式编辑需要通过 Chat Completions API 调用,而不是 Images API。因为它需要保持对话上下文。

# 第一轮:生成初始图片
messages = [
    {
        "role": "user",
        "content": "画一只橙色狐狸坐在电脑前写代码,极简风格"
    }
]

response = client.chat.completions.create(
    model="google/gemini-3.1-flash-image-preview",
    messages=messages
)

# 第二轮:追加修改指令
messages.append({
    "role": "assistant",
    "content": response.choices[0].message.content
})

messages.append({
    "role": "user",
    "content": "把背景换成星空,给狐狸加一顶宇航员头盔,其他保持不变"
})

response = client.chat.completions.create(
    model="google/gemini-3.1-flash-image-preview",
    messages=messages
)

cURL 调用示例

curl https://api.ofox.ai/v1/images/generations \
  -H "Authorization: Bearer $OFOX_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "google/gemini-3.1-flash-image-preview",
    "prompt": "Bauhaus 风格的杂志封面,粗体红黑排版,大字「NANO BANANA」",
    "size": "1024x1024",
    "n": 1
  }'

Node.js 调用示例

import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.OFOX_API_KEY,
  baseURL: 'https://api.ofox.ai/v1'
});

const response = await client.images.generate({
  model: 'google/gemini-3.1-flash-image-preview',
  prompt: '一只橙色狐狸坐在电脑前写代码,极简风格',
  size: '1024x1024',
  n: 1
});

console.log(response.data[0].url);

参数说明

支持的图片尺寸

通过 ofox 的 OpenAI 兼容协议调用时,支持以下尺寸:

  • 1024x1024 — 正方形,适合社交媒体、头像、图标
  • 1792x1024 — 横向,适合横版海报、封面图
  • 1024x1792 — 竖向,适合竖版海报、手机壁纸

其他参数

参数类型说明默认值
modelstring模型 ID,必填-
promptstring图片描述,必填-
sizestring图片尺寸1024x1024
ninteger生成数量,1-101
response_formatstring返回格式:urlb64_jsonurl

定价

Nano-Banana 在 ofox 上的定价:

项目价格
输入文字$0.5 / M tokens
输出文字$3 / M tokens
输出图像$60 / M tokens

按 token 计费,简单图便宜复杂图贵。单张图片的实际成本通常在 $0.01-0.03 之间,取决于 prompt 复杂度和图片内容。

完整价格见 Nano-Banana 模型页

实战场景

场景 1:营销素材快速迭代

营销团队的日常就是「改一版」「换个配色」「把文案换掉」。Nano-Banana 的对话式编辑在这种场景下效率很高。

# 第一版
messages = [{"role": "user", "content": "618 大促海报,红色主色调,大字「全场 5 折」"}]
response = client.chat.completions.create(
    model="google/gemini-3.1-flash-image-preview",
    messages=messages
)

# 第二版:改配色
messages.append({"role": "assistant", "content": response.choices[0].message.content})
messages.append({"role": "user", "content": "把红色改成橙色,其他不变"})
response = client.chat.completions.create(
    model="google/gemini-3.1-flash-image-preview",
    messages=messages
)

# 第三版:改文案
messages.append({"role": "assistant", "content": response.choices[0].message.content})
messages.append({"role": "user", "content": "把「全场 5 折」改成「满 300 减 100」"})
response = client.chat.completions.create(
    model="google/gemini-3.1-flash-image-preview",
    messages=messages
)

有个客户的营销团队用了一周,反馈素材产出效率比之前 Midjourney + 手动调整快了大概 40%。主要是省在了反复修改上。

场景 2:博客文章配图

写完文章再配图,图要跟内容对得上。Nano-Banana 的好处是你直接把文章摘要发过去,它能理解语境,出的图跟内容贴合度很高。

article_summary = """
文章主题:AI 图像生成 API 选型指南
核心观点:Nano-Banana 适合需要反复修改的场景,DALL-E 3 适合批量稳定输出
目标读者:开发者和产品经理
"""

response = client.images.generate(
    model="google/gemini-3.1-flash-image-preview",
    prompt=f"为这篇文章生成封面图,渐变光影风格,暖橙色调:{article_summary}",
    size="1792x1024"
)

我们自己的博客配图就这么做——把文章主题和几个关键段落给 Nano-Banana,告诉它要什么风格,一两轮就能出。

场景 3:程序化批量生成

通过 API 自动大批量生图(比如每篇文章自动配封面、每个 SKU 自动出展示图),看两点:稳定性和单价。

Nano-Banana 最便宜,Google 的速率限制也比较宽松(ofox 提供 200 RPM)。适合成本敏感的批量场景。

import asyncio

async def generate_cover(article_title):
    response = await client.images.generate(
        model="google/gemini-3.1-flash-image-preview",
        prompt=f"为文章「{article_title}」生成封面图,扁平插画风格",
        size="1792x1024"
    )
    return response.data[0].url

# 批量生成
articles = ["文章 1", "文章 2", "文章 3"]
covers = await asyncio.gather(*[generate_cover(title) for title in articles])

Nano-Banana vs 其他模型:什么时候该用

用 Nano-Banana 的场景

  • ✅ 需要反复修改细节(营销素材、内容配图)
  • ✅ 成本敏感的批量生成(月产 10000 张以上)
  • ✅ 中文 prompt 为主(Nano-Banana 中文理解最好)
  • ✅ 插画、抽象风格、产品图

用其他模型的场景

  • GPT-Image-2 — 图里要有清晰可读的文字(海报、信息图、UI mockup)
  • DALL-E 3 — 批量产出风格统一的系列图(电商产品图、系列海报)
  • Flux Pro — 写实人像、摄影风格、需要 LoRA 微调

常见问题

Nano-Banana 和 Nano Banana Pro 有什么区别?

Nano Banana Pro 是专业版,支持 4K 分辨率和更精确的文字渲染,单张成本更高(约 $0.10-0.15)。如果不需要 4K 或精确文字渲染,标准版 Nano-Banana 足够用。

对话式编辑最多能保持多少轮?

理论上没有轮数限制,但实际使用中建议控制在 5-10 轮以内。轮数太多会导致图片逐渐偏离初始风格,且 token 成本会累积。

生成的图片可以商用吗?

Google 的 Gemini 生成图片允许商用,但部分内容受安全策略限制(暴力、色情、侵权等)。商用前建议核实 Google 最新条款

为什么有时候修改指令不生效?

可能的原因:

  1. 修改指令太模糊(「改好看一点」不如「把背景改成蓝色」)
  2. 修改指令和原图冲突(「把狗改成猫」可能导致全部重画)
  3. 对话轮数太多,模型遗忘了早期内容

建议每次修改指令尽量具体,指明要改的部分和保持不变的部分。

开始使用

没有 ofox Key?去 ofox.ai 注册——一个 Key 覆盖 Nano-Banana、GPT-Image-2、Claude、GPT-5.4、Gemini 3.1 等全部主流模型。支付宝/微信都能付。

注册后在 模型目录 找到 Nano-Banana(google/gemini-3.1-flash-image-preview),复制模型 ID,改 base_url 就能用。

相关阅读