Gemini 3.5 Flash 国内能用吗？

直连 Google API 不通。aistudio.google.com 和 generativelanguage.googleapis.com 在国内都打不开。通过 ofox.ai 这类聚合平台可以正常调用，base_url 改成 https://api.ofox.ai/v1，模型名填 google/gemini-3.5-flash，延迟通常 300-500ms。

Gemini 3.5 Flash 比 3.1 Pro 强在哪？

Terminal-Bench 2.1 76.2%、MCP Atlas 83.6%、GDPval-AA 1656 Elo，三项 agent/coding 评测都超过 3.1 Pro。输出 token 速度比上一代主流前沿模型快 4 倍，但价格只有 Pro 的不到一半。

Gemini 3.5 Flash API 多少钱？

ofox.ai 上架价格：输入 $1.5/百万 token，输出 $9/百万 token。相比 Gemini 3.1 Pro 的 $2/$12 便宜 25%，相比 Claude Opus 4.7 的 $15/$75 便宜得多，适合 agent 类高吞吐场景。

Gemini 3.5 Flash 支持 OpenAI SDK 吗？

通过 ofox.ai 的 OpenAI 兼容端点支持。只需改 base_url 和 model 字段，其他 chat.completions 调用代码完全复用，包括 streaming、tools、function calling。

3.5 Flash 出来了，3.1 Pro 还有用吗？

看场景。3.5 Flash 在 agent 和 coding 上反超 3.1 Pro，但 3.1 Pro 的 ARC-AGI-2 抽象推理（77.1% vs 3.5 Flash 72.1%）和长文档检索准确度（MRCR v2 128k 84.9% vs 3.5 Flash 77.3%）仍是强项——两者上下文窗口都是 1M。需要超长文档高精度检索或复杂抽象推导继续用 3.1 Pro，日常 agent / 代码生成 / 工具调用换 3.5 Flash。

Gemini 3.5 Flash 国内接入指南（2026）：Agent 评测反超 Pro，改两行代码即可调用

TL;DR — Google 在 2026-05-19 的 I/O 大会发布 Gemini 3.5 Flash，定位”frontier intelligence + action”。Terminal-Bench 2.1 76.2%、MCP Atlas 83.6%、GDPval-AA 1656 Elo，agent 和 coding 三项评测全面超过自家 3.1 Pro，输出速度快 4 倍。ofox.ai 已上架 google/gemini-3.5-flash，$1.5/$9 每百万 token，国内开发者改两行代码即可调用，本文给出完整方案。

为什么 Flash 突然反超 Pro

3.5 Pro 没来，Flash 先到了。这不是常规节奏。

Google I/O 2026 把 3.5 Pro 往后延期，先把 Flash 推出来。原因是这一代 Flash 在 agent 和 coding 路线上换了套训练配方，更偏工具调用、长链推理、终端环境交互，而不是纯对话生成。结果就是 Flash 跑出来的分数在 agent 类评测上压过了上一代 Pro：

Terminal-Bench 2.1：76.2%，测的是模型在真实 shell 环境里完成多步任务的能力（找文件、改配置、跑命令、debug）
MCP Atlas：83.6%，衡量 MCP 工具调用的可靠性，跨工具组合不出错的比例
GDPval-AA：1656 Elo，模拟真实经济价值任务（写文档、做分析、整理数据），按 Elo 评分
CharXiv Reasoning：84.2%，多模态图表理解和推理

这套数据对你意味着什么：如果你正在搭 AI Agent、做 Coding 助手、想跑自动化工作流又不想被 Opus 价格劝退，3.5 Flash 是当前 Google 系里性价比最高的选择，不用等 3.5 Pro。

价格与定位：为什么这次”Flash”反而值

模型	模型 ID	输入价格	输出价格	输出速度	定位
Gemini 3.5 Flash	`google/gemini-3.5-flash`	$1.5/M	$9/M	4×	Agent、Coding、工具调用
Gemini 3.1 Pro	`google/gemini-3.1-pro-preview`	$2/M	$12/M	基准	复杂推理、长文档、ARC-AGI
Gemini 3.1 Flash-Lite	`google/gemini-3.1-flash-lite-preview`	$0.25/M	$1.5/M	极快	高频分类、摘要
Claude Opus 4.7	`anthropic/claude-opus-4-7`	$15/M	$75/M	慢	顶级 coding、复杂任务

3.5 Flash 在价格上比 3.1 Pro 便宜 25%，但在 agent/coding 评测上反超。这种”Flash 反超 Pro”的现象上一次在 GPT 系里出现过类似情况（GPT-5.4 mini 在部分场景压过 GPT-4.1），都是因为新一代 base model 的训练目标变了。

老规矩，需要 ARC-AGI 级别抽象推理或对 128k 范围的长文档检索精度有要求，继续用 Gemini 3.1 Pro（两者上下文都是 1M，但 Pro 的 MRCR v2 检索分更高）；纯靠 SWE-bench 排名挑编程模型，去看 Claude Opus 4.7 完全指南和 2026 大模型排行榜。

国内接入：直连不通，ofox 中转 5 分钟搞定

Google AI Studio 和 Gemini API 国内都不通。三种官方入口（Google Antigravity、AI Studio、Android Studio）都需要科学上网，企业项目走这条路是坑。

ofox.ai 已经上架 google/gemini-3.5-flash，走 OpenAI 兼容协议，国内直连，延迟 300-500ms。流程：

注册 ofox.ai
充值（支持支付宝、微信、卡）
创建 API Key，复制 sk- 开头那串
把 base_url 改成 https://api.ofox.ai/v1
model 字段填 google/gemini-3.5-flash

代码层面只动两行。

实战代码：3 分钟跑通

Python（OpenAI SDK）

from openai import OpenAI

client = OpenAI(
    base_url="https://api.ofox.ai/v1",
    api_key="sk-你的ofox密钥"
)

response = client.chat.completions.create(
    model="google/gemini-3.5-flash",
    messages=[
        {"role": "system", "content": "你是一个擅长 shell 操作的 AI agent。"},
        {"role": "user", "content": "在 Linux 下找出 /var/log 里最近 24 小时被修改的文件，给我命令。"}
    ],
    temperature=0.3
)

print(response.choices[0].message.content)

TypeScript / Node.js

import OpenAI from 'openai'

const client = new OpenAI({
  baseURL: 'https://api.ofox.ai/v1',
  apiKey: process.env.OFOX_API_KEY!
})

const response = await client.chat.completions.create({
  model: 'google/gemini-3.5-flash',
  messages: [
    { role: 'user', content: '解释 OAuth2 的 PKCE 流程，越短越好。' }
  ]
})

console.log(response.choices[0].message.content)

cURL

curl https://api.ofox.ai/v1/chat/completions \
  -H "Authorization: Bearer $OFOX_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "google/gemini-3.5-flash",
    "messages": [{"role": "user", "content": "你好"}]
  }'

跑通后再考虑 streaming、tools、function calling。

Streaming：流式输出加速首字响应

3.5 Flash 输出 token 速度是上一代主流前沿模型的 4 倍，配合 streaming 用户体验提升明显。

stream = client.chat.completions.create(
    model="google/gemini-3.5-flash",
    messages=[{"role": "user", "content": "用 200 字介绍量子纠缠。"}],
    stream=True
)

for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="", flush=True)

实测首字响应 200-400ms，全文 600 字大约 2 秒输出完。聊天产品、代码补全、长文本生成都用这套。

Agent 场景：function calling + 工具调用

3.5 Flash 的 MCP Atlas 跑到 83.6%，意味着多工具组合调用的可靠性显著提升。下面是一个让模型调用本地查询工具的最小例子：

tools = [{
    "type": "function",
    "function": {
        "name": "search_database",
        "description": "在订单数据库里按用户 ID 查订单",
        "parameters": {
            "type": "object",
            "properties": {
                "user_id": {"type": "string", "description": "用户 ID"},
                "limit": {"type": "integer", "default": 10}
            },
            "required": ["user_id"]
        }
    }
}]

response = client.chat.completions.create(
    model="google/gemini-3.5-flash",
    messages=[{"role": "user", "content": "查一下用户 u_8821 最近的订单。"}],
    tools=tools
)

tool_call = response.choices[0].message.tool_calls[0]
print(tool_call.function.name, tool_call.function.arguments)
# search_database {"user_id": "u_8821", "limit": 10}

模型识别意图、提取参数、生成结构化 tool_call。后续把执行结果（role: “tool”）塞回 messages，模型再生成自然语言回复，标准 ReAct 循环。

常见报错与排查

401 Unauthorized——API Key 错了，检查是不是把 ofox key 当成 Google key 用，或者 base_url 没改。

404 model_not_found——model 字段写错了。Gemini 3.5 Flash 的正确 ID 是 google/gemini-3.5-flash，注意是减号不是点号（旧版本有 google/gemini-3.1-pro-preview 这种带 preview 后缀的，3.5 Flash 已经 GA 不需要）。

429 rate_limit_exceeded——并发或 RPM 超了。ofox 默认账号有限额，可以联系扩容。代码层面加指数退避：

import time
from openai import RateLimitError

for attempt in range(5):
    try:
        response = client.chat.completions.create(...)
        break
    except RateLimitError:
        time.sleep(2 ** attempt)

context_length_exceeded——3.5 Flash 上下文窗口同样是 1M token（输出上限 64K），超出就报这个错。但要注意 3.5 Flash 在长文档检索的精度上略逊于 3.1 Pro（MRCR v2 128k：77.3% vs 84.9%），对召回精度敏感的长文档解析建议用 3.1 Pro。

更多模型相关报错对照表，看 Claude/OpenAI/Gemini/DeepSeek 模型特定报错排查手册。

什么时候选 3.5 Flash？什么时候不选？

选 3.5 Flash 的场景：

AI Agent 工作流，频繁调用工具（MCP Atlas 83.6%）
Coding 助手、代码补全、终端任务自动化（Terminal-Bench 76.2%）
实时聊天、需要快速首字响应（输出 4× 加速）
高吞吐场景，预算敏感（$1.5/$9 比 Claude Opus 4.7 便宜 10 倍）

不选 3.5 Flash 的场景：

复杂数学推导、ARC-AGI 类抽象推理（3.1 Pro 77.1% vs 3.5 Flash 72.1%）→ 用 3.1 Pro
长文档高精度检索（MRCR v2 128k：3.1 Pro 84.9% vs 3.5 Flash 77.3%）→ 用 3.1 Pro
极端编程任务（SWE-bench 顶级排名）→ 用 Claude Opus 4.7
极致低成本、轻量分类摘要 → 用 Gemini 3.1 Flash-Lite（$0.25/$1.5）

模型矩阵这件事永远不要”一个模型走天下”。在 2026 大模型排行榜与选型指南里我们写过更系统的选型方法论。

写在最后

以前 Flash 是 Pro 的降配版，这次反过来了。3.5 Flash 在 agent 和 coding 上压过 3.1 Pro，价格还便宜 25%。Google 显然是想用”先发 Flash”抢 agent 时代的开发者注意力，3.5 Pro 留到下次再讲。

对国内开发者来说门槛已经被聚合平台抹平。把 base_url 改成 https://api.ofox.ai/v1，model 填 google/gemini-3.5-flash，剩下的 OpenAI SDK 代码一行不用动。

剩下的就是动手跑一遍。

参考数据来源：

Google DeepMind: Gemini 3.5 Flash Model Card
Google Blog: Gemini 3.5: frontier intelligence with action
ofox.ai 模型广场: https://ofox.ai/zh/models