(updated )

国内调用 Gemini API 完整指南:2.5 Pro 百万上下文接入方案(2026)

摘要

Google Gemini 2.5 Pro 拥有 100 万 token 的超长上下文窗口,是长文档和代码库分析的利器。但 Google API 在国内无法直连。本文对比三种接入方案,提供完整代码和延迟实测数据。

Gemini 最新模型一览(2026年3月)

模型输入价格 ($/MTok)输出价格 ($/MTok)上下文窗口定位
Gemini 2.5 Pro(≤200k)$1.25$101M最强推理,百万上下文
Gemini 2.5 Pro(>200k)$2.50$151M超长上下文加价档
Gemini 2.5 Flash$0.30$2.501M快速均衡,性价比高
Gemini 2.5 Flash-Lite$0.10$0.401M低成本,批量任务首选

Gemini 2.5 Flash-Lite 是目前主流大模型中最便宜的档位之一。注意 Gemini 2.5 Pro 在输入超过 200k token 时会自动触发加价档($2.50/$15),使用百万上下文时需留意成本。

方案一:Google AI Studio(需稳定访问 Google)

Google 官方提供的免费开发平台,适合海外开发者。

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-2.5-pro-preview-05-06")

response = model.generate_content(
    "分析这段日志中的异常模式",
    generation_config=genai.GenerationConfig(
        max_output_tokens=2048,
        temperature=0.3,
    ),
)
print(response.text)

限制:国内网络无法直连 generativelanguage.googleapis.com,不适合国内生产环境。

方案二:Vertex AI(企业级)

Google Cloud 的 AI 服务,有 SLA 保障。

import vertexai
from vertexai.generative_models import GenerativeModel

vertexai.init(project="your-gcp-project", location="asia-northeast1")
model = GenerativeModel("gemini-2.5-pro")

response = model.generate_content("把以下英文技术文档翻译成中文")
print(response.text)

注意

  • 需要 GCP 账号并开通 Vertex AI
  • 国内访问 GCP 端点可能需要专线
  • 没有免费额度,按量计费
  • SDK 包名是 google-cloud-aiplatform,和 AI Studio 的 google-generativeai 不同

方案三:API 聚合平台(推荐)

兼容 OpenAI 协议,国内直连,无需访问 Google 服务。

from openai import OpenAI

client = OpenAI(
    api_key="your-ofox-key",
    base_url="https://api.ofox.ai/v1"
)

# Gemini 2.5 Pro - 百万上下文
response = client.chat.completions.create(
    model="google/gemini-2.5-pro",
    messages=[
        {"role": "system", "content": "你是技术文档分析专家"},
        {"role": "user", "content": f"分析以下 API 文档,提取所有端点和参数:\n\n{document}"}
    ],
    max_tokens=8192,
)
print(response.choices[0].message.content)
# Gemini 2.5 Flash-Lite - 超低成本批量任务
response = client.chat.completions.create(
    model="google/gemini-2.5-flash-lite",
    messages=[
        {"role": "user", "content": "分类这条消息为:投诉/咨询/表扬\n\n消息:这个功能太难用了"}
    ],
    max_tokens=50,
)
# → "投诉"

延迟实测

模型首 Token总耗时(短回复)
Gemini 2.5 Pro~180ms~1.2s
Gemini 2.5 Flash~90ms~0.6s
Gemini 2.5 Flash-Lite~60ms~0.3s

三种方案对比

维度Google AI StudioVertex AI聚合平台
国内可用需专线
免费额度看平台
接入难度
延迟国内不可用200-500ms100-300ms
模型切换仅 Gemini仅 Google 模型100+ 模型
合规性Google 条款GCP SLA平台保障

实战:百万上下文分析整个代码仓库

Gemini 2.5 Pro 的杀手级特性——100 万 token 上下文,可以一次性分析整个中型项目。

import os
from openai import OpenAI

client = OpenAI(api_key="your-key", base_url="https://api.ofox.ai/v1")

def collect_source_files(directory, extensions=(".py", ".ts", ".js")):
    """收集项目所有源码文件"""
    files = []
    for root, _, filenames in os.walk(directory):
        if any(skip in root for skip in ["node_modules", ".git", "__pycache__"]):
            continue
        for f in filenames:
            if any(f.endswith(ext) for ext in extensions):
                path = os.path.join(root, f)
                try:
                    with open(path, "r") as fp:
                        files.append(f"=== {path} ===\n{fp.read()}")
                except Exception:
                    pass
    return "\n\n".join(files)

project_code = collect_source_files("./my-project")

response = client.chat.completions.create(
    model="google/gemini-2.5-pro",
    messages=[
        {"role": "system", "content": "分析项目代码,输出:1.架构概览 2.模块依赖 3.设计问题 4.重构建议"},
        {"role": "user", "content": f"项目代码:\n\n{project_code}"}
    ],
    max_tokens=8192,
)
print(response.choices[0].message.content)

这是 Claude(200K 上下文)和 GPT(128K 上下文)目前做不到的——它们的上下文窗口放不下整个中型项目的代码。

多模型协作:按场景选择最优模型

任务类型首选模型原因
代码审查/编程Claude Sonnet 4.6SWE-bench 79.6%,编程最强
长文档分析Gemini 2.5 Pro100 万上下文无可替代
批量分类/提取Gemini 2.5 Flash-Lite$0.10/MTok,最低成本
通用对话GPT-4o生态最好,稳定

通过 API 聚合平台,切换模型只需改 model 参数,代码无需任何修改。

成本优化建议

  1. 分级使用模型:简单任务用 Flash-Lite($0.10),复杂任务用 Pro($1.25)
  2. 控制输入量:超过 200k token 的请求会触发 Pro 加价档($2.50/MTok),按需裁剪输入
  3. Batch API:非实时任务使用批处理,成本降低 50%
  4. 缓存常用 Prompt:通过 Context Caching 降低重复内容的成本,最多节省 75%