Ofox 语音 API 完全指南:ElevenLabs / IndexTTS2 / Gemini TTS / Whisper V3 横评与实战
TL;DR — ofox 语音类 API 覆盖了 TTS 合成和 STT 识别两个方向,共四款模型。ElevenLabs 是多语言 TTS 的行业标杆,IndexTTS2 在中文和情感表达上最强,Gemini TTS 背靠 Google Chirp 3 技术,Whisper V3 则是目前性价比最高的语音转文字方案。四款不是竞品关系,而是互补——你用 IndexTTS2 生成中文语音,用 Whisper V3 转录用户上传的音频,一个 ofox API Key 全搞定。
语音 API 不是什么新东西,但 ofox 上架后接入难度降到了零
语音 API 市场存在很多年了。ElevenLabs 2022 年成立,靠声音克隆一战成名。OpenAI Whisper 2022 年开源,重新定义了 STT 的性价比。Google 2024 年底把 Gemini 的底层技术灌进 Cloud TTS,推出 Chirp 3。IndexTTS 2025 年 3 月发布,9 月迭代到 v2,成为中文情感 TTS 的首选。
这些服务单独接入都不难,但分开管理四个 API Key、四套计费、四种 SDK,就回到了散装工具的旧世界。
Ofox 把它们放进同一个 Key、同一套 OpenAI 兼容接口里,切换模型换一个参数就行。
ElevenLabs:多语言 TTS 的工业标准
ElevenLabs 是目前商用 TTS 领域市场份额最大的玩家。优势一句话就能说完:声音最像真人。
当前旗舰模型是 Eleven Multilingual v2,支持 29 种语言,包括中英日韩法德西葡等。主要能力:
- 声音克隆:上传一段 1-2 分钟的语音样本,生成一个可复用的 voice ID。克隆精度在英文上极高,中文略有口音但可接受。
- Voice Design:用文字描述想要的声音特征(“沉稳的中年男声,带一点磁性”),自动生成对应音色。
- 流式输出:支持 WebSocket 流式 TTS,首音延迟约 200ms,适合实时对话场景。
- Flash v2.5 / Turbo v2.5:低延迟型号,质量稍降但速度快 3-5 倍,适合大批量内容生成。
ElevenLabs 的弱项是中文自然度不如 IndexTTS2,以及免费额度较紧(注册送 10,000 字符/月,约 10 分钟语音)。
通过 ofox 调用 ElevenLabs,走 OpenAI 兼容的音频端点:
from openai import OpenAI
client = OpenAI(
base_url="https://api.ofox.ai/v1",
api_key="sk-your-ofox-key"
)
response = client.audio.speech.create(
model="elevenlabs",
voice="21m00Tcm4TlvDq8ikWAM", # ElevenLabs voice ID
input="欢迎使用 ofox 语音 API。",
extra_body={"model_id": "eleven_multilingual_v2"}
)
response.stream_to_file("output.mp3")
IndexTTS2:中文情感 TTS 的最优解
IndexTTS2 是 2025 年 9 月发布的版本,目前最新的自回归 TTS 模型之一。它的卖点和其他 TTS 不太一样:别的模型卷”像人说话”,它卷可控的情感表达。
核心能力:
- 8 种情绪控制:开心、愤怒、悲伤、恐惧、厌恶、忧郁、惊讶、平静。支持语音 prompt(上传一段带情绪的音频作为参考)、情绪向量(调整 8 维数值)、文字描述(通过 Qwen3 把自然语言转成情绪参数)三种注入方式。
- 时长控制:第一个支持精确控制合成时长的自回归 TTS。你可以指定”这段话用 5 秒说完”,模型自动调整语速和停顿。做视频配音时这个功能省掉了反复调整脚本的苦力活。
- 零样本声音克隆:3-5 秒的参考音频就能复刻音色,中文克隆精度明显好于 ElevenLabs。
- 中文母语级:IndexTTS2 对中文的支持不是”顺便支持”——它的训练数据以中文为主,Pinyin 辅助纠音,多音字和语气词处理远好于海外 TTS 模型。
弱项是英文自然度不如 ElevenLabs,以及生态较新,社区资源少。
response = client.audio.speech.create(
model="indextts2",
voice="zh-female-01",
input="今天天气真好,我们去公园散步吧。",
extra_body={
"emotion": "happy",
"speed": 1.0
}
)
response.stream_to_file("output.wav")
Gemini TTS:Google 的 Chirp 3 技术,长文本最稳
Google Cloud TTS 在 2024 年底推出了基于 Gemini 底层技术的 Chirp 系列。当前最新是 Chirp 3,ofox 上架的就是这个。
Chirp 的特点不是炫技,是稳。200+ 种语音覆盖 40+ 种语言,Chirp HD 型号在长篇合成(书籍、播客)上的一致性几乎没有对手。其他 TTS 在 1000 字以上开始出现语气漂移或节奏紊乱,Chirp HD 能稳定跑完几万字。
关键数据:
- Chirp HD:最高质量,适合专业配音和长内容
- Chirp(标准):平衡质量和延迟
- 支持 SSML 标记语言,可以精确控制停顿、重音、语速、音高
- 多说话人:一次请求里切换不同声音
中文方面,Chirp HD 的普通话发音准确,但语调偏新闻播报式,自然度不如 IndexTTS2。
response = client.audio.speech.create(
model="gemini-tts",
voice="chirp-hd-zh-female",
input="这是一段长文本测试。Google Chirp 3 在长篇内容合成上表现稳定。",
extra_body={
"speaking_rate": 1.0,
"pitch": 0.0
}
)
response.stream_to_file("output.mp3")
Whisper V3:不是 TTS,是 TTS 的另一半
先说清楚:Whisper V3 做的是语音转文字(STT),方向跟上面三个相反。把它放在这篇文章里,是因为实际语音应用中 TTS + STT 总是成对出现——你生成语音回复用户,也需要转写用户说回来。
Whisper V3(large-v3)是 OpenAI 2023 年底开源的版本,2024 年有 turbo 变体(速度 8 倍、精度几乎不降)。核心指标:
- 支持 99 种语言,自动检测
- 英语词错率(WER)约 4-5%,中文约 7-9%
- 支持时间戳(词级别和段落级别)
- turbo 版本在 CPU 上也能跑实时
ofox 上架的 Whisper V3 走 OpenAI 兼容的 transcriptions 端点,不需要自己部署模型。
audio_file = open("meeting_recording.mp3", "rb")
transcript = client.audio.transcriptions.create(
model="whisper-v3",
file=audio_file,
response_format="verbose_json",
timestamp_granularities=["word"]
)
print(transcript.text)
# "今天我们讨论一下下个季度的产品路线图..."
四家对比:不是竞品,是组合
| 维度 | ElevenLabs | IndexTTS2 | Gemini TTS | Whisper V3 |
|---|---|---|---|---|
| 方向 | TTS | TTS | TTS | STT |
| 中文自然度 | ★★★☆☆ | ★★★★★ | ★★★★☆ | N/A |
| 英文自然度 | ★★★★★ | ★★★☆☆ | ★★★★☆ | N/A |
| 情感控制 | 有限 | 8 种情绪 | 无 | N/A |
| 声音克隆 | ★★★★★ | ★★★★☆ | 不支持 | N/A |
| 长文本稳定性 | ★★★☆☆ | ★★★☆☆ | ★★★★★ | N/A |
| 语言覆盖 | 29 种 | 中英为主 | 40+ | 99 种 |
| 延迟 | 200ms(Flash) | ~500ms | ~300ms | 实时/异步 |
| 最佳场景 | 英文内容、播客 | 中文对话、有声书 | 长文本、新闻播报 | 会议记录、字幕 |
选哪款取决于你实际要干什么。一个语音客服系统最典型的搭配:
- 用户语音输入 → Whisper V3 转文字
- 大模型生成回复文字 → Claude/GPT via ofox
- 文字合成语音 → IndexTTS2(中文)或 ElevenLabs(英文)
三个环节、四款模型,一个 Key 跑完。
不只是语音:ofox 语音品类的完整能力
除了这四款核心模型,ofox 的语音/数字人品类还有几个值得一提的:
- Seedance V1 Pro:语音驱动视频生成,输入音频+一张图,生成口型同步的说话视频
- HeyGen 5.0 / Synthesia / Pika 2.1:数字人/虚拟形象生成,适合企业宣传片、培训视频
这些不是本文重点,但如果你在做视频内容生产,语音 API 和数字人 API 一起用,可以不离开 ofox 生态完成整条 pipeline。
关于 API 使用时可能遇到的报错(429 限频、401 鉴权、模型不可用等),参考 ofox 的 AI API 报错排查指南。
选型速查
做中文有声书/对话配音 → IndexTTS2。情感控制+中文自然度无敌,时长控制功能做视频配音也很实用。
做英文播客/内容出海 → ElevenLabs。声音克隆精度高,多语言支持广,社区资源多。
做长文本(万字以上)配音 → Gemini TTS Chirp HD。其他模型会在长文本上掉链子,Chirp HD 不会。
做会议记录/字幕/语音搜索 → Whisper V3。不需要自己部署,API 调用按量付费,99 种语言自动识别。
如果你之前用过 OpenRouter 接入各种 AI 工具 的体验,ofox 的接入方式基本一致——换 base_url 和 key,代码不用大改。已经在用 ofox 做文本生成的团队,加上语音能力就是加几行代码的事。


