Voice API · Console

三种语音能力,
一个 授权入口。

流式合成、零样本声音克隆、语音识别——经统一授权网关分发,浏览器直连语音服务节点,延迟数十毫秒。注册账户、充值后获取 API Key,按用量计费,透明可控。

Pricing · 计价
01 · TTS
¥1.00 / 万字符

流式合成。按合成字符数计费,每 10 字符为一个计费单位,不足 10 字按 10 字。

02 · Clone
¥1.00 / 万字符

零样本声音复刻。按参考音频文本字符数计费,每 10 字符为一个计费单位,不足 10 字按 10 字。

03 · ASR
¥1.00 / 小时

语音识别。按识别时长计费,每分钟 1/60 元,不满 1 分钟按 1 分钟计算。

01
Stream Synthesis

语音合成

按字符数计费 ¥0.001/10字

WebSocket 流式推送,实时播放。支持 17 种系统声线与已克隆音色。播放结束后自动上报字符数扣费。

字符数:0 · 预估费用:¥0.000

状态 · 就绪
02
Zero-Shot Voice Cloning

声音克隆

按字符计费 ¥0.001/10字

网页录音或上传 10–20 秒参考音频,上传至 CF KV 永久托管。按参考音频文本字符数扣费,之后调用免费。

注意

参考音频文本须与录音一字不差,否则克隆效果显著下降。余额不足时无法上传。

方式 A · 麦克风一键录制 (极简推荐) 就绪

朗读:"你好,这是我用于流式声音克隆的一段参考音频。"

方式 B · 本地音频上传克隆 未选择

支持 WAV / MP3 / M4A。推荐 10–20 秒,最长 60 秒,上传前统一转成 24kHz / 16bit / 单声道 WAV。

03
Speech Recognition

语音识别

按识别时长计费 ¥1/60/分钟

浏览器录音后自动转 16kHz 单声道 PCM 上传,HTTP 直连语音识别服务。识别成功后按实际音频时长扣费。

点击开始录音,说完后点击结束

自动转 16000Hz 单声道 PCM 上传

说话内容将在此显示…
状态 · 就绪 · 最近扣费 ¥0.000
04 · Integration

开发者接入

新项目只需要配置 gateway 与用户专属 apiKey。SDK 会自动拉取统一会话,TTS、ASR 与声音克隆全部经过网关鉴权和服务端扣费。

Base URL https://epidemicsituation.pages.dev
Auth Authorization: Bearer / x-api-key
Session POST /api/v1/auth/session
Billing X-Cost-Milli / X-Balance-Milli

旧版 /auth/tts/auth/asr 仅保留兼容,新接入不要直接依赖。

Loading...
05 · Monitor

实时监听台

所有模块的请求、握手、播放、识别、扣费状态都会在此实时输出。

Console Output
等待操作…