Voice API · Console

三种语音能力,
一个 授权入口。

流式合成、零样本声音克隆、语音识别——经统一授权网关分发,浏览器直连语音服务节点,延迟数十毫秒。注册账户、充值后获取 API Key,按用量计费,透明可控。

Pricing · 计价
01 · TTS
¥1.00 / 万字符

流式合成。按合成字符数计费,每 100 字符为一个计费单位,不足 100 字按 100 字。

02 · Clone
¥1.00 / 万字符

零样本声音复刻。按参考音频文本字符数计费,每 100 字符为一个计费单位,不足 100 字按 100 字。

03 · ASR
¥1.00 / 小时

语音识别。按识别时长计费,每分钟 1/60 元,不满 1 分钟按 1 分钟计算。

01
Stream Synthesis

语音合成

按字符数计费 ¥0.01/100字

WebSocket 流式推送,实时播放。支持 17 种系统声线与已克隆音色。播放结束后自动上报字符数扣费。

字符数:0 · 预估费用:¥0.000

状态 · 就绪
02
Zero-Shot Voice Cloning

声音克隆

按字符计费 ¥0.01/100字

网页录音或上传 10–20 秒参考音频,上传至 CF KV 永久托管。按参考音频文本字符数扣费,之后调用免费。

注意

参考音频文本须与录音一字不差,否则克隆效果显著下降。余额不足时无法上传。

方式 A · 麦克风一键录制 (极简推荐) 就绪

朗读:"你好,这是我用于流式声音克隆的一段参考音频。"

方式 B · 本地音频上传克隆 未选择

支持 WAV / MP3 / M4A。推荐 10–20 秒,最长 60 秒,上传前统一转成 24kHz / 16bit / 单声道 WAV。

03
Speech Recognition

语音识别

按识别时长计费 ¥1/60/分钟

浏览器录音后自动转 16kHz 单声道 PCM 上传,HTTP 直连语音识别服务。识别成功后按实际音频时长扣费。

点击开始录音,说完后点击结束

自动转 16000Hz 单声道 PCM 上传

说话内容将在此显示…
状态 · 就绪 · 最近扣费 ¥0.000
04 · Integration

快速对接

引入 voice-gateway-sdk.js,用 API Key 调用三类服务。所有计费自动扣减账户余额。

加载中...
05 · Monitor

实时监听台

所有模块的请求、握手、播放、识别、扣费状态都会在此实时输出。

Console Output
等待操作…