Voice API · Console EST. 2026

三种语音能力,
一个 授权入口。

流式合成、零样本声音克隆、语音识别——经统一授权网关分发,浏览器直连阿里千问服务器,延迟数十毫秒。注册账户、充值后获取 API Key,按用量计费,透明可控。

Pricing · 千问官方价
01 · TTS
¥0.20 / 万字符

流式合成。按合成字符数计费,标点符号计入字符数。

02 · Clone
¥30.00 / 次创建

零样本声音复刻。创建音色一次性收费,永久使用。

03 · ASR
¥1.40 / 小时

语音识别。按识别时长计费,秒级精度,不足 1 秒按 1 秒。

— Registration

注册即解锁
全部语音服务。

邮箱 + 密码注册,自动登录。登录后可在「账户」面板充值、生成 API Key、查看用量明细。

TTS · 按字符 Clone · 按次 ASR · 按时长

授权与会话下发由网关完成

登录后从账户面板生成

未登录将引导至登录弹窗
01
Stream Synthesis

流式 TTS
语音合成

按字符数计费 (含标点)

WebSocket 直连千问语音服务器,分句流式推送、实时播放。支持 17 种系统声线与已克隆音色。播放结束后自动上报字符数扣费。

字符数:0 · 预估费用:¥0.00

状态 · 就绪
02
Zero-Shot Voice Cloning

声音克隆
零样本复刻

按次创建 ¥30

网页录音或上传 10–20 秒参考音频,上传至 CF KV 永久托管。上传即扣费 ¥30,之后调用免费。

注意

参考音频文本须与录音一字不差,否则克隆效果显著下降。余额不足时无法上传。

方式 A · 麦克风一键录制 (极简推荐) 就绪

朗读:"你好,这是我用于流式声音克隆的一段参考音频。"

方式 B · 本地音频上传克隆 未选择

支持 WAV / MP3 / M4A。推荐 10–20 秒,最长 60 秒,上传前统一转成 24kHz / 16bit / 单声道 WAV。

或手动配置外部声线
03
Speech Recognition

ASR
语音识别

按识别时长计费 ¥1.40/小时

浏览器录音后自动转 16kHz 单声道 PCM 上传,HTTP 直连千问 ASR。识别成功后按实际音频时长扣费。

点击开始录音,说完后点击结束

自动转 16000Hz 单声道 PCM 上传

说话内容将在此显示…
状态 · 就绪 · 最近扣费 ¥0.00
04 · Integration

快速对接

引入 voice-gateway-sdk.js,用 API Key 调用三类服务。所有计费自动扣减账户余额。

加载中...
05 · Monitor

实时监听台

所有模块的请求、握手、播放、识别、扣费状态都会在此实时输出。

Console Output
等待操作…