语音合成
WebSocket 流式推送,实时播放。支持 17 种系统声线与已克隆音色。播放结束后自动上报字符数扣费。
字符数:0 · 预估费用:¥0.000
声音克隆
网页录音或上传 10–20 秒参考音频,上传至 CF KV 永久托管。按参考音频文本字符数扣费,之后调用免费。
注意
参考音频文本须与录音一字不差,否则克隆效果显著下降。余额不足时无法上传。
朗读:"你好,这是我用于流式声音克隆的一段参考音频。"
支持 WAV / MP3 / M4A。推荐 10–20 秒,最长 60 秒,上传前统一转成 24kHz / 16bit / 单声道 WAV。
语音识别
浏览器录音后自动转 16kHz 单声道 PCM 上传,HTTP 直连语音识别服务。识别成功后按实际音频时长扣费。
点击开始录音,说完后点击结束
自动转 16000Hz 单声道 PCM 上传
开发者接入
新项目只需要配置 gateway 与用户专属 apiKey。SDK 会自动拉取统一会话,TTS、ASR 与声音克隆全部经过网关鉴权和服务端扣费。
旧版 /auth/tts 与 /auth/asr 仅保留兼容,新接入不要直接依赖。
Loading...
实时监听台
所有模块的请求、握手、播放、识别、扣费状态都会在此实时输出。