epidemicsituation · 语音 API 控制台

01

Stream Synthesis

语音合成

按字符数计费 ¥0.001/10字

WebSocket 流式推送，实时播放。支持 17 种系统声线。播放结束后自动上报字符数扣费。

合成文本

字符数：0 · 预估费用：¥0.000

声线选择

模拟大模型流式 (分句发送)

状态 · 就绪

02

Zero-Shot Voice Cloning

声音克隆

按字符计费 ¥0.001/10字

网页录音或上传 10–30 秒参考音频，上传至 CF KV 永久托管。按参考音频文本字符数扣费，之后调用免费。

注意

参考音频文本须与录音一字不差，否则克隆效果显著下降。余额不足时无法上传。

已保存克隆音色

方式 A · 麦克风一键录制 (极简推荐) 就绪

朗读材料（毛主席语录）

朗读：

方式 B · 本地音频上传克隆未选择

支持 WAV / MP3 / M4A。推荐 10–30 秒，最长 60 秒，上传前统一转成 24kHz / 16bit / 单声道 WAV。

上传音频对应文本

上传文件不会使用上方朗读材料，需在这里填写对应文稿。

克隆音色试听 · 独立播放器需先创建克隆音色

使用上方录制的克隆音色合成语音，按 TTS 字符计费 ¥0.001/10字。此播放器与 TTS 模块相互独立，可分别播放。

合成文本

字符数：0 · 预估费用：¥0.000

模拟大模型流式 (分句发送)

状态 · 就绪

03

Speech Recognition

语音识别

按识别时长计费 ¥1/小时，不满 10 秒按 10 秒

支持实时字幕、录音后识别和 PCM WAV 文件识别。音频统一转 16kHz 单声道 PCM，经网关鉴权后按实际音频时长扣费。

方式 A · 实时字幕就绪

正在识别

实时字幕将在此显示…

最终文本

完整句子将在此累积…

WebSocket · 16kHz PCM16 · 服务端扣费

方式 B · 录音后识别 HTTP ASR

点击开始录音，说完后点击结束

自动转 16000Hz 单声道 PCM 上传

方式 C · 上传本地音频文件识别未选择

仅支持麦克风录音和标准 PCM WAV 文件。网页会把 WAV 剥头后按 PCM 提交；服务端当前不做 MP3 / AAC / M4A / OGG / WebM 转码，改后缀的文件仍然不能识别。按音频实际总时长扣费 ¥1/小时（不满 10 秒按 10 秒）。

识别结果

说话内容将在此显示…

状态 · 就绪 · 最近扣费 ¥0.000

04 · Integration

开发者接入

新项目只需要配置 gateway 与用户专属 apiKey。SDK 会自动拉取统一会话，TTS、ASR 与声音克隆全部经过网关鉴权和服务端扣费；低层接口返回的 data 需按示例解包后使用。

Base URL https://epidemicsituation.pages.dev

Auth Authorization: Bearer / x-api-key

Session POST /api/v1/auth/session

Billing ASR/Clone: X-Cost-Milli · TTS: WebSocket close billing

旧版 /auth/tts 与 /auth/asr 仅保留兼容，新接入不要直接依赖。

cURL 只返回网关会话，不直接播放音频；浏览器播放请使用 Browser SDK 或 WebSocket 流。

Loading...

05 · Monitor

实时监听台

所有模块的请求、握手、播放、识别、扣费状态都会在此实时输出。

Console Output

等待操作…