配置语音识别引擎和翻译参数
• 语言 (Language): 支持英语、中文、日语、韩语、法语、德语、西班牙语等多种语言
• 地域 (Region): 选择离你最近的服务器可获得更低延迟
• 模型 (Model): latest_long 适合长句,latest_short 响应更快,chirp_2 质量最高
• 多语言识别: chirp_2 支持最多4种语言自动检测
• 说话人分离: 区分不同说话人(最多6人)
选择识别语言
选择最近的服务器
识别模型选择
支持混合语言对话(需要 chirp_2 模型)
区分不同说话人(最多6人)
选择识别语言
选择最近的服务器
识别模型选择
支持混合语言对话(需要 chirp_2 模型)
区分不同说话人(最多6人)
• 质量: 高质量神经网络语音合成
• 延迟: 首字节响应 200-500ms
• 协议: HTTP 流式传输
• 语音: 6种高质量语音 (alloy, echo, fable, onyx, nova, shimmer)
• 成本: 中等
• 适用场景: 通用 TTS、批量处理