设置 / Settings - 多语言实时翻译 V2

💡 Google Speech API

• 语言 (Language): 支持英语、中文、日语、韩语、法语、德语、西班牙语等多种语言
• 地域 (Region): 选择离你最近的服务器可获得更低延迟
• 模型 (Model): latest_long 适合长句，latest_short 响应更快，chirp_2 质量最高
• 多语言识别: chirp_2 支持最多4种语言自动检测
• 说话人分离: 区分不同说话人（最多6人）

💡 OpenAI Realtime API

• 模型 (Model): gpt-realtime 质量最高，gpt-realtime-mini 成本更低
• 多语言支持: 自动检测100+种语言，无需手动选择
• 音频质量: 24kHz 高保真音频
• 输出选项: 可自定义显示识别文本、翻译结果或仅语音输出
• ⚠️ 注意: OpenAI 暂不支持说话人分离功能

🌐 语言与显示设置 / Language & Display Settings

OpenAI

ASR 模型 / ASR Model

选择语音识别模型：ASR Pro 速度快成本低，ASR Ultra 精度最高

左侧栏语言 / Left Panel Language ⭐ 母语 / Native

识别到此语言时显示在左侧栏

右侧栏语言 / Right Panel Language ⭐ 母语 / Native

识别到此语言时显示在右侧栏

💡 显示与翻译逻辑

识别规则：
• 识别到左侧语言 → 原文显示在左侧，翻译显示在右侧
• 识别到右侧语言 → 原文显示在右侧，翻译显示在左侧
• 识别到其他语言 → 显示在非母语侧，翻译为母语显示在母语侧

示例：
左侧=日语(⭐母语)，右侧=中文 → 说日语显示在左侧翻译在右侧，说中文显示在右侧翻译在左侧，说英语显示在右侧翻译成日语在左侧

💡 OpenAI TTS

• 质量: 高质量神经网络语音合成
• 延迟: 首字节响应 200-500ms
• 协议: HTTP 流式传输
• 语音: 6种高质量语音 (alloy, echo, fable, onyx, nova, shimmer)
• 成本: 中等
• 适用场景: 通用 TTS、批量处理

💡 Azure Speech Service

• 质量: 企业级神经网络语音
• 延迟: ⚡ 首字节响应 50-150ms (最快!)
• 协议: WebSocket 实时流
• 语音: 400+ 多语言神经语音
• 成本: 较高
• 适用场景: 实时对话、低延迟要求
• ⚠️ 注意: 需要配置 AZURE_SPEECH_KEY 和 AZURE_SPEECH_REGION 环境变量

🎙️ 音频设置 / Audio Settings

📊 麦克风增益调节 / Microphone Gain Control

不同浏览器的麦克风音量可能不同
Safari 通常比 Chrome 音量小
通过增益调节获得最佳识别效果

🎚️ 调节麦克风增益 / Adjust Microphone Gain

识别器设置 / Recognizer Settings

🔌 语音识别引擎 / Speech Recognition Provider

💡 Google Speech API

💡 OpenAI Realtime API

🌐 语言与显示设置 / Language & Display Settings

💡 显示与翻译逻辑

左侧 / Left

🌐 高级功能 / Advanced Features

📊 输出选项 / Output Options