谷歌发布Gemini-TTS最强文本转语音模型，支持近70种语言情感控制精准

16 0 0

谷歌近日推出了新一代文本转语音模型Gemini-TTS，在语音合成领域实现了多项重要突破，被业界评价为目前综合能力最强的TTS模型之一。

Gemini-TTS最核心的创新在于引入了基于提示词的语音风格控制机制。用户只需在文本中加入自然语言描述，即可精确调控语音的情感色彩、语速节奏和整体风格，无需复杂的参数调整。例如，输入”用温柔而充满期待的语气朗读”，模型便能准确理解并输出对应的语音效果，这在此前的TTS系统中极为罕见。

在多语言支持方面，Gemini-TTS覆盖约70种语言，并具备自动语种识别能力，无需用户手动标注输入文本的语言类型。这一特性对于多语言内容创作者和全球化产品开发者而言极具价值，可显著降低多语言语音内容的制作成本。

从市场竞争格局来看，Gemini-TTS的发布将对ElevenLabs、微软Azure TTS等现有主流产品形成直接冲击。结合谷歌在Gemini多模态生态中的整体布局，Gemini-TTS有望成为AI语音交互、有声读物制作、无障碍辅助等多个场景的基础设施级工具，进一步巩固谷歌在AI基础能力层的竞争优势。

# AI新闻资讯