谷歌发布Gemini-TTS最强文本转语音模型,支持近70种语言情感控制精准

谷歌近日推出了新一代文本转语音模型Gemini-TTS,在语音合成领域实现了多项重要突破,被业界评价为目前综合能力最强的TTS模型之一。

Gemini-TTS最核心的创新在于引入了基于提示词的语音风格控制机制。用户只需在文本中加入自然语言描述,即可精确调控语音的情感色彩、语速节奏和整体风格,无需复杂的参数调整。例如,输入”用温柔而充满期待的语气朗读”,模型便能准确理解并输出对应的语音效果,这在此前的TTS系统中极为罕见。

在多语言支持方面,Gemini-TTS覆盖约70种语言,并具备自动语种识别能力,无需用户手动标注输入文本的语言类型。这一特性对于多语言内容创作者和全球化产品开发者而言极具价值,可显著降低多语言语音内容的制作成本。

从市场竞争格局来看,Gemini-TTS的发布将对ElevenLabs、微软Azure TTS等现有主流产品形成直接冲击。结合谷歌在Gemini多模态生态中的整体布局,Gemini-TTS有望成为AI语音交互、有声读物制作、无障碍辅助等多个场景的基础设施级工具,进一步巩固谷歌在AI基础能力层的竞争优势。

© 版权声明

相关文章

暂无评论

暂无评论...