谷歌近日推出了新一代文本转语音模型Gemini-TTS,在语音合成领域实现了多项重要突破,被业界评价为目前综合能力最强的TTS模型之一。
Gemini-TTS最核心的创新在于引入了基于提示词的语音风格控制机制。用户只需在文本中加入自然语言描述,即可精确调控语音的情感色彩、语速节奏和整体风格,无需复杂的参数调整。例如,输入”用温柔而充满期待的语气朗读”,模型便能准确理解并输出对应的语音效果,这在此前的TTS系统中极为罕见。
在多语言支持方面,Gemini-TTS覆盖约70种语言,并具备自动语种识别能力,无需用户手动标注输入文本的语言类型。这一特性对于多语言内容创作者和全球化产品开发者而言极具价值,可显著降低多语言语音内容的制作成本。
从市场竞争格局来看,Gemini-TTS的发布将对ElevenLabs、微软Azure TTS等现有主流产品形成直接冲击。结合谷歌在Gemini多模态生态中的整体布局,Gemini-TTS有望成为AI语音交互、有声读物制作、无障碍辅助等多个场景的基础设施级工具,进一步巩固谷歌在AI基础能力层的竞争优势。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...