微软 Neural TTS人工智能情感饱满

来源:本站    分类:行业动态      发布时间:2023-06-29     浏览次数:410

如何让人工智能语音有效地模仿人类对话的丰富动态和情感,成为全球研究人员共同面临的挑战。Microsoft Azure云计算平台(神经网络文语转换)模型“Uni—TTS v4”在这一领域取得了里程碑式的突破。在“2021国际语音合成大赛(暴雪挑战赛2021)”的测试中,Uni-TTS v4的语音表现与一般数据集上的自然语音几乎没有区别,显示出足以“挑战”真人对话的实力。
“倾听你的耳朵”就是这个道理。微软官方还发布了几张TTS和现实生活对话的对比图,让我们来体验一下新模式带来的逼真的语音表现。
英语:在四重奏和八重奏中,声乐质量的可视化继续。

短视频配音工具 AI生成语音 AI文字转语音 语音识别 azure配音
现场录音:
Uni-TTS v4:
英语:像其他来访者一样,他是个信徒。
现场录音:
Uni-TTS v4:
英文:此外,我们还必须避免当前地缘政治形势的风险,等待合适的时机进行干预。
现场录音:
Uni-TTS v4:
用户可以使用自己创建的文本在Azure TTS在线服务中创建新的演示。目前,Uni-TTS v4在TTS语言库中可以支持7种语言的8种语音。研发团队将继续使用最新的模式优化神经TTS支持的其他语言,定制神经语音,让用户可以使用Azure TTS API、Microsoft Office和 Edge browser直接获得更好的下一代TTS语音。
据官方介绍,为了在上述两个方面提升TTS,Uni—TTS v4在声学建模方面引入了两项重要更新。研究团队首先采用了一种新的架构与变压器和卷积块,以更好地模拟声学模型中的局部和全局依赖性。第二,变量信息从显性视角(身份识别、语言识别、音高、语速)和隐性视角(发声层次和音位层次韵律)。这些视图分别使用监督和非监督学习,确保端到端音频具有足够自然的表现力。
作为微软 Azure 认知服务中的强大语音合成功能,可以帮助开发人员将文本转换成像真人一样逼真的自然语音,并且经常用于语音助手场景,文本阅读功能,以及作为辅助工具等,它也被集成到微软的Edge Read Aloud、Immersive Reader、Word Read Aloud等旗舰产品中,也被AT&T、Duolingo、Progressive等众多客户采用。神经TTS已经拥有330多个音色,支持来自不同国家和地区的近130种语言或方言。用户和企业可以通过搜索“Azure TTS”进入产品网站,测试和体验Neural TTS丰富的预设语音,也可以录制并上传自己的样本,创建独特的自定义语音。