智能语音技术的快速发展,使人工智能合成的声音更加自然逼真,使越来越多的公司能够实现与客户的多模态交互。基于Microsoft Azure云平台创建语音定制服务。定制专属个性化语音已广泛应用于语音助手、聊天机器人、在线学习、有声读物或新闻广播等各种使用场景。
传统上,完成一个自定义的声音是耗时和复杂的。演讲者需要记录数万个语料库作为训练数据,然后由具有深厚神经网络和语音合成专业背景的专家根据客户的语音数据对声学模型和语音合成器进行训练和调优。整个过程往往需要几个月的时间。微软推出的基于深度神经网络的语音定制服务是行业内的创举,需要的训练数据少,仅需300到2000句的语料数据(约30—120分钟)。简化了训练和调音的难度和复杂性。即使没有深度神经网络和Azure语音合成专业背景的用户也可以实现自助训练,达到与人类发音相当的效果。用户只需在Azure云平台上注册Speech Studio,申请深度神经网络语音定制权限后,一键完成个性化语音模型的训练,快速部署API,适用于各种场景下的应用开发。
除了平台自助服务外,微软专家还可以为有需要的客户提供语音定制支持和咨询服务,包括语音肖像设计、扬声器选择、录音指导、模型评估和调试等,帮助英国 BBC 广播公司、Swisscom 瑞士电信、美国 AT&T 旗下的华纳兔八哥体验店、美国 Progressive 前进保险公司、Duolingo 多邻国和国内的小米、华人运通等不同行业的用户,成功地创造出了自己定制的声音。
美国AT&T体验店中的兔八哥语音助手采用了微软的语音定制服务,用兔八哥声优的授权声音创建了这个虚拟动画角色的语音模型。增加了客户黏性。