微软Azure Neural TTS(神经网络版文本到语音)新增了五种新的语音模型,让我们体验到“风格转移”技术对多种情感和风格的人工智能语音模型的强大支持。
本次更新的五位美语配音模特包括:青春甜美的Jane,深沉温柔的Nancy,休闲活力的Davis,大声热情的Jason,沙哑粗犷的Tony。在“风格转移”技术的支持下,不仅有高兴、悲伤、愤怒、兴奋、希望、友好、不友好和恐惧(惊恐)等丰富的情感表情,并且还具备了叫喊和低语这两种前两种表情。截至目前,用户已有20余种美式英语语音模式可供选择,丰富的情感和风格让应用场景更加多样化。
“风格转移”技术的原理是将一种语音模型的节奏和语调复制到另一种语音模型上,使后者在不改变自身音色的情况下,也能拥有前者的节奏和语调。过去,语音风格的构建主要依靠录音演员录制各种风格的语音数据,然后利用录制数据生成多风格的智能语音模型,但一个录音演员很难解释所有风格的语音。风格转换技术创新性地解决了这一问题,可以有效地赋予多人工智能语音以情感和风格。
语音风格和语音情感模型的不断更新,使得Azure Neural TTS的合成语音被广泛应用于各种业务场景,让用户体验到更加逼真的语音体验。例如,游戏平台可以快速为角色生成各种情感声音,为游戏添加更多符合剧情的个性化表达,让虚拟的游戏世界变得栩栩如生。微软的不死实验室是衰败状态的创造者,他们肩负着开拓游戏新方向的使命,他们在游戏开发中使用了Azure Neural TTS。Double Fine工作室已经发布了包括"Psychonauts 2"(精神病患者2)在内的几款游戏,他们也在使用Azure Neural TTS构建未来游戏项目的原型。音频解决方案提供商Remixd将Azure Neural TTS的声音模型Jenny和Davis集成到其平台中,为客户创建音频内容提供了更多选择。