微软的azure语音合成技术在探索提高语音的自然度的同时,也在不断探索语音的表现力、丰富性和智能性。微软智能语音通过多情感、多角色、情感强度可调等技术升级,极大地丰富了合成语音的风格。此外,为了大大降低音频内容的创作成本,微软为复杂的长文本提供了智能的情感和字符预测功能,让人工智能语音具有更强的理解力,让音频内容的创作变得更简单、更方便。
具体而言,智能语音多情感技术创造性地挖掘了人声的情感语音特征,赋予合成语音以拟人化的表现力,让合成语音不仅能根据不同场景而变化,还能拥有"自己的喜怒哀乐"。样一来,声音的表现力更强,不仅能更贴切地表达文字内容,也使演讲更容易理解,更生动。
例如,潇潇的中文声音已经达到了14种情感风格。“抒情”、“新闻”、“聊天”等不同的风格可以用来解读不同使用场景下的作品,而“喜”、“悲”、“愤怒”、“恐惧”等各种情绪在对话中表达不同的情感和态度。、
人类的情感就像一个色谱。色谱的颜色从暗到亮,人的情感也是这样,由强到弱。微软的智能语音情感强度可调技术,可以加强或减弱情感强度,使情感的表达更加细腻,从而大大扩展了情感矩阵,丰富了多情感语音的表达方式。在实际的人与人之间的对话中,情感的变化是微妙的。通过控制情绪化程度的技术,人工智能对话或聊天机器人可以变得更流畅、更真,人性化的设置也更加统一。
微软智能语音提供了很多语音角色供用户选择,涵盖了不同的年龄、性别、性格特征。其中一些声音还可以扮演不同的角色,比如男声扮演女声,年轻人的声音扮演老年人的声音,等等。通过微软的高品质音效家族,用户可以选择更符合实际场景的不同音色,满足自然对话的需求,创作出更有趣的多播剧。极大地拓展了音频内容的创作空间。
微软智能语音也在探索更智能、更易理解的语音系统,在打造丰富、自然、富有表现力的音频内容的同时,能够进一步降低人工操作的成本。基于上下文信息,Microsoft Voice可以识别旁白和对话、角色角色以及语气和情感,并自动推荐最合适的语音。
为了让每个人都能轻松地创作音频内容,微软提供了一套智能的音频内容创作工具平台。输入文字后,该工具可以先预测人物性格和情感,然后选择合适的声音进行表演。创作者可以调整声音、情感、节奏、发音等。来创建不同的音频内容。