微软Azure神经网络文本到语音服务(又称“Neural TTS”、“智能语音合成”可以帮助用户将文本转换为逼真的人工智能语音,适用于各种应用场景,包括智能语音助手、客服对话机器人、音频内容阅读、游戏角色语音等。在过去的几个月里,微软Azure智能语音合成技术在语音自然度、声音丰富度和多语言支持方面取得了进步。
今天微软正式为大家带来了最新的神经网络语音合成声码器HiFiNet2。
TTS中的一个关键组件是声码器,它根据输入文本或声学特征合成音频样本。目前,微软通过HiFiNet2声码器技术,将微软Azure智能语音合成产品全面升级至48kHz音质,进一步为用户带来更高保真、高效、可扩展的AI音质体验。本次更新包括了400多个声音,覆盖了140多个国家和世界各地的语言。
48kHz语音模型
在文本到语音技术中,音频保真度是衡量声音质量的重要标准。高保真的声音不仅能向用户传达更丰富、更细腻的音质,还能最大限度地减少音色的扭曲和失真。随着采样率的增加,听众可以听到更好的细节和更真实的音色。在视频配音、游戏、唱歌等复杂场景中,对声音体验的要求更精细、更沉浸,更高的保真度输出(如48kHz采样率)将为用户带来前所未有的全新感官体验。
现在,随着Azure深层神经网络语音合成服务将全平台AI语音提升到48 kHz采样率,微软是业界第一个给AI语音用户带来真正高保真度语音体验的公司。