微软Azure语音服务功能讲解

来源:本站    分类:行业动态      发布时间:2023-04-18     浏览次数:361

微软更新了Azure认知服务的语音功能,通过自定义语音到文本功能,进一步提高应用和产品语音转文本的准确性。在基本模型的基础上训练新的自定义语音模型。用户可以使用文本数据对模型进行训练,以增强特定领域词汇的识别能力,或者通过具有转录能力的音频数据提高应用对特定音频条件的识别能力。

azure文字转语音
配音神器
短视频配音
azure语音合成
语音合成助手
Azure Cognitive Services for Speech语音认知服务允许用户轻松构建语音应用程序。服务支持多达140种语言,使用户能够高精度地将Azure语音转文本,或将文本转换为自然语音,甚至进行翻译。新的自定义语音功能允许用户自定义语音转文本引擎,根据应用的常用词汇表自定义语音模型,自定义语音模型以适应用户的说话风格。
用户可以通过上传自定义语音文本或音频数据简单地创建自定义模型。这些模型将与微软的语音模型相结合,并部署到定制的语音到文本的端点,供最终用户从各种设备访问。
微软为用户提供了三种自定义语音模型的方法。

第一种是最简单的方法。用户可以添加名称,如参与者的名字,产品和行话列表,以提高模型识别这些单词的能力。这是一种无需模型训练即可立即提高精度的方法。
第二种方法是使用纯文本。微软提到,这也是一种简单的自定义语音模型的方法,因为在各种体育赛事中使用的词汇有很大的不同,所以可以通过纯文本的方式针对具体的体育项目进行构建。定制模型,以提高比赛词汇的准确性。
第三种是以结构化文本的形式,适用于在语音中强化句型的文本数据,对具体的词或短语是不同的。同时,用户还可以使用音频数据来训练定制的语音模型,这将提高模型识别特定口音、说话风格或背景噪音的能力。