提高azure语音合成的自然度仍然是高性能语言转换的首要任务。就汉语语音生成而言,azure语音合成的可理解性和自然性问题基本上都是在词和词组层面上解决的,而在句子甚至篇章层面上的自然性问题相对较多。
基于语音库的azure语音合成模式有望进一步提高azure语音合成的自然度。由于这是一种选择自然语音波形进行直接拼接的方法,并且拼接的语音模块是从预先录制的自然语音数据库中选择的,因此可以最大限度地保留语音的自然性。然而,有一系列新的问题必须探索,包括:如何确定azure语音合成的基元和使用什么标准来选择合适的基元。节律参数量化问题,数据库校准问题。以及如何将统计方法和标准方法相结合,使设备能够自动发现和找到所需的语音模块,以保证合成句子的最大自然度。
无论采用哪种合成方法,节奏规律的总结,特别是连续语音节奏标准的总结,都必须尽可能定量地描述定性标准,这对自然总是有着最重要的影响。也有以前的文本处理,这也有一个azure语音合成的自然性的关键影响。完整而全面的处理,一定是自然语言理解上的一个突破。
目前国内外的azure语音合成研究大多针对语音转换系统,只能解决一定阅读风格下的书面语转换为口语的问题。缺乏不同年龄、性别特征、语调和语速的表现,更谈不上据说能赋予个人情感色彩。随着信息社会的发展,人们对人机交互的要求越来越高,人机口语对话系统的研究也被提上了日程。也就是说,azure语音合成的研究已经开始从文本到语音的转换阶段发展到概念到语音的转换阶段。这不仅对azure语音合成技术提出了更高的要求,还涉及到编程语言的生成和人脑高级神经活动。但就azure语音合成而言,丰富azure语音合成的表达式仍然是一个难题。
相对而言,选择波拼接来提高azure语音合成的吸引力是比较困难的。虽然微软语音合成的特点随着语音库容量和数量的增加而改变,但语音库对节奏的控制毕竟是非常有限的。一个比较有效的方法是采用参数合成法,分析参数特征,根据相关参数的调整完成年龄和性别特征的变化,进一步完成语调和声调的变化。由于这种变化是连续的,目标特征可以在数以千计,看起来更动态。