[发明专利]基于用户音色进行语音合成的方法及装置有效

申请号：	201810996446.2	申请日：	2018-08-29
公开（公告）号：	CN108847215B	公开（公告）日：	2020-07-17
发明（设计）人：	吴千瑜	申请（专利权）人：	北京云知声信息技术有限公司
主分类号：	G10L13/08	分类号：	G10L13/08;G10L13/10;G10L15/14;G10L17/02;G10L21/0208
代理公司：	北京冠和权律师事务所 11399	代理人：	朱健;张国香
地址：	100089 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于用户音色进行语音合成方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种基于用户音色进行语音合成的方法及装置，其中，该方法包括：获取用户输入的用户音频数据，并确定用户音频数据的用户音色特征；根据用户音色特征和测试数据合成与测试数据对应的测试音频数据并播放，并接收用户指向测试音频数据的播放调整指令；根据播放调整指令修正用户音色特征，将修正后的用户音色特征作为最终的标准音色特征；根据标准音色特征和待播放数据合成与待播放数据对应的目标音频数据并播放。该方法提取用户的音色特征并基于用户的音色特征来播放音频数据，从而可以模仿用户发声，提高播放音频时的真实性；基于用户的播放调整指令可对音色特征进行调整，使得最终播放音频数据时更加符合用户的特征和需求。

技术领域

本发明涉及语音处理技术领域，特别涉及一种基于用户音色进行语音合成的方法及装置。

背景技术

随着智能设备的普及，目前大多数智能设备(比如智能手机、机器人等)具有自动发音功能。但目前大部分智能设备只是单纯的发出机器声音，对于需要通过语音进行人机交互的智能设备，机器声音比较单调乏味，听起来没有自然语言那样生动形象，且过于生硬，并不能体现出用户本身的特色。而现有智能设备并不支持用户自主改变机器发声的音色。

发明内容

本发明提供一种基于用户音色进行语音合成的方法及装置，用以解决用户不能自主改变机器发声的音色的缺陷。

本发明提供的一种基于用户音色进行语音合成的方法，包括：

获取用户输入的用户音频数据，并确定所述用户音频数据的用户音色特征；

根据所述用户音色特征和测试数据合成与所述测试数据对应的测试音频数据并播放，并接收用户指向所述测试音频数据的播放调整指令；

根据所述播放调整指令修正所述用户音色特征，将修正后的用户音色特征作为最终的标准音色特征；

根据所述标准音色特征和待播放数据合成与所述待播放数据对应的目标音频数据；

获取用户输入的发送指令，所述发送指令中包括音频接收端标识；

将所述目标音频数据发送给所述音频接收端标识所对应的音频接收端，由所述音频接收端将所述目标音频数据作为自身的音频播放源。

在一种可能的实现方式中，所述获取用户输入的用户音频数据包括：

以预设采样率依次采集当前的环境噪声和用户音频数据，所述预设采样率不小于预设阈值；

在所述环境噪声和所述用户音频数据的幅值均不超过相应的预设幅值时，根据所述环境噪声和所述用户音频数据确定信噪比；