[发明专利]一种基音混合方法及装置有效
申请号: | 201911414847.3 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111210811B | 公开(公告)日: | 2022-10-04 |
发明(设计)人: | 张尉雄 | 申请(专利权)人: | 深圳市瑞讯云技术有限公司 |
主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L15/20;G10L15/22;G10L25/30;G10L25/84 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 刘冬亮 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基音 混合 方法 装置 | ||
本发明实施例提供了一种基音混合方法及装置,应用于人工智能系统,所述方法包括:当所述人工智能系统接收唤醒指令时,获取当前的环境音频数据;接收用户输入的用户音频数据;将所述环境音频数据拆分成拆分音频数据;合并所述用户音频数据与所述多路拆分音频数据,生成混合音频数据。本实施例提出的方法操作简便,可以从语音数据中提取出各个语言特征以及不同的语音数据,并利用不同的语音数据或语音特征和预设的语音数据进行混合,可以实现人工智能系统的基音混合,同时在混合过程中的计算量小,也降低了系统功耗,而且可以采用混合音频数据进行语音训练,也提高了人工智能系统识别的准确度,可以准确识别用户的指令。
技术领域
本发明涉及互联网技术领域,特别是涉及一种基音混合方法以及一种基音混合装置。
背景技术
随着互联网的不断普及,人工智能系统也逐渐进入人们的生活一部分,为人们生活提供便利。
人工智能系统可以通过识别用户的语音数据,从而执行语音数据对应的操作,为用户的生活提供便利。
目前的人工智能系统都是在获取语音数据后,执行对应的操作。为了可以提高识别识别的准确率,普遍采用人工录制以及人工标注的方式,得到用于训练深度神经元网络的语音数据。
而常用的方法只能标注人声或单一声音,混音方法单一,范围窄,只能按照单一声音进行混合利用,大大限制了人工智能系统的工作。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种基音混合方法以及一种基音混合装置。
为了解决上述问题,本发明实施例公开了一种基音混合方法,所述方法应用于人工智能系统,所述方法包括;
当所述人工智能系统接收唤醒指令时,获取当前的环境音频数据;
接收用户输入的用户音频数据;
将所述环境音频数据拆分成拆分音频数据;
合并所述用户音频数据与所述多路拆分音频数据,生成混合音频数据。
可选地,所述拆分音频数据包括人声数据、噪声数据,所述将所述环境音频数据拆分成拆分音频数据,包括:
采用预设的声音检测模型识别所述环境音频数据的音频波形;
计算所述音频波的幅值是否大于预设值;
若所述音频波形的幅值大于预设值,则将所述环境音频数据拆分成人声数据和噪声数据。
可选地,所述合并所述用户音频数据与所述多路拆分音频数据,包括:
获取所述用户音频数据的用户波形,与所述人声数据的人声波形;
判断所述用户波形与所述人声波形是否相同;
若所述用户波形与所述人声波形相同,则合并所述用户音频数据与所述环境音频数据,生成混合音频数据;
若所述用户波形与所述人声波形不相同,则将所述用户音频数据、所述人声数据以及所述噪声数据依次合并,生成混合音频数据。
可选地,所述方法还包括:
若所述音频波形的幅值小于预设值,则分别从所述用户音频数据中提取用户语音特征,和从所述环境音频数据中提取环境音频特征;
合并所述用户语音特征和所述环境音频特征,生成训练语音特征;
采用所述训练语音特征进行语音训练。
本发明实施例还公开了一种基音混合装置,应用于人工智能系统,所述装置包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市瑞讯云技术有限公司,未经深圳市瑞讯云技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911414847.3/2.html,转载请声明来源钻瓜专利网。