[发明专利]关键词语音的清洗处理方法、清洗处理装置和存储介质在审
| 申请号: | 202211699544.2 | 申请日: | 2022-12-28 |
| 公开(公告)号: | CN115985299A | 公开(公告)日: | 2023-04-18 |
| 发明(设计)人: | 方静宜;陈锦明;刘英子 | 申请(专利权)人: | 恒玄科技(上海)股份有限公司 |
| 主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L17/04 |
| 代理公司: | 北京金信知识产权代理有限公司 11225 | 代理人: | 夏东栋 |
| 地址: | 201306 上海市浦东新区自由*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 关键词 语音 清洗 处理 方法 装置 存储 介质 | ||
1.一种关键词语音的清洗处理方法,其特征在于,包括:
获取待清洗的关键词语音的数据集,其中包含具有关键词标签的各条语音数据;
由处理器,对于各条语音数据,利用识别学习模型来识别标签;
由所述处理器,将识别标签与所述关键词标签相同的语音数据划分为正确分类数据集,并从中筛选出同个标签的正确分类数据子集;
由所述处理器,将识别标签与所述关键词标签不同的语音数据划分为错误分类数据集,并从中筛选出所述同个标签的错误分类数据子集;
从所述同个标签的正确分类数据子集中,选取两条正确分类语音数据,并由所述处理器计算两者的第一序列相关性参数;
由所述处理器,从所述同个标签的错误分类数据子集中,读取各条错误分类语音数据,并计算其与所述两条正确分类语音数据中的一条的第二序列相关性参数,所述第二序列相关性参数采用与所述第一序列相关性参数相同的计算方式;
由所述处理器,将所述第二序列相关性参数与所述第一序列相关性参数进行比较,如果前者小于后者,则将对应的那条错误分类语音数据划分为脏语音数据。
2.根据权利要求1所述的清洗处理方法,其特征在于,两条正确分类语音数据x1和x2的所述第一序列相关性参数根据公式(1)计算:
其中,x1={b1,b2,...bn},x2={a1,a2,...an},n为语音数据的序列长度,d(x1,x2)表示x1和x2的欧氏距离矩阵,ωk代表d(1,1)至d(n,n)的各条路径上的第k个点在所述欧氏距离矩阵中的对应元素,m为各条路径上的点数,C表示所述第一序列相关性参数。
3.根据权利要求2所述的清洗处理方法,其特征在于,还包括通过根据公式(2)来计算所述第一序列相关性参数C:
st(d(i,j))=d(i+sti,j+stj),
d(i+sti,j+stj)=min(d(i+1,j),d(i,j+1),d(i+1,j+1)), 公式(2)
其中,i和j分别表示在所述欧氏距离矩阵中当前点的元素d(i,j)的行序号和列序号,st(d(i,j))表示C所对应的路径上的下一个点的元素,sti表示行向的步进值且为0或1,stj表示列向的步进值且为0或1。
4.根据权利要求1所述的清洗处理方法,其特征在于,对于各条语音数据,利用识别学习模型来识别标签具体包括:计算各条语音数据的时频特征;基于所述时频特征,利用训练好的识别学习模型来识别标签。
5.根据权利要求1所述的清洗处理方法,其特征在于,还包括:通过从待清洗的关键词语音的数据集中去除脏语音数据,来得到清洁语音数据集;利用所述清洁语音数据集对所述识别学习模型进行训练。
6.根据权利要求1所述的清洗处理方法,其特征在于,所述两条正确分类语音数据,由所述处理器从所述同个标签的正确分类数据子集中随机选取。
7.根据权利要求4所述的清洗处理方法,其特征在于,所述时频特征包括MFCC特征、Fbank特征及其变体和梅尔频谱中的一种。
8.根据权利要求1所述的清洗处理方法,其特征在于,所述关键词语音包括用户向便携式智能设备下达的指令语音。
9.一种关键词语音的清洗处理装置,其特征在于,包括:
接口,其配置为获取待清洗的关键词语音的数据集,其中包含具有关键词标签的各条语音数据;以及
处理器,其配置为执行根据权利要求1-7中任何一项所述的关键词语音的清洗处理方法。
10.一种非暂时性计算机存储介质,其上存储有可执行指令,由处理器执行时,实现根据权利要求1-7中任何一项所述的关键词语音的清洗处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于恒玄科技(上海)股份有限公司,未经恒玄科技(上海)股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211699544.2/1.html,转载请声明来源钻瓜专利网。





