[发明专利]一种基于贪心算法的语音相似度计算方法和装置在审
申请号: | 201810940763.2 | 申请日: | 2018-08-17 |
公开(公告)号: | CN110890086A | 公开(公告)日: | 2020-03-17 |
发明(设计)人: | 吴威;张楠赓 | 申请(专利权)人: | 北京嘉楠捷思信息技术有限公司 |
主分类号: | G10L15/10 | 分类号: | G10L15/10;G10L15/28;G10L25/27 |
代理公司: | 北京市中伦律师事务所 11410 | 代理人: | 杨黎峰;钟锦舜 |
地址: | 100094 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 贪心 算法 语音 相似 计算方法 装置 | ||
本发明的实施方式提供了一种基于贪心算法的语音相似度计算方法和装置,方法包括:获取测试序列V与模板序列U,基于滑动窗口依次截取测试序列中的元素组(Vn,Vn+1)作为第n个局部测试序列V′n,动态截取模板序列的连续i帧作为对应的局部模板序列,基于每一个局部测试序列与对应的局部模板序列建立局部相似度矩阵,进而利用贪心算法获取测试序列与模板序列的全局相似度。本发明通过利用贪心思想,通过计算局部最优路径获得全局最优路径,显著减少了DTW运算中的计算量。
技术领域
本发明涉及语音识别领域,具体涉及一种基于贪心算法的语音相似度计算方法和装置。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
近年来,随着人机信息交互技术的发展,语音识别技术显示出其重要性。动态时间规整(Dynamic Time Warping,简称DTW)算法是语音识别中的一种常用的匹配算法,DTW算法基于动态规划(DP)的思想,通过把时间序列进行延伸和缩短,来计算两个时间序列性之间的相似性,能够有效解决测试语音与模板语音速度不一致的问题。
传统的DTW算法分为三步:一是计算测试序列中的每一个矢量特征与模板序列中每一个矢量特征之间的欧式距离,并基于计算得到的欧式距离构建欧式距离矩阵;二是计算上述构建的矢量距离矩阵中所有可能的路径;三是在上述计算的所有路径中找出一条累加距离最小的路径。
然而,上述DTW算法在寻找最优路径时需要预先找出并记录所有可能的路径,然后再从路径终点反推找出最短的那条路径,这种寻找方式虽然全面,但运算量很大。
发明内容
针对现有技术中的利用DTW算法计算语音相似度时运算量过大的问题,本发明提供了一种基于贪心算法的语音相似度计算方法和装置,在保证语音相似度准确性的前提下,大幅减少了运算量。
在本发明实施方式的第一方面,提出一种基于贪心算法的语音相似度计算方法,其特征在于,所述方法包括:
获取含有N帧语音特征矢量的测试序列V=(V1,V2,..,VN)与含有M帧语音特征矢量的模板序列U=(U1,U2,...,UM);
基于滑动窗口依次截取所述测试序列中的元素组(Vn,Vn+1)作为第n个局部测试序列V′n;
针对每一个局部测试序列,动态截取所述模板序列的连续i帧作为对应的局部模板序列;
基于所述每一个局部测试序列与所述对应的所述局部模板序列建立局部相似度矩阵;
基于所述局部相似度矩阵,利用贪心算法获取所述测试序列与所述模板序列的全局相似度;
其中,所述N为大于1的整数,n为大于0且小于N的整数,i为大于1的整数。
在一种实施方式中,其中,所述基于滑动窗口依次截取所述测试序列中的元素组(Vn,Vn+1)作为局部测试序列V′n具体包括:
对n依次从1到N-1进行取值,以获取所述每一个局部测试序列。
在一种实施方式中,其中,所述针对每一个局部测试序列,动态截取所述模板序列的连续i帧作为对应的局部模板序列具体包括:
预设所述局部模板序列初始值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京嘉楠捷思信息技术有限公司,未经北京嘉楠捷思信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810940763.2/2.html,转载请声明来源钻瓜专利网。