[发明专利]一种基于共振峰频率的数字语音感知哈希方法有效
申请号: | 201610049423.1 | 申请日: | 2016-01-25 |
公开(公告)号: | CN105741853B | 公开(公告)日: | 2019-03-29 |
发明(设计)人: | 王宏霞;任刘姣 | 申请(专利权)人: | 西南交通大学 |
主分类号: | G10L25/54 | 分类号: | G10L25/54 |
代理公司: | 成都信博专利代理有限责任公司 51200 | 代理人: | 张澎 |
地址: | 610031 四川省成都市*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于共振峰频率的数字语音感知哈希方法,应用于大数据背景下的语音检索,分别提取能反映说话人音色特征的共振峰频率作为语音段的粗略特征和鲁棒性较强的时域能量差作为语音段的细节特征。匹配过程首先对语音的粗略特征进行匹配,筛选出与目标语音具有相似音色的语音片段,然后对筛选出的具有相似音色的语音进行细节特征匹配,最后获得精确匹配结果。应用于海量语音信号处理时可以省去大量不必要的匹配计算量,匹配效率将明显提高。 | ||
搜索关键词: | 一种 基于 共振 频率 数字 语音 感知 方法 | ||
【主权项】:
1.一种基于共振峰频率的数字语音感知哈希方法,应用于大数据背景下的语音检索,分别提取能反映说话人音色特征的共振峰频率作为语音段的粗略特征和鲁棒性较强的时域能量差作为语音段的细节特征;将粗略特征和细节特征分别量化为感知哈希,匹配过程通过粗略特征的匹配初步确定目标语音所在的范围,筛选出与目标语音具有相似音色的语音段,然后对筛选出的相似语音片段进行细节特征匹配,最后获得精确匹配结果;(1)基于共振峰频率的粗糙感知哈希生成:对语音进行频域分析,利用共振峰能够表征说话人音色特征这一特性,选取语音的共振峰频率作为粗略特征,采用不重叠分帧方法,提取每帧的前k个共振峰,这k个共振峰值分别与对应的k个共振峰频率的平均值进行比较,取差值最小的为每帧的第一共振峰,每帧的第一共振峰值分别与第一共振峰频率的中值进行比较,大于等于中值则当前帧的感知哈希值为1,小于中值则为0,将提取的感知哈希值按分帧的顺序排列,量化为反映语音粗略特征的粗糙感知哈希序列H1;(2)细节感知哈希序列的获得:细节感知哈希生成过程采用重叠分帧,计算每帧时域短时能量,相邻帧的短时能量差作为语音的细节特征,并量化为反映语音细节特征的细节感知哈希序列H2;(3)粗糙感知哈希与细节感知哈希结合:每帧的粗糙感知哈希H1置于细节感知哈希H2的前面,H1与H2顺序拼接起来作为当前帧最终的感知哈希序列H。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南交通大学,未经西南交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610049423.1/,转载请声明来源钻瓜专利网。