[发明专利]一种音频相似度的确定方法、装置和存储介质在审
申请号: | 201711204365.6 | 申请日: | 2017-11-27 |
公开(公告)号: | CN108021635A | 公开(公告)日: | 2018-05-11 |
发明(设计)人: | 徐勇 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳翼盛智成知识产权事务所(普通合伙) 44300 | 代理人: | 黄威 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音频 相似 确定 方法 装置 存储 介质 | ||
本发明实施例公开了一种音频相似度的确定方法、装置和存储介质;本发明实施例可以分别对第一音频数据和第二音频数据进行归一化处理和高通滤波,然后分别确定其短时能量分布,并基于得到的短时能量分布情况计算第一音频数据和第二音频数据的相似度;该方案既可以有效地且准确地计算出相似度,而且,也可以适用于多数应用场景,提高了方案的适用性。
技术领域
本发明涉及通信技术领域,具体涉及一种音频相似度的确定方法、装置和存储介质。
背景技术
音频数据,指的是数字化的声音数据,而音频相似度,在这里则指的是两段音频数据在语调、以及语气上的相似度。基于音频相似度,人们可以对音频数据进行预设的一些处理,比如判断配音是否合适、模仿是否到位,歌曲是否跑调,等等。
在现有技术中,一般会利用预设模型从需要比较的两个音频文件中,分别提取出音频数据的乐器数字接口(MIDI,Musical Instrument Digital Interface)特征文件,比如,可以先按照某种算法提取原始音频文件的MIDI特征文件,当用户上传一段录音后,再通过相同的算法提取该录音的MIDI特征文件,然后将这两个音频文件的MIDI特征文件进行对比,并基于对比结果进行打分,等等。其中,分数越高则相似度越高,反之则相似度越低。
在对现有技术的研究和实践过程中,本发明的发明人发现,由于MIDI特征文件主要表现了音频在各个采样点的音高和频率,因此,对于歌曲而言,MIDI特征会比较明显,而对于较短的录音,比如一句台词,则无法提取有效的MIDI特征文件,所以,在某些特定的场景,如配音等场景下,现有方案并不适用,即现有方案的适用性较窄。
发明内容
本发明实施例提供一种音频相似度的确定方法、装置和存储介质,可以在满足相似度计算的准确性的前提下,提高方案的适用性。
本发明实施例提供一种音频相似度的确定方法,包括:
获取第一音频数据和第二音频数据;
分别对第一音频数据和第二音频数据进行归一化处理和高通滤波,得到第一音频数据对应的第一滤波后数据、以及第二音频数据对应的第二滤波后数据;
分别确定第一滤波后数据和第二滤波后数据的短时能量分布,得到第一滤波后数据对应的第一分布信息、以及第二滤波后数据对应的第二分布信息;
基于第一分布信息和第二分布信息计算第一音频数据和第二音频数据的相似度。
相应的,本发明实施例还提供一种音频相似度的确定装置,包括:
获取单元,用于获取第一音频数据和第二音频数据;
滤波单元,用于分别对第一音频数据和第二音频数据进行归一化处理和高通滤波,得到第一音频数据对应的第一滤波后数据、以及第二音频数据对应的第二滤波后数据;
确定单元,用于分别确定第一滤波后数据和第二滤波后数据的短时能量分布,得到第一滤波后数据对应的第一分布信息、以及第二滤波后数据对应的第二分布信息;
计算单元,用于基于第一分布信息和第二分布信息计算第一音频数据和第二音频数据的相似度。
此外,本发明实施例还提供一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本发明实施例所提供的任一种音频相似度的确定方法中的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711204365.6/2.html,转载请声明来源钻瓜专利网。