[发明专利]一种音频相似度的确定方法、装置和存储介质在审

申请号：	201711204365.6	申请日：	2017-11-27
公开（公告）号：	CN108021635A	公开（公告）日：	2018-05-11
发明（设计）人：	徐勇	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	深圳翼盛智成知识产权事务所(普通合伙) 44300	代理人：	黄威
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种音频相似确定方法装置存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种音频相似度的确定方法、装置和存储介质；本发明实施例可以分别对第一音频数据和第二音频数据进行归一化处理和高通滤波，然后分别确定其短时能量分布，并基于得到的短时能量分布情况计算第一音频数据和第二音频数据的相似度；该方案既可以有效地且准确地计算出相似度，而且，也可以适用于多数应用场景，提高了方案的适用性。

技术领域

本发明涉及通信技术领域，具体涉及一种音频相似度的确定方法、装置和存储介质。

背景技术

音频数据，指的是数字化的声音数据，而音频相似度，在这里则指的是两段音频数据在语调、以及语气上的相似度。基于音频相似度，人们可以对音频数据进行预设的一些处理，比如判断配音是否合适、模仿是否到位，歌曲是否跑调，等等。

在现有技术中，一般会利用预设模型从需要比较的两个音频文件中，分别提取出音频数据的乐器数字接口(MIDI，Musical Instrument Digital Interface)特征文件，比如，可以先按照某种算法提取原始音频文件的MIDI特征文件，当用户上传一段录音后，再通过相同的算法提取该录音的MIDI特征文件，然后将这两个音频文件的MIDI特征文件进行对比，并基于对比结果进行打分，等等。其中，分数越高则相似度越高，反之则相似度越低。

在对现有技术的研究和实践过程中，本发明的发明人发现，由于MIDI特征文件主要表现了音频在各个采样点的音高和频率，因此，对于歌曲而言，MIDI特征会比较明显，而对于较短的录音，比如一句台词，则无法提取有效的MIDI特征文件，所以，在某些特定的场景，如配音等场景下，现有方案并不适用，即现有方案的适用性较窄。

发明内容

本发明实施例提供一种音频相似度的确定方法、装置和存储介质，可以在满足相似度计算的准确性的前提下，提高方案的适用性。

本发明实施例提供一种音频相似度的确定方法，包括：

获取第一音频数据和第二音频数据；

分别对第一音频数据和第二音频数据进行归一化处理和高通滤波，得到第一音频数据对应的第一滤波后数据、以及第二音频数据对应的第二滤波后数据；

分别确定第一滤波后数据和第二滤波后数据的短时能量分布，得到第一滤波后数据对应的第一分布信息、以及第二滤波后数据对应的第二分布信息；

基于第一分布信息和第二分布信息计算第一音频数据和第二音频数据的相似度。

相应的，本发明实施例还提供一种音频相似度的确定装置，包括：

获取单元，用于获取第一音频数据和第二音频数据；

滤波单元，用于分别对第一音频数据和第二音频数据进行归一化处理和高通滤波，得到第一音频数据对应的第一滤波后数据、以及第二音频数据对应的第二滤波后数据；

确定单元，用于分别确定第一滤波后数据和第二滤波后数据的短时能量分布，得到第一滤波后数据对应的第一分布信息、以及第二滤波后数据对应的第二分布信息；

计算单元，用于基于第一分布信息和第二分布信息计算第一音频数据和第二音频数据的相似度。