[发明专利]音频特征的匹配和音频节目开始时间的定位的方法及装置有效
| 申请号: | 202010236267.6 | 申请日: | 2020-03-30 |
| 公开(公告)号: | CN111489764B | 公开(公告)日: | 2023-09-22 |
| 发明(设计)人: | 潘峰;杨硕;杨会林;雷鹏;孟瑜;闫卓;郭欣 | 申请(专利权)人: | 北京讯听网络技术有限公司 |
| 主分类号: | G10L25/51 | 分类号: | G10L25/51;G10L25/03 |
| 代理公司: | 北京众允专利代理有限公司 11803 | 代理人: | 罗斯青 |
| 地址: | 100022 北京市朝阳区建国*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 音频 特征 匹配 节目 开始 时间 定位 方法 装置 | ||
1.一种音频特征的匹配方法,所述方法用于确定音频节目的节目开始时间,其特征在于,包括:
获取与所述音频节目的节目片头对应的第一音频信息以及包含所述节目片头并且时间长度大于所述节目片头的第二音频信息;
对所述第一音频信息和所述第二音频信息进行特征提取,确定所述第一音频信息的第一特征以及所述第二音频信息的第二特征;以及
对所述第一特征和所述第二特征进行匹配,确定所述节目片头的开始时间在所述第二音频信息中的第一时间位置;获取所述第二音频信息的操作,包括:
在录制的音频直播数据中,确定在所述节目片头的开始时间之前的第一时刻以及在所述节目片头的结束时间之后的第二时刻;以及
在所述音频直播数据中获取所述第一时刻和所述第二时刻之间的音频信息作为所述第二音频信息;
确定所述第一特征的操作,包括:
将所述第一音频信息分割成由第一数量的多个音频帧构成的第一音频帧集合;
确定与所述第一音频帧集合对应的第一特征单元集合,其中所述第一特征单元集合包括分别与所述第一音频帧集合的所述多个音频帧对应的多个特征单元,并且其中所述第一特征单元集合的特征单元用于指示对应的音频帧的频谱能量分布;以及
将所述第一特征单元集合的所述多个特征单元组合成所述第一特征;
确定与所述第一音频帧集合对应的第一特征单元集合的操作,包括:
根据所述第一音频帧集合,利用预先设置的加窗算法确定第二音频帧集合,其中所述第二音频帧集合的音频帧为与所述第一音频帧集合的音频帧对应的具有周期性连续信号的音频帧;
根据所述第二音频帧集合,确定第一频域信息集合,其中所述第一频域信息集合包括与所述第二音频帧集合的多个音频帧分别对应的多个频域信息;以及
根据所述第一频域信息集合,确定分别与所述第一音频帧集合的所述多个音频帧对应的多个由比特位构成的特征单元,作为所述第一特征单元集合;
通过对频域信息进行Mel滤波操作,得到能量信息,通过能量信息得到能量的分布,其中当能量上升的情况下记作0,当能量下降的情况下记作1,从而根据能量分布情况,得到由多个比特位构成的特征单元;
对所述第二音频信息进行特征提取,确定所述第二特征的操作,包括:
将所述第二音频信息分割成由第二数量的多个音频帧构成的第三音频帧集合;
确定与所述第三音频帧集合对应的第二特征单元集合,其中所述第二特征单元集合包括分别与所述第三音频帧集合的所述多个音频帧对应的多个特征单元,其中所述第二特征单元集合的特征单元用于指示对应的音频帧的频谱能量分布;以及
将所述第二特征单元集合的所述多个特征单元组合成所述第二特征;
确定与所述第三音频帧集合对应的第二特征单元集合的操作,包括:
根据所述第三音频帧集合,利用预先设置的加窗算法确定第四音频帧集合,其中所述第四音频帧集合的音频帧为与所述第三音频帧集合的音频帧对应的具有周期性连续信号的音频帧;
根据所述第四音频帧集合,确定第二频域信息集合,其中所述第二频域信息集合包括与所述第四音频帧集合的多个音频帧分别对应的多个频域信息;以及
根据所述第二频域信息集合,确定分别与所述第三音频帧集合的所述多个音频帧对应的多个由比特位构成的特征单元,作为所述第二特征单元集合;
对所述第一特征和第二特征进行匹配,确定所述节目片头的开始时间在所述第二音频信息中的第一时间位置的操作,包括:
基于构成所述第二特征单元集合的特征单元,从所述第二特征中提取多个特征片段,其中所述特征片段分别包括所述第一数量的多个特征单元;以及
分别计算所述第一特征与所述多个特征片段的相似度,并且根据相似度最高的特征片段的起始特征单元所对应的音频帧在所述第二音频信息中的时间位置,确定所述节目片头的开始时间在所述第二音频信息中的所述第一时间位置。
2.根据权利要求1所述的方法,其特征在于,获取所述第二音频信息的操作,还包括:
在所述音频直播数据中获取所述第一时刻和所述第二时刻之间的多个音频碎片信息;以及
将所述多个音频碎片信息进行合并,得到所述第二音频信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京讯听网络技术有限公司,未经北京讯听网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010236267.6/1.html,转载请声明来源钻瓜专利网。





