[发明专利]基于分层事件检测和上下文模型的多源场景声音摘要方法有效
申请号: | 201410391254.0 | 申请日: | 2014-08-08 |
公开(公告)号: | CN104167211A | 公开(公告)日: | 2014-11-26 |
发明(设计)人: | 路通;翁炀冰;王公友 | 申请(专利权)人: | 南京大学 |
主分类号: | G10L19/022 | 分类号: | G10L19/022;G10L19/02;G10L25/48 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 胡建华 |
地址: | 210023 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于分层事件检测和上下文模型的多源场景声音摘要方法,包括以下步骤:步骤一,输入一段待摘要的目标多源场景音频分割片段;步骤二,基于背景声音对音频场景片段进行分割;步骤三,通过一个谱聚类算法,将目标音频中相似的分割片段聚类起来,利用仿射函数检测背景声音事件,并计算声音事件的评分函数得到关键声音事件;步骤四,通过一个上下文模型计算声音事件之间的相关函数;步骤五,根据声音事件之间的相关值在关键声音事件的音频分割片段前后合并相关度较高的音频分割片段得出最后的多源场景声音摘要。 | ||
搜索关键词: | 基于 分层 事件 检测 上下文 模型 场景 声音 摘要 方法 | ||
【主权项】:
一种基于分层事件检测和上下文模型的多源场景声音摘要方法,其特征在于,包括以下步骤:步骤一,输入一段待摘要的目标多源场景音频信号作为目标音频,所述待摘要的目标多源场景音频信号由各种来源的结构化的前景声音及非结构化的背景声音组成;步骤二,通过背景声音识别算法,识别出目标音频中的背景声音,提取目标音频的波形值组成一个矩阵,并将该矩阵和背景声音特征向量都投影到特征空间中,计算目标音频特征向量和背景声音特征向量的归一化距离来确定目标音频分割片段的分割点位置,完成音频分割;步骤三,使用谱聚类算法将目标音频中相似的分割片段聚类,将一类分割片段作为声音事件,使用仿射函数进行背景声音事件的检测,计算声音事件的发生频率、总时间长度及平均时间长度三个评分函数并组成关键声音事件的评分函数,通过关键声音事件的评分函数计算得到关键声音事件;步骤四,使用上下文模型将关键声音事件和相邻的事件关联在同一个声音场景下,即用声音事件之间的相关系数和时间间隔,计算两个声音片段的相关函数得到相邻声音事件的相关值;步骤五,利用关键声音事件和相邻声音事件的相关值在关键声音事件的音频分割片段周围扩展所在场景下的音频分割片段,如果关键声音事件的音频分割片段与它的相邻音频分割片段各自所属声音事件的相关值超过设定阈值,则把它们归为同一声音场景,最后得到最后的多源场景声音摘要。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410391254.0/,转载请声明来源钻瓜专利网。