[发明专利]一种基于多任务学习的音频场景识别方法及装置有效
申请号: | 202110362915.7 | 申请日: | 2021-04-02 |
公开(公告)号: | CN113220932B | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 冷严;路安芹;刘祯;孙建德;唐勇;王荣燕;齐广慧;李登旺;万洪林 | 申请(专利权)人: | 山东师范大学 |
主分类号: | G06F16/65 | 分类号: | G06F16/65;G06F16/68;G06F16/683 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 祖之强 |
地址: | 250014 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 任务 学习 音频 场景 识别 方法 装置 | ||
本发明提供了一种基于多任务学习的音频场景识别方法及装置,该方法在训练阶段提取音频片段的特征矩阵,为其添加音频场景标签;为音频帧添加音频事件标签,构建训练集;构建音频事件与音频场景识别模型;基于交叉熵L1与交叉熵和L2构造损失函数,基于该损失函数对音频事件与音频场景识别模型进行训练,得到训练好的模型。测试阶段,提取待识别音频片段的特征矩阵作为训练好的音频事件与音频场景识别模型的输入,在音频场景识别模型输出层得到待识别音频片段在各个场景类上的概率分布,取具有最大概率值的场景类作为识别结果。本发明可以大幅度减少模型参数数量;可以节省标注成本;对于缺乏音频事件标签的音频场景数据库,本发明同样适用。
技术领域
本发明属于音频场景识别相关技术领域,尤其涉及一种基于多任务学习的音频场景识别方法及装置。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
音频场景识别是指通过音频判断音频录制的周围场景信息。音频场景识别具有广阔的应用前景,可以广泛用于刑侦追踪、自动驾驶、安全监控等领域,在近几年得到科研界和工业界的广泛重视。
音频事件检测和音频场景识别作为音频领域的两大研究方向,通常是被分开研究的,但是,音频场景中通常包含一系列音频事件,音频场景类是对这一系列音频事件的高层语义表达,因此,音频事件检测研究和音频场景识别研究之间有着必然的联系,合理地结合音频事件检测技术将有助于提高音频场景识别的准确率。
发明内容
本发明为了解决上述合理地结合音频事件检测技术,以提高音频场景识别准确率问题,提供了一种基于多任务学习的音频场景识别方法及装置,该方法通过多任务学习,在一个模型中同时实现音频事件检测和音频场景识别,并通过注意力机制将音频事件检测和音频场景识别进行有效结合,使音频事件检测辅助提高音频场景识别准确率。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供一种基于多任务学习的音频场景识别方法。
一种基于多任务学习的音频场景识别方法,包括:
步骤(1):获取音频数据库,对每个音频场景片段进行分帧处理,提取每帧的音频特征,每个音频片段内所有帧的音频特征构成该音频片段的特征矩阵,构建音频特征训练集,并为每个音频场景片段添加音频场景标签;
步骤(2):采用聚类方法为音频特征训练集中的每个音频帧添加音频事件标签;
步骤(3):构建音频事件与音频场景识别模型,将步骤(1)中的音频片段的特征矩阵输入音频事件与音频场景识别模型中,基于当前音频片段的场景标签和音频场景识别输出层的输出求取交叉熵L1,同时基于当前音频片段中音频帧的音频事件标签和音频事件检测输出层的输出求取交叉熵,进而得到当前音频片段所有帧的交叉熵和L2;
步骤(4):基于交叉熵L1和交叉熵和L2构造损失函数,基于该损失函数对音频事件与音频场景识别模型进行训练,得到训练好的音频事件与音频场景识别模型;
步骤(5):对待识别的音频片段,用和步骤(1)中同样的方法对其进行分帧处理,提取每帧的音频特征,音频片段内所有帧的音频特征构成待识别音频片段的特征矩阵。将待识别音频片段的特征矩阵输入训练好的音频事件与音频场景识别模型,在音频场景识别输出层得到待识别音频片段在各个音频场景类上的概率分布,取具有最大概率值的音频场景类作为识别结果。
优选的,所述特征矩阵为logmel特征矩阵。
本发明的第二个方面提供一种基于多任务学习的音频场景识别装置。
一种基于多任务学习的音频场景识别装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110362915.7/2.html,转载请声明来源钻瓜专利网。