[发明专利]一种基于多任务学习的音频场景识别方法及装置有效
申请号: | 202110362915.7 | 申请日: | 2021-04-02 |
公开(公告)号: | CN113220932B | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 冷严;路安芹;刘祯;孙建德;唐勇;王荣燕;齐广慧;李登旺;万洪林 | 申请(专利权)人: | 山东师范大学 |
主分类号: | G06F16/65 | 分类号: | G06F16/65;G06F16/68;G06F16/683 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 祖之强 |
地址: | 250014 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 任务 学习 音频 场景 识别 方法 装置 | ||
1.一种基于多任务学习的音频场景识别方法,其特征在于,包括:
步骤(1):获取音频数据库,对每个音频场景片段进行分帧处理,提取每帧的音频特征,每个音频片段内所有帧的音频特征构成该音频片段的特征矩阵,构建音频特征训练集,并为每个音频场景片段添加音频场景标签;
步骤(2):采用聚类方法为音频特征训练集中的每个音频帧添加音频事件标签;
步骤(3):构建音频事件与音频场景识别模型,将步骤(1)中的音频片段的特征矩阵输入音频事件与音频场景识别模型中,基于当前音频片段的场景标签和音频场景识别输出层的输出求取交叉熵L1,同时基于当前音频片段中音频帧的音频事件标签和音频事件检测输出层的输出求取交叉熵,进而得到当前音频片段所有帧的交叉熵和L2;
步骤(4):基于交叉熵L1和交叉熵和L2构造损失函数,基于该损失函数对音频事件与音频场景识别模型进行训练,得到训练好的音频事件与音频场景识别模型;
步骤(5):对待识别的音频片段,用和步骤(1)中同样的方法对其进行分帧处理,提取每帧的音频特征,音频片段内所有帧的音频特征构成待识别音频片段的特征矩阵;将待识别音频片段的特征矩阵输入训练好的音频事件与音频场景识别模型,在音频场景识别输出层得到待识别音频片段在各个音频场景类上的概率分布,取具有最大概率值的音频场景类作为识别结果。
2.根据权利要求1所述的基于多任务学习的音频场景识别方法,其特征在于,所述步骤(1)包括:
步骤(1-1):对数据库中每个音频场景片段进行分帧处理,并对每帧提取音频场景识别领域常用的音频特征:40维logmel特征,得到每个音频场景片段的尺寸为40×n的logmel特征矩阵,n表示音频场景片段中包含的帧的数量;
步骤(1-2):对每个音频场景片段,采用one-hot向量形式为其添加音频场景标签:对于数据库中的第i类场景,其场景标签为[0,0,…,1,0,…,0],标签向量只在第i维的值为1,在其它维度上的值都为0;
步骤(1-3):得到带有音频场景标签的音频特征训练集。
3.根据权利要求1所述的基于多任务学习的音频场景识别方法,其特征在于,所述步骤(2)包括:
步骤(2-1):以音频特征训练集中每个音频帧为一个样本,对音频特征训练集中的所有样本进行聚类,聚类的簇的数量设置为数据库中音频事件的类别数M;
步骤(2-2):对每个样本,求其与各个簇中心的欧式距离的倒数,并进行softmax归一,将归一化后的距离倒数向量softmax([1/d1,1/d2,…,1/dM])作为样本的音频事件标签;其中,d1表示样本与第一个簇的簇中心的欧式距离,d2表示样本与第二个簇的簇中心的欧式距离,dM表示样本与第M个簇的簇中心的欧式距离,softmax(·)表示softmax归一化;
步骤(2-3):为音频片段中的每个音频帧添加了音频事件标签,得到带有音频事件标签的音频帧。
4.根据权利要求1所述的基于多任务学习的音频场景识别方法,其特征在于,所述步骤(3)包括:
步骤(3-1):从音频特征训练集中按顺序选择一个音频片段,记该音频片段的logmel特征矩阵为G,将其分别作为音频事件与音频场景识别模型的输入,在音频事件检测模型的卷积神经网络输出端得到特征矩阵E,在音频场景识别模型的卷积神经网络输出端得到特征矩阵S;
步骤(3-2):由特征矩阵S和 E求得注意力系数矩阵A:A=ST·E;
步骤(3-3):由注意力系数矩阵A和特征矩阵E构造音频场景特征向量R:R=flatten(E·AT);其中flatten(·)表示将矩阵通过各行首尾相接的方式展开成向量;
步骤(3-4):根据该音频片段的场景标签和音频场景识别输出层的输出求交叉熵,记作L1;
步骤(3-5):对该音频片段中的各个帧,根据其音频事件标签和音频事件检测输出层的输出求交叉熵,将该音频片段中所有帧的交叉熵求和,记此交叉熵和为L2。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110362915.7/1.html,转载请声明来源钻瓜专利网。