[发明专利]一种未成年人的音频识别方法和系统有效
申请号: | 202110984799.2 | 申请日: | 2021-08-24 |
公开(公告)号: | CN113793602B | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 简杨沃;唐会军;刘拴林;梁堃;陈建 | 申请(专利权)人: | 北京数美时代科技有限公司 |
主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L15/02 |
代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 陈霆雷 |
地址: | 100012 北京市朝阳区来广营西路*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 未成年人 音频 识别 方法 系统 | ||
1.一种未成年人的音频识别方法,其特征在于,包括:
S1,对待识别音频片段进行预处理,获得频谱数据;
S2,通过fbank算法对所述频谱数据转换成多维数组数据;
S3,将所述多维数组数据输入第一CNN模型提取音频特征数据;
S4,提取所述音频特征数据中的高维音频数据;
S5,通过第二CNN模型的深度可分离卷积模块对所述高维音频数据进行深度识别,并输出识别结果;
其中,所述第一CNN模型包括:多个CNN模块;
所述S3之前还包括:将多个CNN模块分别进行直接连接和跳跃连接,获得连接后的多个CNN模块,则完成所述第一CNN模型的构建;
所述S4具体包括:通过连接后的多个CNN模块将所述音频特征数据的多个位置的低维特征和声学特征提取出所述高维音频数据;
所述S5之前还包括:
将所述第一CNN模型的多个CNN模块修改为逐通道卷积和逐点卷积的深度可分离卷积模块,完成所述第二CNN模型的构建;
所述CNN模块包括:卷积层、归一化层、激活层和池化层;所述卷积层、所述归一化层、所述激活层和所述池化层依次连接;
所述深度可分离卷积模块包括:逐通道卷积层、两个归一化层、两个激活层和逐点卷积层;逐通道卷积层、一个所述归一化层、一个所述激活层、逐点卷积层、一个所述归一化层和一个所述激活层依次连接。
2.根据权利要求1所述的一种未成年人的音频识别方法,其特征在于,所述S1具体包括:
通过预处理算法对待识别音频片段进行加重,分帧和加窗,再通过傅里叶变换将时序特征转换,获得所述频谱数据。
3.根据权利要求1或2所述的一种未成年人的音频识别方法,其特征在于,所述S5具体包括:
通过所述深度可分离卷积模块进行处理;
将计算结果输入到所述第二CNN模型的全连接层进行分类;
将分类结果通过sigmoid函数计算出所述待识别音频片段属于所述未成年人的概率。
4.一种未成年人的音频识别系统,其特征在于,包括:预处理模块、多维转换模块、初步数据提取模块、高维音频数据提取模块和识别模块;
所述预处理模块用于对待识别音频片段进行预处理,获得频谱数据;
所述多维转换模块用于通过fbank算法对所述频谱数据转换成多维数组数据;
所述初步数据提取模块用于将所述多维数组数据输入第一CNN模型提取音频特征数据;
所述高维音频数据提取模块用于提取所述音频特征数据中的高维音频数据;
所述识别模块用于通过第二CNN模型的深度可分离卷积模块对所述高维音频数据进行深度识别,并输出识别结果;
其中,所述第一CNN模型包括:多个CNN模块;
还包括:第一CNN模型构建模块用于将多个CNN模块分别进行直接连接和跳跃连接,获得连接后的多个CNN模块,则完成所述第一CNN模型的构建;
所述高维音频数据提取模块具体用于通过连接后的多个CNN模块将所述音频特征数据的多个位置的低维特征和声学特征提取出所述高维音频数据;
还包括:第二CNN模型构建模块,用于将所述第一CNN模型的多个CNN模块修改为逐通道卷积和逐点卷积的深度可分离卷积模块,完成所述第二CNN模型的构建;
所述CNN模块包括:卷积层、归一化层、激活层和池化层;所述卷积层、所述归一化层、所述激活层和所述池化层依次连接;
所述深度可分离卷积模块包括:逐通道卷积层、两个归一化层、两个激活层和逐点卷积层;逐通道卷积层、一个所述归一化层、一个所述激活层、逐点卷积层、一个所述归一化层和一个所述激活层依次连接。
5.根据权利要求4所述的一种未成年人的音频识别系统,其特征在于,所述预处理模块具体用于通过预处理算法对待识别音频片段进行加重,分帧和加窗,再通过傅里叶变换将时序特征转换,获得所述频谱数据。
6.根据权利要求4或5所述的一种未成年人的音频识别系统,其特征在于,所述识别模块具体用于通过所述深度可分离卷积模块进行处理;
将计算结果输入到所述第二CNN模型的全连接层进行分类;
将分类结果通过sigmoid函数计算出所述待识别音频片段属于所述未成年人的概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京数美时代科技有限公司,未经北京数美时代科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110984799.2/1.html,转载请声明来源钻瓜专利网。