[发明专利]一种未成年人的音频识别方法和系统有效

申请号：	202110984799.2	申请日：	2021-08-24
公开（公告）号：	CN113793602B	公开（公告）日：	2022-05-10
发明（设计）人：	简杨沃;唐会军;刘拴林;梁堃;陈建	申请（专利权）人：	北京数美时代科技有限公司
主分类号：	G10L15/16	分类号：	G10L15/16;G10L15/02
代理公司：	北京轻创知识产权代理有限公司 11212	代理人：	陈霆雷
地址：	100012 北京市朝阳区来广营西路***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种未成年人音频识别方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种未成年人的音频识别方法和系统，涉及人工智能领域。该方法包括：对待识别音频片段进行预处理，获得频谱数据，通过fbank算法对所述频谱数据转换成多维数组数据，将所述多维数组数据输入第一CNN模型提取音频特征数据，提取所述音频特征数据中的高维音频数据，通过第二CNN模型的深度可分离卷积模块对所述高维音频数据进行深度识别，可以有效识别出未成人音频和通过第二CNN模型的深度可分离卷积模块进行高维音频数据识别大大提升未成年人识别的准确率，识别精度高可以快速应用到相关领域。

技术领域

本发明涉及人工智能领域，尤其涉及一种未成年人的音频识别方法和系统。

背景技术

随着互联网的快速发展以及智能手机、数码相机等设备大规模普及，互联网上的多媒体数据成指数式增长，极大丰富了人们的娱乐方式。图片，语音，短视频也成为了人们的重要交流手段。随之而来的是未成年人对网络的沉迷成为了近几年社会高度关注的焦点问题。因此如何有效识别未成年人成为了监管未成年人上网的重要技术手段。现有基于音频的主流算法是通过提取音频特征做音频识别。此类算法的缺点之一是需要大量的人工标注未成年人数据，在目前的公司数据不共享和信息安全保护的环境下是难以获取的。另外，未成年人的生理发展因人而异，采集出来的音频在不同年龄段的声音存在明显差异，现有的技术方案无法准确有效识别未成年人音频。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供一种未成年人的音频识别方法和系统。

本发明解决上述技术问题的技术方案如下：

一种未成年人的音频识别方法，包括：

S1，对待识别音频片段进行预处理，获得频谱数据；

S2，通过fbank算法对所述频谱数据转换成多维数组数据；

S3，将所述多维数组数据输入第一CNN模型提取音频特征数据；

S4，提取所述音频特征数据中的高维音频数据；

S5，通过第二CNN模型的深度可分离卷积模块对所述高维音频数据进行深度识别，并输出识别结果。

本发明的有益效果是：本方案通过预处理获得频谱数据，再将频谱数据转换成多维数组数据，有通过第一CNN模型提取音频特征数据，再提取音频特征数据中的高维音频数据，通过第二CNN模型的深度可分离卷积模块对所述高维音频数据进行深度识别，可以有效识别出未成人音频和通过第二 CNN模型的深度可分离卷积模块进行高维音频数据识别大大提升未成年人识别的准确率，识别精度高可以快速应用到相关领域。

进一步地，所述S1具体包括：

通过预处理算法对待识别音频片段进行加重，分帧和加窗，再通过傅里叶变换将时序特征转换，获得所述频谱数据。

进一步地，所述第一CNN模型包括：多个CNN模块；

所述S3之前还包括：将多个CNN模块分别进行直接连接和跳跃连接，获得连接后的多个CNN模块，则完成所述第一CNN模型的构建；

所述S4具体包括：通过连接后的多个CNN模块将所述音频特征数据的多个位置的低维特征和声学特征提取出所述高维音频数据。

采用上述进一步方案的有益效果是：本方案通过直接连接从上层的模块提取的特征直接输入到下层的模块上，进一步捕获音频的特征；通过跳跃连接关注更早的特征，捕获上下文相关信息。

进一步地，所述S5之前还包括：

将所述第一CNN模型的多个CNN模块修改为逐通道卷积和逐点卷积的深度可分离卷积模块，完成所述第二CNN模型的构建；

所述CNN模块包括：卷积层、归一化层、激活层和池化层；所述卷积层、所述归一化层、所述激活层和所述池化层依次连接；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京数美时代科技有限公司，未经北京数美时代科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】