[发明专利]识别格式化音频文件的信息种类的方法和装置有效

专利信息
申请号: 202310028289.7 申请日: 2023-01-09
公开(公告)号: CN115910042B 公开(公告)日: 2023-05-05
发明(设计)人: 孟祥如;程鹏辉 申请(专利权)人: 百融至信(北京)科技有限公司
主分类号: G10L15/02 分类号: G10L15/02;G10L15/04;G10L15/08;G10L15/26;G10L15/28
代理公司: 北京金知睿知识产权代理事务所(普通合伙) 11379 代理人: 蔡民军
地址: 100102 北京市朝阳*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 识别 格式化 音频文件 信息 种类 方法 装置
【说明书】:

本申请公开识别格式化音频文件的信息种类的方法和装置,方法包括步骤:获取目标音频文件,所述目标音频文件为格式化音频文件;对所述目标音频文件进行分段处理,获得多个分段音频;提取分段音频的音频特征,获得分段音频特征;判断缓存中存有缓存音频特征时,根据相似度获取分段音频特征的目标信息种类;判断缓存中没有存有缓存音频特征或者所有分段音频特征与所述缓存音频特征相似度均小于阈值时,通过语音识别获取分段音频的目标信息种类并存入缓存中;根据所述多个分段音频特征的目标信息种类,获取所述目标音频文件的目标信息种类。减少了对语音识别服务器的占用,识别效率高。

技术领域

本申请涉及计算机网络的技术领域,具体地涉及识别格式化音频文件的信息种类的方法和装置、电子设备及存储介质。

背景技术

格式化音频文件,是指音频包含的文字信息种类是固定的,比如拨打电话未接通时的提示音,比如导航软件播放的录音。现有业务场景中,需要对大量格式化音频文件进行识别,识别出来里边的文字信息,用于后续业务。格式化音频文件有三个特点:1.业务过程产生的音频文件数量多,但包含文字信息种类少;2.有效语音信息不完整,比如“电话不在服务区,请稍后再拨”,可能只包含前半句;3.包含大量无效音频信息,比如大量的静音信息。现有技术中,可以采用ASR技术(语音识别技术)获取音频中文字信息。ASR是一种基于深度学习的语音识别技术。目前很多识别音频文件的业务场景都是调用ASR,完整识别录音包含的文字信息。但是ASR是一种对算力要求比较高,研发门槛比较高的技术,其应用成本也较高,另外ASR服务运行,需要大量高性能服务器支持,占用服务器资源较高,同时识别效率又比较低。

此外,现有技术存在下列文献,它们不能解决上述问题:

中国专利CN115022466A公开了一种基于深度学习模型的通话状态检测分类方法,涉及通话状态检测技术领域,解决了现有技术在通话状态检测过程中,能够处理的音频类型少,以及数据处理量大,导致通话状态检测效果难以满足要求的技术问题;本发明包括:获取基础语音数据,对基础语音数据进行语音预处理之后获取训练语音数据;通过训练语音数据对深度学习模型进行训练获取状态识别模型;当缓存的用户音频数据超过数据阈值时,进行VAD过滤获取目标音频段,并结合通话状态检测平台对目标音频段进行分析;本发明通过VAD切分标注去除无效音频段,提升了标注效率;在训练过程中有效避免了存储空间的局限性,增强状态识别模型泛化能力,提升状态识别模型的精度。

中国专利CN114329041A公开了一种多媒体数据处理方法、装置以及可读存储介质,该方法包括:在获取到多媒体文件中的原始音频数据时,获取原始音频数据相关联的目标音频识别模型;将原始音频数据输入至目标声乐分离模型,由目标声乐分离模型对原始音频数据进行声乐分离,得到与第一对象相关联的第一类音轨以及与第二对象相关联的第二类音轨;从第一类音轨中获取第一对象的语音数据,将第一对象的语音数据输入至目标语音识别模型,由目标语音识别模型对第一对象的语音数据进行文本识别,得到第一对象的文本识别结果;基于文本识别结果确定原始音频数据的音频类型,对第二类音轨中与第二对象相关联的音频数据进行存储。采用本申请,可以提升音频数据识别的准确性。

本背景技术描述的内容仅为了便于了解本领域的相关技术,不视作对现有技术的承认。

发明内容

因此,本发明实施例意图提供识别格式化音频文件的信息种类的方法和装置、电子设备及存储介质,能够识别格式化音频文件包含的文字信息种类,减少对ASR资源的消耗,提高识别的效率。

具体地,本发明实施例提供了识别格式化音频文件的信息种类的方法,包括如下步骤:

获取目标音频文件,所述目标音频文件为格式化音频文件;

对所述目标音频文件进行分段处理,获得多个分段音频;

提取分段音频的音频特征,获得分段音频特征;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百融至信(北京)科技有限公司,未经百融至信(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310028289.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top