[发明专利]识别格式化音频文件的信息种类的方法和装置有效
申请号: | 202310028289.7 | 申请日: | 2023-01-09 |
公开(公告)号: | CN115910042B | 公开(公告)日: | 2023-05-05 |
发明(设计)人: | 孟祥如;程鹏辉 | 申请(专利权)人: | 百融至信(北京)科技有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/04;G10L15/08;G10L15/26;G10L15/28 |
代理公司: | 北京金知睿知识产权代理事务所(普通合伙) 11379 | 代理人: | 蔡民军 |
地址: | 100102 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 格式化 音频文件 信息 种类 方法 装置 | ||
本申请公开识别格式化音频文件的信息种类的方法和装置,方法包括步骤:获取目标音频文件,所述目标音频文件为格式化音频文件;对所述目标音频文件进行分段处理,获得多个分段音频;提取分段音频的音频特征,获得分段音频特征;判断缓存中存有缓存音频特征时,根据相似度获取分段音频特征的目标信息种类;判断缓存中没有存有缓存音频特征或者所有分段音频特征与所述缓存音频特征相似度均小于阈值时,通过语音识别获取分段音频的目标信息种类并存入缓存中;根据所述多个分段音频特征的目标信息种类,获取所述目标音频文件的目标信息种类。减少了对语音识别服务器的占用,识别效率高。
技术领域
本申请涉及计算机网络的技术领域,具体地涉及识别格式化音频文件的信息种类的方法和装置、电子设备及存储介质。
背景技术
格式化音频文件,是指音频包含的文字信息种类是固定的,比如拨打电话未接通时的提示音,比如导航软件播放的录音。现有业务场景中,需要对大量格式化音频文件进行识别,识别出来里边的文字信息,用于后续业务。格式化音频文件有三个特点:1.业务过程产生的音频文件数量多,但包含文字信息种类少;2.有效语音信息不完整,比如“电话不在服务区,请稍后再拨”,可能只包含前半句;3.包含大量无效音频信息,比如大量的静音信息。现有技术中,可以采用ASR技术(语音识别技术)获取音频中文字信息。ASR是一种基于深度学习的语音识别技术。目前很多识别音频文件的业务场景都是调用ASR,完整识别录音包含的文字信息。但是ASR是一种对算力要求比较高,研发门槛比较高的技术,其应用成本也较高,另外ASR服务运行,需要大量高性能服务器支持,占用服务器资源较高,同时识别效率又比较低。
此外,现有技术存在下列文献,它们不能解决上述问题:
中国专利CN115022466A公开了一种基于深度学习模型的通话状态检测分类方法,涉及通话状态检测技术领域,解决了现有技术在通话状态检测过程中,能够处理的音频类型少,以及数据处理量大,导致通话状态检测效果难以满足要求的技术问题;本发明包括:获取基础语音数据,对基础语音数据进行语音预处理之后获取训练语音数据;通过训练语音数据对深度学习模型进行训练获取状态识别模型;当缓存的用户音频数据超过数据阈值时,进行VAD过滤获取目标音频段,并结合通话状态检测平台对目标音频段进行分析;本发明通过VAD切分标注去除无效音频段,提升了标注效率;在训练过程中有效避免了存储空间的局限性,增强状态识别模型泛化能力,提升状态识别模型的精度。
中国专利CN114329041A公开了一种多媒体数据处理方法、装置以及可读存储介质,该方法包括:在获取到多媒体文件中的原始音频数据时,获取原始音频数据相关联的目标音频识别模型;将原始音频数据输入至目标声乐分离模型,由目标声乐分离模型对原始音频数据进行声乐分离,得到与第一对象相关联的第一类音轨以及与第二对象相关联的第二类音轨;从第一类音轨中获取第一对象的语音数据,将第一对象的语音数据输入至目标语音识别模型,由目标语音识别模型对第一对象的语音数据进行文本识别,得到第一对象的文本识别结果;基于文本识别结果确定原始音频数据的音频类型,对第二类音轨中与第二对象相关联的音频数据进行存储。采用本申请,可以提升音频数据识别的准确性。
本背景技术描述的内容仅为了便于了解本领域的相关技术,不视作对现有技术的承认。
发明内容
因此,本发明实施例意图提供识别格式化音频文件的信息种类的方法和装置、电子设备及存储介质,能够识别格式化音频文件包含的文字信息种类,减少对ASR资源的消耗,提高识别的效率。
具体地,本发明实施例提供了识别格式化音频文件的信息种类的方法,包括如下步骤:
获取目标音频文件,所述目标音频文件为格式化音频文件;
对所述目标音频文件进行分段处理,获得多个分段音频;
提取分段音频的音频特征,获得分段音频特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百融至信(北京)科技有限公司,未经百融至信(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310028289.7/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置