[发明专利]语音加速检测方法、装置、设备及可读存储介质有效
申请号: | 202010405266.X | 申请日: | 2020-05-13 |
公开(公告)号: | CN111627422B | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 黄族良;陈昊亮 | 申请(专利权)人: | 广州国音智能科技有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L21/043;G10L25/51 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 谢阅 |
地址: | 510000 广东省广州市黄埔*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 加速 检测 方法 装置 设备 可读 存储 介质 | ||
本发明公开了一种语音加速检测方法、装置、设备及可读存储介质,所述语音加速检测方法通过对待检测音频中的音素进行识别,并得到每一音素的持续时长,为后续的判断提供了可量化的实际依据;通过总体判断待检测音频中所有音素的持续时长是否满足预设条件,能够准确地对待检测音频的音素出现速度进行界定;通过最终将满足预设条件的待检测音频判定为加速音频,并对其进行降速处理后再识别,提高了加速语音的内容识别的效率与准确性。
技术领域
本发明涉及语音处理技术领域,尤其涉及一种语音加速检测方法、装置、设备及可读存储介质。
背景技术
随着科学技术的发展,语音识别在各领域应用越来越广泛。但现阶段基于各类机器学习算法的语音识别技术仅能在对正常语速的音频识别过程中取得较好的效果,而对加速音频的语音内容难以进行有效的识别。在一般的音频识别步骤中,通常直接将待检测的音频进行识别,从而导致了加速语音的识别效率低下的技术问题。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种语音加速检测方法,旨在解决加速语音的识别效率低下的技术问题。
为实现上述目的,本发明提供一种语音加速检测方法,所述语音加速检测方法应用于语音加速检测设备,所述语音加速检测方法包括以下步骤:
获取待检测音频,使用预设音素识别算法对所述待检测音频进行识别,并确定所述待检测音频中每一音素的持续时长;
基于所述持续时长,判断所述待检测音频中音素的出现速度是否满足预设条件;
若满足,则标记所述待检测音频为加速音频,并对所述加速音频进行降速识别操作。
可选地,所述基于所述持续时长,判断所述待检测音频中音素的出现速度是否满足预设条件的步骤包括:
将所述待检测音频按照预设时间间隔分为若干音频片段,并根据所述持续时长,确定各音频片段中的音素数目;
按照时序逐一判断各音频片段中的音素数目是否超出预设第一阈值,并将音素数目超出预设第一阈值的音频片段标记为第一加速音频片段;
判断所述第一加速音频片段中是否存在数目超出预设第二阈值且连续的第二加速音频片段;
若存在,则判定所述待检测音频中音素的出现速度满足预设条件;
若不存在,则判定所述待检测音频中音素的出现速度不满足预设条件。
可选地,所述按照时序逐一判断各音频片段中的音素数目是否超出预设第一阈值,并将音素数目超出预设第一阈值的音频片段标记为第一加速音频片段的步骤包括:
按照各音频片段的时间先后顺序,依次判断每一音频片段中的音素数目是否超出预设第一阈值;
若超出预设第一阈值,则标记为第一加速音频片段;
若未超出预设第一阈值,则清除数目未超过所述预设第二阈值且连续的第一加速音频片段的标记;
直至遍历所述待检测音频中的所有音频片段。
可选地,所述获取待检测音频,使用预设音素识别算法对所述待检测音频进行识别,并确定所述待检测音频中每一音素的持续时长的步骤包括:
获取待检测音频,获取基于预设神经网络模型及隐马尔可夫模型构建的所述预设音素识别模型,并使用所述预设音素识别模型识别所述待检测音频中的音素;
对所述待检测音频中的音素进行时间对齐,获取每一音素的持续时长。
可选地,所述对所述加速音频进行降速识别操作的步骤包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州国音智能科技有限公司,未经广州国音智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010405266.X/2.html,转载请声明来源钻瓜专利网。