[发明专利]语音识别方法和装置在审
申请号: | 202210080184.1 | 申请日: | 2022-01-24 |
公开(公告)号: | CN114400006A | 公开(公告)日: | 2022-04-26 |
发明(设计)人: | 马东鹏;苏丹;唐立亮 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/18;G10L15/16;G10L25/30;G10L25/84 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 李文静 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 装置 | ||
本申请公开了一种语音识别方法和装置,属于计算机技术领域。该方法包括:对目标音频数据中的每个音频帧进行特征提取,得到每个音频帧对应的特征信息;基于每个音频帧对应的特征信息和语音识别模型,确定目标音频数据对应的文本和文本中的每个文字对应的第一时间信息;基于每个音频帧对应的特征信息和主人声识别模型,确定每个音频帧对应的声音类型;基于目标音频数据对应的文本、每个文字对应的第一时间信息和每个音频帧对应的声音类型,确定目标音频数据对应的主人声文本。采用本申请,可以对目标音频数据(如音乐、视频或语音等所涉及的音频数据)中的主人声和背景人声进行区分,从而得到目标音频数据的主人声文本,提高了语音识别的准确性。
技术领域
本申请涉及计算机技术领域,特别涉及一种语音识别方法和装置。
背景技术
随着网络技术的发展,移动终端等设备的输入方式除了手写输入和键盘输入以外,还可以通过语音输入来实现。设备在获取到用户的音频数据后,对该音频数据进行语音识别,从而将音频数据转化为对应的文字信息。
当前的语音识别方法通常是:先对音频数据中的每个音频帧进行特征提取,得到每个音频帧对应的特征信息,然后基于每个音频帧对应的特征信息和语音识别模型,得到每个音频帧对应的文本,从而得到该音频数据对应的文本。
但随着语音识别技术的应用越来越广泛,其应用场景也越来越复杂,而对于既包括主人声、又包括背景人声的音频数据来说,使用上述方式,会导致识别出的文本中既掺杂了主人声的文本,又掺杂了背景人声的文本,从而导致了最终预测出的文本不准确。
发明内容
本申请实施例提供了一种语音识别方法,能够解决现有技术中预测的文本不准确的问题。
第一方面,提供了一种语音识别方法,所述方法包括:
对目标音频数据中的每个音频帧进行特征提取,得到所述每个音频帧对应的特征信息;
基于所述每个音频帧对应的特征信息和语音识别模型,确定所述目标音频数据对应的文本和所述文本中的每个文字对应的第一时间信息,其中,所述文字对应的第一时间信息用于指示所述文字对应的音频帧在所述目标音频数据中的时间位置;
基于所述每个音频帧对应的特征信息和主人声识别模型,确定所述每个音频帧对应的声音类型,其中,所述声音类型包括主人声类型和非主人声类型;
基于所述目标音频数据对应的文本、所述文本中的每个文字对应的第一时间信息和所述每个音频帧对应的声音类型,确定所述目标音频数据对应的主人声文本。
在一种可能的实现方式中,所述主人声识别模型包括第一CONV(convolution,卷积)模块、至少一个第一Pyramid Pooling(金字塔池化)模块、至少一个第一BLSTM(Bidirectional Long Short-Term Memory,双向长短期记忆网络)模块和第一Linear(线性变换)模块;
所述基于所述每个音频帧对应的特征信息和主人声识别模型,确定所述每个音频帧对应的声音类型,包括:
基于所述每个音频帧对应的特征信息和所述第一CONV模块,确定所述每个音频帧对应的第一中间特征信息;
基于所述每个音频帧对应的第一中间特征信息、所述至少一个第一PyramidPooling模块和所述至少一个第一BLSTM模块,确定M个第一音频帧组分别对应的第二中间特征信息,其中,每个第一音频帧组由第一预设数目个相邻的音频帧组成;
基于所述M个第一音频帧组分别对应的第二中间特征信息和所述第一Linear模块,确定所述M个第一音频帧组分别对应的主人声类型的概率值或所述M个第一音频帧组分别对应的非主人声类型的概率值;
基于所述M个第一音频帧组分别对应的主人声类型的概率值或所述M个第一音频帧组分别对应的非主人声类型的概率值,确定所述每个音频帧对应的声音类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210080184.1/2.html,转载请声明来源钻瓜专利网。