[发明专利]一种语音识别的方法、装置、设备及介质有效
申请号: | 202011046734.5 | 申请日: | 2020-09-29 |
公开(公告)号: | CN111933113B | 公开(公告)日: | 2021-03-02 |
发明(设计)人: | 李健;韩雨;武卫东;陈明 | 申请(专利权)人: | 北京捷通华声科技股份有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/08;G10L15/26;G10L25/03 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100193 北京市海淀区东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例提供了一种语音识别的方法、装置、设备及介质。所述方法包括:通过将获取的音频数据转化为对应的语谱图;判断所述语谱图的帧数是否为预设帧数;若所述语谱图的帧数不为预设帧数,则对所述语谱图进行补零,以使补零后得到的待识别语谱图的帧数为所述预设帧数;将所述待识别语谱图输入到多任务卷积神经网络声学模型中。实现了直接向声学模型输入语谱图,进而识别出音频数据的文本。相较现有技术计算MFCC特征造成的频域上的信息损失,本发明减少了输入特征的损失,增加了音频数据的辨识度,并且更加有利于声学模型提取特征信息。 | ||
搜索关键词: | 一种 语音 识别 方法 装置 设备 介质 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京捷通华声科技股份有限公司,未经北京捷通华声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202011046734.5/,转载请声明来源钻瓜专利网。