[发明专利]语音识别模型的生成方法、语音识别方法、装置及芯片有效
申请号: | 202310905175.6 | 申请日: | 2023-07-24 |
公开(公告)号: | CN116665656B | 公开(公告)日: | 2023-10-10 |
发明(设计)人: | 蒯文啸;唐剑;张法朝;牟小峰 | 申请(专利权)人: | 美智纵横科技有限责任公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/22;H04L12/28 |
代理公司: | 北京友联知识产权代理事务所(普通合伙) 11343 | 代理人: | 王丹玉;尚志峰 |
地址: | 215100 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 模型 生成 方法 装置 芯片 | ||
本发明提供了一种语音识别模型的生成方法、语音识别方法、装置及芯片,涉及语音识别技术领域。其中,语音识别模型的生成方法包括:获取第一语音识别模型,其中,第一语音识别模型为非流式语音识别模型,且第一语音识别模型为通过量化训练得到的;对第一语音识别模型进行转化处理,得到目标语音识别模型,目标语音识别模型为流式语音识别模型。
技术领域
本发明涉及语音识别技术领域,具体而言,涉及一种语音识别模型的生成方法、语音识别方法、装置及芯片。
背景技术
在相关技术中,智能家电设备的语音识别技术通过语音识别模型来实现。传统的语音识别模型的体积大,资源占用也大,因此会导致语音识别效率降低。
量化感知训练能够缩小语音识别模型的体积,并减少语音识别模型的资源占用。但是通过量化感知训练得到的模型属于非流式模型,无法满足部署实时性的需要。
发明内容
本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。
为此,本发明的第一方面提出一种语音识别模型的生成方法。
本发明的第二方面提出一种语音识别方法。
本发明的第三方面提出一种语音识别模型的生成装置。
本发明的第四方面提出一种语音识别装置。
本发明的第五方面提出一种可读存储介质。
本发明的第六方面提出一种计算机程序产品。
本发明的第七方面提出一种芯片。
有鉴于此,本发明的第一方面提供了语音识别模型的生成方法,包括:获取第一语音识别模型,其中,第一语音识别模型为非流式语音识别模型,且第一语音识别模型为通过量化训练得到的;对第一语音识别模型进行转化处理,得到目标语音识别模型,目标语音识别模型为流式语音识别模型。
在该技术方案中,语音识别模型用于对包含用户语音指令的音频数据进行识别处理,从中识别出用户的语音唤醒指令或语音控制指令。
具体地,智能家电设备或电子设备通过麦克风采集待识别音频,并对采集到的待识别音频进行语音识别,从而获取其中的语音控制指令或语音唤醒指令。举例来说,智能家电设备或电子设备通过将待识别音频输入至语音识别模型,通过语音识别模型推理其中包含的语音控制指令或语音唤醒指令。
由于语音识别模型的体积较大,对设备的内存占用也较大,因此需要较多的设备资源,同时推理时间也较长。
为了解决语音识别模型的体积大、资源消耗大、推理速度慢等问题,可以采用对原始的语音识别模型进行量化训练处理,量化训练能够将原始的语音识别模型进行推理时的浮点计算转化为定点计算,由此能够有效减小模型的体积,降低访存占用并且提高推理速度。
但是量化训练处理后得到的第一语音识别模型是非流式语音识别模型,非流式语音识别模型在处理完完整的音频流后才返回预测结果,不具有实时性,当用户一句话中包含多个指令时,或者用户说出长语音时,设备将无法及时响应用户的语音指令。
针对上述问题,本申请技术方案对原始的语音识别模型进行量化训练处理,得到模型体积更小、访存占用更小以及推理速度更快的非流式语音识别模型,也即第一语音识别模型。
在得到第一语音识别模型后,通过对非流式语音识别模型进行转化处理,得到转化后的流式语音识别模型,能够使目标语音识别模型具有根据实时输入的音频数据,进行实时推理并输出推理结果的能力。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于美智纵横科技有限责任公司,未经美智纵横科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310905175.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种汽车零部件切割装置
- 下一篇:一种用于地基基础施工的勘测装置