[发明专利]语音转写方法、装置、录音设备和存储介质在审
| 申请号: | 202110963345.7 | 申请日: | 2021-08-20 |
| 公开(公告)号: | CN113611311A | 公开(公告)日: | 2021-11-05 |
| 发明(设计)人: | 王志军;任晓宁;崔浩然;孔常青 | 申请(专利权)人: | 天津讯飞极智科技有限公司 |
| 主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/28;G11C7/16 |
| 代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 程琛 |
| 地址: | 300300 天津市滨海新区自贸试*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音 转写 方法 装置 录音 设备 存储 介质 | ||
本发明提供一种语音转写方法、装置、录音设备和存储介质,其中方法包括:确定待转写音频;基于本地存储的语音转写引擎,对所述待转写音频进行离线语音转写,所述语音转写引擎的运算资源是基于所述待转写音频的数据规格确定的,通过本地存储的语音转写引擎,实现实时性更强、安全性更高且不再依赖网络的离线语音转写。在离线语音转写过程中,考虑了语音转写引擎在不同负荷量下的转写效率以及智能设备功耗,从而使得语音转写引擎在调用分配到的运算资源对待转写音频进行语音转写时,能够平衡智能设备功耗以及转写效率之间的关系,从而实现在保证转写效率的前提下,降低智能设备功耗,缓解发热严重以及续航不佳的情况。
技术领域
本发明涉及语音处理技术领域,尤其涉及一种语音转写方法、装置、录音设备和存储介质。
背景技术
录音笔凭借携带方便、操作简单等优点,被广泛应用于会议、演讲记录、采访和课堂等场合。
然而,目前市面上的主流录音笔为传统录音笔,传统录音笔的功能局限于录音层面,若要进行语音转写,还需在录音完成后人工将录制的音频文件转换为文字,或是将音频数据上传到云端进行转写。
但是,上述方法操作复杂、灵活性较差,并且将音频文件上传至云端进行语音转写,不仅使得语音转写的及时性很大程度上受到网络状态影响,还存在泄露用户隐私的风险。
发明内容
本发明提供一种语音转写方法、装置、电子设备、录音设备和存储介质,用以解决现有技术中在线语音转写依托于网络状态,稳定性差,且数据安全性差的缺陷。
本发明提供一种语音转写方法,包括:
确定待转写音频;
基于本地存储的语音转写引擎,对所述待转写音频进行离线语音转写,所述语音转写引擎的运算资源是基于所述待转写音频的数据规格确定的。
根据本发明提供的一种语音转写方法,所述语音转写引擎的运算资源是基于如下步骤确定的:
基于所述待转写音频的数据规格,以及设备能耗状态和/或设备发热状态,或,基于所述待转写音频的数据规格,确定所述语音转写引擎的资源占比;
基于所述资源占比,从设备计算资源中确定所述语音转写引擎的运算资源。
根据本发明提供的一种语音转写方法,所述数据规格是基于待转写音频的数据量与存储空间的存储量确定的,所述存储空间用于存储所述待转写音频。
根据本发明提供的一种语音转写方法,所述基于本地存储的语音转写引擎,对所述待转写音频进行离线语音转写,包括:
基于所述语音转写引擎中的声学模型,编码所述待转写音频的声学特征,并基于所述声学特征确定第一转写结果;
基于所述语音转写引擎中的解码模型,对所述声学特征进行解码,得到第二转写结果;
基于所述语音转写引擎,对所述第一转写结果和所述第二转写结果进行融合,得到所述待转写音频的转写文本。
根据本发明提供的一种语音转写方法,所述声学模型是基于样本音频,对原始声学模型进行蒸馏训练得到的。
根据本发明提供的一种语音转写方法,所述声学模型是基于如下步骤训练得到的:
基于所述原始声学模型,确定所述样本音频的第一声学特征概率分布;
基于训练阶段的声学模型,确定所述样本音频的第二声学特征概率分布;
基于所述第一声学特征概率分布和所述第二声学特征概率分布,确定蒸馏损失值;
基于所述蒸馏损失值,对所述训练阶段的声学模型进行参数调整,得到所述声学模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津讯飞极智科技有限公司,未经天津讯飞极智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110963345.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种钻孔灌注桩的施工方法
- 下一篇:语音识别装置和拾音设备





