[发明专利]语音转写方法、装置、拾音转写设备与存储介质在审
申请号: | 202110963358.4 | 申请日: | 2021-08-20 |
公开(公告)号: | CN113674744A | 公开(公告)日: | 2021-11-19 |
发明(设计)人: | 王志军;崔浩然;王雨莹 | 申请(专利权)人: | 天津讯飞极智科技有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G06F40/30;G06N3/04;G06N3/08;G10L15/00;G10L15/06;G10L15/16 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 程琛 |
地址: | 300300 天津市滨海新区自贸试*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 转写 方法 装置 设备 存储 介质 | ||
本发明提供一种语音转写方法、装置、拾音转写设备与存储介质,所述方法应用于嵌入式神经网络处理器NPU,所述方法包括:接收中央处理器CPU发送的语音数据流,所述CPU与所述NPU设置在同一设备内;基于语音转写模型,对所述语音数据流进行离线转写,并将转写结果返回给所述CPU,所述语音转写模型部署在所述NPU上。本发明提供的方法、装置、设备与存储介质,结合嵌入式神经网络处理器的强大算力,在设备端部署了本地的语音转写模型,基于该语音转写模型对语音数据流进行离线转写,从而实现了高可靠度和高转写效率的设备端离线转写,数据更加安全,也不存在网络传输带来的延时问题,转写显示更加及时流畅,有助于优化用户体验。
技术领域
本发明涉及语音处理技术领域,尤其涉及一种语音转写方法、装置、拾音转写设备与存储介质。
背景技术
由于具有重量轻、体积小、可连续录音几个小时等特点,录音笔受到了越来越多人的青睐。
目前市面上的主流录音笔为传统录音笔,传统录音笔专注于录音本身,录音后需要用户自主将声音整理成文字,效率低下,而且重复的工作量很大。另外,部分录音笔通过把录音文件导出后,依托网络引擎进行转写,步骤复杂,体验不佳,而且安全风险也较高。
发明内容
本发明提供一种语音转写方法、装置、拾音转写设备与存储介质,用以解决现有技术中转写效率低下的缺陷,实现拾音后立即获取转写结果。
本发明提供一种语音转写方法,所述方法应用于嵌入式神经网络处理器NPU,所述方法包括:
接收中央处理器CPU发送的语音数据流,所述CPU与所述NPU设置在同一设备内;
基于语音转写模型,对所述语音数据流进行离线转写,并将转写结果返回给所述CPU,所述语音转写模型部署在所述NPU上。
根据本发明提供的一种语音转写方法,所述基于语音转写模型,对所述语音数据流进行离线转写,包括:
基于所述语音转写模型中目标语种对应的语音转写子模型,对所述语音数据流进行离线转写;
所述目标语种为所述语音数据流所属的语种。
根据本发明提供的一种语音转写方法,所述基于所述语音转写模型中目标语种对应的语音转写子模型,对所述语音数据流进行离线转写,之前还包括:
基于转写设置,和/或所述语音数据流的语种识别结果确定所述目标语种,所述语种识别结果是所述CPU或所述NPU对所述语音数据流进行语种识别得到的;
从所述语音转写模型的各个语音转写子模型中,选取所述目标语种对应的语音转写子模型,所述各个语音转写子模型分别对应不同的语种。
根据本发明提供的一种语音转写方法,所述基于语音转写模型,对所述语音数据流进行离线转写,并将转写结果返回给所述CPU,包括:
基于所述语音转写模型,对所述语音数据流进行流式转写,并将实时输出的流式转写结果实时返回给所述CPU;
基于所述语音转写模型,在所述语音数据流发送结束时对所述流式转写结果的整体进行校正,并将输出的校正转写结果返回给所述CPU。
根据本发明提供的一种语音转写方法,所述基于语音转写模型,对所述语音数据流进行离线转写,包括:
调用语音转写运算资源运行所述语音转写模型,对所述语音数据流进行离线转写;
所述语音转写运算资源属于所述NPU的运算资源,所述语音转写运算资源是基于设备能耗状态、设备发热状态和所述语音数据流的数据规格中的至少一种确定的。
本发明还提供一种语音转写方法,所述方法应用于中央处理器CPU,所述方法包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津讯飞极智科技有限公司,未经天津讯飞极智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110963358.4/2.html,转载请声明来源钻瓜专利网。