[发明专利]语音识别方法、装置、系统、设备、介质和程序产品在审
| 申请号: | 202310368994.1 | 申请日: | 2023-04-07 |
| 公开(公告)号: | CN116343776A | 公开(公告)日: | 2023-06-27 |
| 发明(设计)人: | 袁旺柳;孙雨辰;敖建 | 申请(专利权)人: | 中国工商银行股份有限公司 |
| 主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L15/26 |
| 代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 张琛 |
| 地址: | 100140 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音 识别 方法 装置 系统 设备 介质 程序 产品 | ||
1.一种语音识别方法,所述方法应用于用户终端,所述方法包括:
获取当前时刻的网络状态数据;
基于所述当前时刻的网络状态数据和预设的第一智能体,对采集到的用户语音音频流分帧,得到音频切片,其中,所述第一智能体是基于强化学习形成的;
将所述音频切片发送至语音识别服务器;以及
接收来自所述语音识别服务器的语音识别信息。
2.根据权利要求1所述的方法,其中,所述基于所述当前时刻的网络状态数据和预设的第一智能体,对采集到的用户语音音频流分帧,得到音频切片,包括:
获取预设的多个切片动作;
基于所述当前时刻的网络状态数据和所述预设的第一智能体,对所述多个切片动作进行评价打分,得到多个动作评价值,其中,所述多个动作评价值至少包括第一动作评价值,所述第一动作评价值是所述多个动作评价值中分数最高的值,所述第一动作评价值对应第一切片动作;以及
基于所述第一切片动作,对所述用户语音音频流进行分帧。
3.根据权利要求2所述的方法,其中,在所述接收来自所述语音识别服务器的语音识别信息后,还包括:
获取下一时刻的网络状态数据;
基于所述当前时刻的网络状态数据和所述下一时刻的网络状态数据,计算奖励值;
基于所述奖励值和所述网络状态数据,计算标准目标值;
获取所述第一智能体的第一模型参数;以及
基于所述标准目标值、所述第一动作评价值以及所述第一模型参数,计算第二模型参数,其中,所述第二模型参数用于形成第二智能体。
4.根据权利要求3所述的方法,其中,所述智能体是基于动作价值函数形成的,
所述基于所述当前时刻的网络状态数据和所述预设的第一智能体,对所述多个切片动作进行评价打分,得到多个动作评价值,包括:
对于一个所述切片动作,将所述当前时刻的网络状态数据、所述切片动作和所述第一模型参数作为输入数据,通过所述动作价值函数计算,得到动作评价值。
5.根据权利要求3或4所述的方法,其中,所述网络状态数据至少包括音频识别速度,
所述获取当前时刻的网络状态数据,包括:
获取音频时长、开始时间以及识别结果拿到时间;
基于所述音频时长、所述开始时间以及所述识别结果拿到时间计算所述音频识别速度。
6.根据权利要求5所述的方法,其中,所述基于所述当前时刻的网络状态数据和所述下一时刻的网络状态数据,计算奖励值,包括:
基于当前时刻的所述音频识别速度和上一时刻的所述音频识别速度,计算所述奖励值。
7.一种语音识别方法,其中,所述语音接收方法应用于语音识别服务器,所述方法包括:
接收来自用户终端的音频切片,所述用户终端是所述音频切片初始的发送端,所述音频切片是所述用户终端通过获取到的当前时刻的网络状态数据和预设的第一智能体,对采集到的用户语音音频流分帧得到的;
按照预设的语音识别逻辑,识别所述音频切片,得到语音识别信息;以及
将所述语音识别信息发送至所述用户终端。
8.一种语音识别方法,其中,所述方法应用于语音识别系统,所述语音识别系统包括:用户终端和语音识别服务器,所述方法包括:
由所述用户终端获取当前时刻的网络状态数据;
基于所述当前时刻的网络状态数据和预设的第一智能体,对采集到的用户语音音频流分帧,得到音频切片,其中,所述第一智能体是基于强化学习形成的;
由所述语音识别服务器接收来自所述用户终端的音频切片;
按照预设的语音识别逻辑,识别所述音频切片,得到语音识别信息;以及
将所述语音识别信息发送至所述用户终端。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310368994.1/1.html,转载请声明来源钻瓜专利网。





