[发明专利]语音识别模型的训练方法及装置、语音识别方法及装置在审
| 申请号: | 202210863212.7 | 申请日: | 2022-07-21 |
| 公开(公告)号: | CN115064157A | 公开(公告)日: | 2022-09-16 |
| 发明(设计)人: | 曲贺;李杰 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
| 主分类号: | G10L15/06 | 分类号: | G10L15/06;G06F40/166 |
| 代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 王艳茹;苏银虹 |
| 地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音 识别 模型 训练 方法 装置 | ||
本公开关于一种语音识别模型的训练方法及装置、语音识别方法及装置。语音识别模型的训练方法包括:获取训练样本,其中,训练样本包括语音样本和与语音样本对应的标注文本,标注文本包括与语音样本对应的目标文本信息和目标语种信息;将语音样本输入到待训练的语音识别模型中,得到语音样本的预测识别结果,其中,预测识别结果包括与语音样本对应的预测文本信息和预测语种信息;基于预测识别结果和标注文本,对语音识别模型进行训练,得到训练完成的语音识别模型。
技术领域
本公开涉及音视频处理领域,尤其涉及一种语音识别模型的训练方法及装置、语音识别方法及装置。
背景技术
随着人工智能的发展,语音识别已经广泛应用于各行各业。目前的语音识别系统只包含单语言的语音识别模型,只能支持一种语言的语音识别,无法支持其他语言的语音识别,为了支持多个语言的语音识别,需要多个不同的语音识别系统,随着支持的语言的增多,语音识别系统线性增长,需要训练多个语音识别模型来实现多个语种的语音识别,训练十分复杂且低效;又或者,语音识别系统通过两个或者两个以上模型(如以双向长短期记忆网络BLSTM作为网络模型训练声学模型和N元模型(n-gram))协作来识别多个语种,但是也需要独立的训练两个或者两个以上模型来保证多个语种的语音识别,训练十分复杂且低效,且需要两个模型的协同作用,训练好的模型的管理也十分复杂。
发明内容
本公开提供一种语音识别模型的训练方法及装置、语音识别方法及装置,以至少解决相关技术中的语音识别模型的训练和管理十分复杂和低效的问题。
根据本公开实施例的第一方面,提供一种语音是识别模型的训练方法,包括:获取训练样本,其中,训练样本包括语音样本和与语音样本对应的标注文本,标注文本包括与语音样本对应的目标文本信息和目标语种信息;将语音样本输入到待训练的语音识别模型中,得到语音样本的预测识别结果,其中,预测识别结果包括与语音样本对应的预测文本信息和预测语种信息;基于预测识别结果和标注文本,对语音识别模型进行训练,得到训练完成的语音识别模型。
可选地,获取训练样本,包括:获取语音样本和与语音样本对应的目标文本信息;在目标文本信息的头部或尾部添加语音样本的目标语种信息,得到标注文本。
可选地,基于预测识别结果和标注文本,对待训练的语音识别模型进行训练,得到训练完成的语音识别模型,包括:基于预测识别结果和标注文本计算损失;基于损失调整待训练的语音识别模型的参数,对参数调整后的语音识别模型进行再次训练,直到满足结束条件,将满足结束条件的训练后的语音识别模型,确定为所述训练完成的语音识别模型。
可选地,在训练样本包括预定条数的语音样本以及每条语音样本对应的标注文本的情况下,将语音样本输入到待训练的语音识别模型中,得到语音样本的预测识别结果,包括:将预定条数的语音样本输入到待训练的语音识别模型中,得到每条语音样本的预测识别结果;基于预测识别结果和标注文本计算损失,包括:基于每条语音样本的预测识别结果和每条语音样本对应的标注文本,计算每条语音样本对应的子损失;基于每条子损失,获取损失。
可选地,基于预测识别结果和标注文本计算损失,包括:获取标注文本所包含的子词;获取子词的编码信息,其中,编码信息的格式与预测识别结果的格式一致;基于子词的编码信息,得到标注文本的编码信息;基于预测识别结果和标注文本的编码信息计算损失。
可选地,训练样本包括预定条数的语音样本以及每条语音样本对应的标注文本,其中,预定条数的语音样本包括多个语种的语音样本。
根据本公开实施例的第二方面,提供一种语音识别方法,包括:获取待处理语音;将待处理语音输入到语音识别模型中,得到待处理语音的识别结果,识别结果包括待处理语音对应的文本信息和语种信息;其中,语音识别模型是基于上述的语音识别模型的训练方法训练得到的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210863212.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种吸收式可调谐带阻滤波器
- 下一篇:一种智能巴士驱动总成的装配方法





