[发明专利]一种序列识别模型训练方法、装置、电子设备及存储介质在审
申请号: | 202111577279.6 | 申请日: | 2021-12-22 |
公开(公告)号: | CN114254706A | 公开(公告)日: | 2022-03-29 |
发明(设计)人: | 郭大山 | 申请(专利权)人: | 上海高德威智能交通系统有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08;G06V30/40 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 马敬;项京 |
地址: | 201821 上海市嘉定*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 序列 识别 模型 训练 方法 装置 电子设备 存储 介质 | ||
1.一种序列识别模型训练方法,其特征在于,所述方法包括:
从预设训练集中获取多个无标签信息的样本数据,作为第一样本数据;
针对每一第一样本数据,基于预设学生模型对该第一样本数据包含的文本进行识别,得到该第一样本数据的第一预测序列;
基于预设教师模型对该第一样本数据包含的文本进行识别,得到该第一样本数据的第一伪标签序列;
基于预设可信度学习模型,确定该第一样本数据的第一伪标签序列中每一字符的第一可信度值,其中,一个字符的第一可信度值用于指示该字符为识别正确的字符的概率;
根据每一第一样本数据的第一预测序列和第一伪标签序列,以及每一第一样本数据的第一伪标签序列中各字符的第一可信度值,计算所述预设学生模型的第一损失值;
基于所述第一损失值进行多次迭代,直至所述预设学生模型收敛,得到用于进行序列识别的序列识别模型。
2.根据权利要求1所述的方法,其特征在于,在根据每一第一样本数据的第一预测序列和第一伪标签序列,以及每一第一样本数据的第一伪标签序列中各字符的第一可信度值,计算所述预设学生模型的第一损失值之前,所述方法还包括:
针对每一第一样本数据,基于该第一样本数据的第一预测序列与该第一样本数据的第一伪标签序列中各字符间的编辑距离,对该第一样本数据的第一伪标签序列中的字符进行错位矫正,得到该第一样本数据的第二伪标签序列;
所述根据每一第一样本数据的第一预测序列和第一伪标签序列,以及每一第一样本数据的第一伪标签序列中各字符的第一可信度值,计算所述预设学生模型的第一损失值的步骤,包括:
根据每一第一样本数据的第一预测序列和第二伪标签序列,以及每一第一样本数据的第二伪标签序列中各字符的第二可信度值,计算所述预设学生模型的第一损失值;
其中,每一第一样本数据的第二伪标签序列中各字符的第二可信度值,与该第一样本数据的伪标签序列中各字符的第一可信度值相同。
3.根据权利要求2所述的方法,其特征在于,所述针对每一第一样本数据,基于该第一样本数据的第一预测序列与该第一样本数据的第一伪标签序列中各字符间的编辑距离,对该第一样本数据的第一伪标签序列中的字符进行错位矫正,得到该第一样本数据的第二伪标签序列的步骤,包括:
针对每一第一样本数据,根据该第一样本数据的第一预测序列和第一伪标签序列中的每一字符,构建第一预测序列与第一伪标签序列间的编辑距离矩阵;
根据所述编辑距离矩阵中的每一矩阵元素,反向搜索与最小编辑距离匹配的路径,作为最优匹配路径;
根据所述最优匹配路径,构建第一匹配矩阵;其中,所述第一匹配矩阵中与所述最优匹配路径对应位置上的矩阵元素为第一数值,其他位置上的矩阵元素为第二数值;
针对所述第一匹配矩阵中的每一列矩阵元素,当该列矩阵元素包括多个第一数值时,将除行号最大的第一数值以外的其他第一数值矫正为第二数值,得到第二匹配矩阵;
计算所述第二匹配矩阵与该第一样本数据的第一伪标签序列的乘积,得到该第一样本数据的第二伪标签序列。
4.根据权利要求1所示的方法,其特征在于,所述基于预设可信度学习模型,确定该第一样本数据的第一伪标签序列中每一字符的第一可信度值的步骤,包括:
将所述预设教师模型中特征提取模块所提取到的特征数据输入预设可信度学习模型,得到该第一样本数据的可信度值序列,所述可信度值序列中的每一可信度值为所述第一样本数据的第一伪标签序列中相同位置处字符的第一可信度值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海高德威智能交通系统有限公司,未经上海高德威智能交通系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111577279.6/1.html,转载请声明来源钻瓜专利网。