[发明专利]一种序列识别模型训练方法、装置、电子设备及存储介质在审
申请号: | 202111577279.6 | 申请日: | 2021-12-22 |
公开(公告)号: | CN114254706A | 公开(公告)日: | 2022-03-29 |
发明(设计)人: | 郭大山 | 申请(专利权)人: | 上海高德威智能交通系统有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08;G06V30/40 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 马敬;项京 |
地址: | 201821 上海市嘉定*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 序列 识别 模型 训练 方法 装置 电子设备 存储 介质 | ||
本申请实施例提供了一种序列识别模型训练方法、装置、电子设备及存储介质。方案如下:获取多个无标签信息的第一样本数据;针对每一第一样本数据,基于预设学生模型得到第一预测序列;基于预设教师模型得到第一伪标签序列;基于预设可信度学习模型,确定第一伪标签序列中每一字符的第一可信度值;计算预设学生模型的第一损失值;基于第一损失值进行多次迭代,直至预设学生模型收敛,得到用于进行序列识别的序列识别模型。通过本申请实施例提供的技术方案,提高了确定出的伪标签序列中各字符的准确性,从而提高了训练得到的序列识别模型的准确性。
技术领域
本申请涉及数据处理技术领域,特别是涉及一种序列识别模型训练方法、装置、电子设备及存储介质。
背景技术
序列识别技术作为一种重要的信息采集或录入的手段,在诸多领域有着广泛的应用。目前,在序列识别过程中,往往利用预先训练好的序列识别模型对待识别数据中的序列进行识别。
相关技术中,通过半监督学习的方式对预设模型进行训练得到序列识别模型。具体的,通过将大量无标签信息的样本数据输入至预设教师模型,得到每一样本数据的伪标签序列,从而利用携带有伪标签序列的样本数据对预设学生模型进行训练,得到训练好的序列识别模型。
但是,在上述伪标签序列预测过程中,预测得到的伪标签序列中存在少量的错误,这将严重影响训练得到的序列识别模型的准确性。
发明内容
本申请实施例的目的在于提供一种序列识别模型训练方法、装置、电子设备及存储介质,以提高确定出的伪标签序列中各字符的准确性,从而提高训练得到的序列识别模型的准确性。具体技术方案如下:
本申请实施例提供了一种序列识别模型训练方法,所述方法包括:
从预设训练集中获取多个无标签信息的样本数据,作为第一样本数据;
针对每一第一样本数据,基于预设学生模型对该第一样本数据包含的文本进行识别,得到该第一样本数据的第一预测序列;
基于预设教师模型对该第一样本数据包含的文本进行识别,得到该第一样本数据的第一伪标签序列;
基于预设可信度学习模型,确定该第一样本数据的第一伪标签序列中每一字符的第一可信度值,其中,一个字符的第一可信度值用于指示该字符为识别正确的字符的概率;
根据每一第一样本数据的第一预测序列和第一伪标签序列,以及每一第一样本数据的第一伪标签序列中各字符的第一可信度值,计算所述预设学生模型的第一损失值;
基于所述第一损失值进行多次迭代,直至所述预设学生模型收敛,得到用于进行序列识别的序列识别模型。
可选的,在根据每一第一样本数据的第一预测序列和第一伪标签序列,以及每一第一样本数据的第一伪标签序列中各字符的第一可信度值,计算所述预设学生模型的第一损失值之前,所述方法还包括:
针对每一第一样本数据,基于该第一样本数据的第一预测序列与该第一样本数据的第一伪标签序列中各字符间的编辑距离,对该第一样本数据的第一伪标签序列中的字符进行错位矫正,得到该第一样本数据的第二伪标签序列;
所述根据每一第一样本数据的第一预测序列和第一伪标签序列,以及每一第一样本数据的第一伪标签序列中各字符的第一可信度值,计算所述预设学生模型的第一损失值的步骤,包括:
根据每一第一样本数据的第一预测序列和第二伪标签序列,以及每一第一样本数据的第二伪标签序列中各字符的第二可信度值,计算所述预设学生模型的第一损失值;
其中,每一第一样本数据的第二伪标签序列中各字符的第二可信度值,与该第一样本数据的伪标签序列中各字符的第一可信度值相同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海高德威智能交通系统有限公司,未经上海高德威智能交通系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111577279.6/2.html,转载请声明来源钻瓜专利网。