[发明专利]一种基于对比学习的文本识别方法与系统有效

专利信息
申请号: 202111395021.4 申请日: 2021-11-23
公开(公告)号: CN113920296B 公开(公告)日: 2022-07-15
发明(设计)人: 刘彩玲;吴婷婷;赵建强;高志鹏;汪泰伸;陈德意 申请(专利权)人: 厦门市美亚柏科信息股份有限公司
主分类号: G06V10/22 分类号: G06V10/22;G06V30/10;G06V10/74;G06V10/82;G06K9/62;G06N3/04;G06N3/08
代理公司: 厦门福贝知识产权代理事务所(普通合伙) 35235 代理人: 郭涵炜
地址: 361000 福建省厦门市思明*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 对比 学习 文本 识别 方法 系统
【说明书】:

发明给出了一种基于对比学习的文本识别方法与系统,包括无标签的文本图像样本,对其中每个样本进行数据增强输入卷积网络进行识别训练生成识别模型,再基于所述识别模型构建基本编码器来计算并输出特征序列;将所述特征序列输入实例映射函数生成对应的实例再映射为多个子实例,将所有的子实例作为对比损失函数中的子元素进行对比学习,将结果反馈到所述卷积网络用于更新所述卷积网络;获取包含文本信息的有标签的文本图像样本输入所述基本编码器,对所述卷积网络的参数进行调节直到所述识别模型收敛。本方法将对比学习应用于序列的各个元素,充分利用无标注数据学习有效的表征信息,再基于自监督对比学习的方法进行建模,显著提高了识别效果。

技术领域

本发明涉及文本识别技术领域,尤其是一种基于对比学习的文本识别方法与系统。

背景技术

近年来,深度学习已被广泛应用于图像分类、目标检测和分割等领域,随之也带来了数据标注成本高、耗费时间长等问题,如何利用好大量无标注数据进行自监督学习成了当前的研究热点。自监督学习能够从大规模的无标注数据集中挖掘自身的监督信息,并通过这种构造的监督信息对网络进行训练,从而可以学习到对下游任务有价值的表征信息。

在半监督计算机视觉应用领域如图像分类、目标检测和分割等利用自监督对比学习表征信息的技术取得了显著成果。然而,在文本识别领域里由于文本序列的特殊性未得到较好的应用。目前大多数文本识别算法仍然依赖于全监督学习,需要大量带标签的数据进行建模。

因此,在没有人工监督的条件下如何高效地学习基于序列性的文本信息表征是一个长期存在的问题。

当前主流的自监督的学习方法可分为生成式或判别式两大类。生成式方法学习在输入空间中生成或以其他方式建模像素。然而,像素级生成在计算上是昂贵的,并且可能不是表征学习所必需的。判别方法使用类似于监督学习的目标函数来学习表示,其中输入和标签都来自未标记的数据集。许多此类方法都依赖于启发式来设计任务,这可能会限制所学表征的通用性。但是,潜在空间对比学习的判别方法近年来取得了较先进的成果,且对比学习不依赖于复杂的网络结构和昂贵的计算机硬件,它的实现方法简单高效。但是,当前的对比学习方法仅适用于以整张图像为单个实例的图像分类、图像分割和图像识别中,在含有序列性的文本识别方法中表现不佳。

发明内容

本发明提出了一种基于对比学习的文本识别方法与系统,以解决上文提到的现有技术的缺陷。

在一个方面,本发明提出了一种基于对比学习的文本识别方法,该方法包括以下步骤:

S1:获取包含文本信息的无标签的文本样本,以图像的形式将所述文本样本保存为文本图像样本,再对所述文本图像样本中的每个样本进行数据增强获得增强后的样本;

S2:将所述增强后的样本输入卷积网络进行识别训练生成识别模型,再基于所述识别模型构建基本编码器来计算并输出所述增强后的样本的特征序列;

S3:将所述特征序列输入实例映射函数生成对应的实例,并将所述实例映射为多个子实例,每个子实例包括正样本对和负样本对,将所有的子实例作为对比损失函数中的子元素进行对比学习,同时将所述对比学习的结果反馈到所述卷积网络用于更新所述卷积网络;

S4:获取包含文本信息的有标签的文本样本,以图像的形式将所述文本样本保存为有标签文本图像样本,将所述有标签文本图像样本输入所述基本编码器,对所述卷积网络的参数进行调节,直到所述识别模型收敛。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门市美亚柏科信息股份有限公司,未经厦门市美亚柏科信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111395021.4/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top