[发明专利]一种文档图像中键值对信息的抽取方法、装置及系统在审
申请号: | 202111528389.3 | 申请日: | 2021-12-14 |
公开(公告)号: | CN114419642A | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 宋佳奇;王勇;朱军民 | 申请(专利权)人: | 北京易道博识科技有限公司 |
主分类号: | G06V30/413 | 分类号: | G06V30/413;G06V30/416;G06F40/253;G06F40/295;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 北京金智普华知识产权代理有限公司 11401 | 代理人: | 岳野 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 图像 键值 信息 抽取 方法 装置 系统 | ||
本发明公开了一种文档图像中键值对信息的抽取方法、装置及系统,涉及计算机视觉领域。该方法包括:针对输入信息进行编码,输出图像+内容+坐标拼接特征向量和最终实体类型名称特征向量;以每个文字为节点,聚合相邻节点的图像+内容+坐标拼接特征向量,得到每个文字的文字特征向量;基于每个文字的文字特征向量,按照实体类型对各文本块进行分类,基于最终实体类型名称特征向量和每个文字的文字特征向量,通过问答系统输出由所有实体类型和其所对应的文本块构成的键值对。该方法把多个任务融合到一个模型中,使用transformer等神经网络结构构建模型,做到端到端的训练和预测,最终输出文档中所有键值对信息。
技术领域
本发明涉及计算机视觉领域,尤其是一种文档图像中键值对信息的抽取方法、装置及系统。
背景技术
现实中通常会遇到很多文档中存在键值对这种信息表现方式,比如图1银行支票中“出票日期(大写)”和“贰零零柒年零叁月壹拾玖日”就是一个键值对,前者是关键字,后者是真值,关键字是对真值的说明,两者一起构成一个有用的信息。一个文档中可能存在多个类似的键值对信息结构,通常需要把对应的真值全部抽取出来。
传统的方法是对每一种文档版式生成一种模板,先在模板里存储各个关键字的位置,找到关键字后在其后面或者下面的值就是相应的真值。这种方法对于固定模板可以很好的解决,准确率较高,但是版式稍有不同就会出错。所以对于每一种版式都要维护一套模板,所需处理的版式较多时就会耗费大量的时间和精力来创建和维护大量的模板,且每有一种新版式都要再创建一套新模板,泛化能力很差。随着深度学习的发展,一些以神经网络为基础的模型开始逐渐取代传统的模板方法。此类方法不用为每一种版式人工创建模板,而是将大量具有不同版式的数据输入模型,让神经网络自己学习隐藏在不同版式中的通用特征,从而大大提高了泛化能力。代表方法有将整张文本拼接成一个字符串送进模型,然后做NER将需要的实体抽取出来。但是此类方法只是利用了文档中的文字信息,完全忽略了文档的图像信息和键值对之间特殊的对应关系,这些信息对于提升精度有很大的帮助。
为了更好地利用文档的文本特征和图像特征,以及包含在键值对中特殊的位置对应关系,本团队创新性的提出了将文本、图像以及位置特征结合在一起的多模态模型。模型中主要用到了图像和文本的预训练模型、图神经网络以及问答系统。下面分别介绍一下这几个方面的背景。
进入大数据时代后,可以得到的数据成指数级增长,但这些数据绝大部分都是未标注的,而且和需要解决的具体任务可能关联不大。那么如何从这些海量的数据中学习到有用的知识,从而应用到具体任务上呢?这就需要用到预训练模型,预训练模型的训练通常都会设计一些无监督的训练任务,旨在学习到数据中的通用信息,比如图像的分类、语言中的语法和句法等知识。预训练模型最初在计算机视觉领域的ImageNet上取得了突破性的进展。随着BERT的出现及其展现出来的优秀性能,让预训练模型在NLP领域迅速发展,并且取得了很好的成绩。得到预训练模型后,可以通过改变其输出层来应用到不同的下游任务上,比如问答系统、文本分类、目标检测、命名体识别等等。对比从零训练的模型,预训练模型可以提供很好的预备知识,而且这些知识对于下游任务有极大的帮助,可以让模型收敛的更快,精度更高。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京易道博识科技有限公司,未经北京易道博识科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111528389.3/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置