[发明专利]一种表格信息抽取方法、装置、设备及介质在审
申请号: | 202210577025.2 | 申请日: | 2022-05-25 |
公开(公告)号: | CN114818627A | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 张晨;蒲柯锐;王全礼;李昱 | 申请(专利权)人: | 中国建设银行股份有限公司;建信金融科技有限责任公司 |
主分类号: | G06F40/177 | 分类号: | G06F40/177;G06F40/205;G06F40/289;G06F16/36 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 王菲菲 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 表格 信息 抽取 方法 装置 设备 介质 | ||
1.一种表格信息抽取方法,其特征在于,包括:
对包括表格的目标文档进行分词,获得多个词;
对所述多个词中每个词的位置向量和特征向量进行拼接,获得每个词的序列向量;其中,每个词的位置向量用于指示每个词在所述目标文档的页面中的位置,每个词的特征向量用于指示每个词与目标知识图谱中的实体之间的关联关系,所述目标知识图谱为目标领域的知识图谱;
将每个词的序列向量输入神经网络,输出每个词的信息类型;其中,所述神经网络是基于大量样本数据集训练获得的,所述样本数据集包括多个样本词的序列向量、以及每个样本词的信息类型,所述信息类型包括关键信息类型和非关键信息类型;
从所述多个词中抽取信息类型为关键信息类型的词,获得所述表格的关键信息。
2.如权利要求1所述的方法,其特征在于,所述多个词具有排列顺序,从所述多个词中抽取信息类型为关键信息类型的词,获得所述表格的关键信息,包括:
若所述多个词中第一词的信息类型为关键信息类型且所述第一词为词首,则将排列在所述第一词和第三词之间的至少一个词确定为第二词;其中,所述第三词的信息类型为关键信息类型且所述第三词为词首,或者,所述第三词的信息类型为非关键信息类型;
若所述第二词的信息类型为关键信息类型且所述第二词为非词首,则将从所述多个词中抽取所述第一词和所述第二词,将所述第一词和所述第二词合并为一个关键信息。
3.如权利要求1所述的方法,其特征在于,在对所述多个词中每个词的位置向量和特征向量进行拼接,获得每个词的序列向量之前,所述方法还包括:
将每个词的四元组信息转换为向量,获得每个词的位置向量;其中,所述四元组信息包括每个词在所述目标文档的页面中的横坐标和纵坐标、每个词、指示每个词是否在所述表格内的特征值。
4.如权利要求1所述的方法,其特征在于,在对所述多个词中每个词的位置向量和特征向量进行拼接,获得每个词的序列向量之前,所述方法还包括:
获取所述目标知识图谱;其中,所述知识图谱包括实体集合和所述实际集合中各个实体之间的关系;
根据所述目标知识图谱,确定每个词的第一特征向量和第二特征向量;其中,每个词的第一特征向量用于指示每个词是否属于所述实体集合,每个词的第二特征向量用于指示每个词与所述实体集合中的实体是否存在关系;
将每个词的第一特征向量和第二特征向量进行拼接,获得每个词的特征向量。
5.如权利要求1-4中任一项所述的方法,其特征在于,在对包括表格的目标文档进行分词,获得多个词之前,所述方法还包括:
获取初始文档;
若所述初始文档为PDF文本,则通过PDF解析工具对所述PDF文本进行解析,获得所述目标文档;或者,
若所述初始文档为图片,则通过光学字符识别OCR工具对所述图片进行识别,获得所述目标文档。
6.一种表格信息抽取装置,其特征在于,包括:
分词模块,用于对包括表格的目标文档进行分词,获得多个词;
获得模块,用于对所述多个词中每个词的位置向量和特征向量进行拼接,获得每个词的序列向量;其中,每个词的位置向量用于指示每个词在所述目标文档的页面中的位置,每个词的特征向量用于指示每个词与目标知识图谱中的实体之间的关联关系,所述目标知识图谱为目标领域的知识图谱;
输出模块,用于将每个词的序列向量输入神经网络,输出每个词的信息类型;其中,所述神经网络是基于大量样本数据集训练获得的,所述样本数据集包括多个样本词的序列向量、以及每个样本词的信息类型,所述信息类型包括关键信息类型和非关键信息类型;
抽取模块,用于从所述多个词中抽取信息类型为关键信息类型的词,获得所述表格的关键信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国建设银行股份有限公司;建信金融科技有限责任公司,未经中国建设银行股份有限公司;建信金融科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210577025.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种托盘拆分机
- 下一篇:一种水性墨可打印涂层布的冷却定型工艺
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置