[发明专利]数据提取系统在审

专利信息
申请号: 202080027829.4 申请日: 2020-04-09
公开(公告)号: CN113678118A 公开(公告)日: 2021-11-19
发明(设计)人: M·N·约胡姆;K·基弗;C·里塞;J·E·比恩;G·巴塔利亚林;P·德希穆克;F·西特尔;O·C·戈宾;A·E·尼德勒 申请(专利权)人: 巴斯夫欧洲公司
主分类号: G06F16/25 分类号: G06F16/25
代理公司: 永新专利商标代理有限公司 72002 代理人: 刘瑜
地址: 德国莱茵河*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据 提取 系统
【权利要求书】:

1.一种用于从一个或多个表格数据文件中提取数据的数据提取系统(10),所述系统包括:

用户界面(12),其适于便于一个或多个用户提交一个或多个表格数据文件(22),每个表格数据文件包括至少一个表(24);

其中,所述用户界面还被配置为接收:

i)包括至少一个目标表(28)的用户定义模板(26);

其中,所述数据提取系统还包括具有模式级匹配器(16)和实例级匹配器(18)的数据提取模块(14);

其中,所述模式级匹配器被配置为识别所述至少一个目标表的目标模式级信息,并且基于所述目标模式级信息从提交的一个或多个表格数据文件中选择至少一个语义匹配的候选表(30);并且

其中,所述实例级匹配器被配置为识别所述至少一个目标表的目标实例级信息,并且基于所述目标实例级信息从所述至少一个语义匹配的候选表中提取数据;或者

ii)验证器模板;

其中,所述数据提取系统还包括验证器(20),所述验证器被配置为将所述验证器模板应用到所述一个或多个表格数据文件中的至少一个表,以基于由所述验证器模板定义的针对标记、元数据和/或数据的规则来验证所述至少一个表的表格式。

2.根据权利要求1所述的系统,

其中,所述实例级匹配器被配置为确定所述至少一个语义匹配的候选表和所述至少一个目标表之间的相似性度量,并且从所述至少一个语义匹配的候选表中提取其相似性度量超过给定阈值的数据。

3.根据权利要求2所述的系统,

其中,以级联方式针对所述目标表的每一列分配所述相似性度量:

i)针对所述目标表的每一列指定所述相似性度量;

ii)针对特定类型的所有列指定所述相似性度量;以及

iii)所有剩余的列都被设置为默认相似性,所述默认相似性是任选地用户自定义的。

4.根据前述权利要求中任一项所述的系统,

其中,所述模式级匹配器被配置为将一个或多个提交的表格数据文件中的至少一个表变换为至少一个变换表以匹配由至少一个目标表定义的格式并且从至少一个变换表中选择至少一个语义匹配的候选表。

5.根据权利要求4所述的系统,

其中,所述变换包括以下各项中的至少一项:

-从至少一个表中提取子表;

-对至少一个表进行转置;

-置换至少一个表的列;以及

-从至少一个表中移除包含不匹配的模式级信息的至少一列或一行。

6.根据权利要求4或5所述的系统,

其中,所述模式级匹配器被配置为对所述一个或多个提交的表格数据文件中的至少一个表执行一序列的操作,所述一序列的操作定义具有多个边(36)和多个节点(38)的树结构(34),每条边与具有一个或多个自由参数的父节点的基本变换相对应,而每个节点与相应的基本变换的变换表相对应;

其中,所述模式级匹配器被配置为在所述树结构的多个叶节点(40)处选择至少一个变换表,所述至少一个变换表与所述至少一个目标表的相似性高于其余变换表与所述至少一个目标表的相似性;并且

其中,所述模式级匹配器被配置为从至少一个选择的变换表中选择至少一个语义匹配的候选表。

7.根据前述权利要求中任一项所述的系统,还包括:

-预训练的机器学习分类器,其适用于执行模式匹配和/或实例匹配;

其中,所述预训练的机器学习分类器被配置为使用表格数据文件的样本集合进行训练,所述表格数据文件的样本集合具有用于解析所述表格数据文件的代表性数据文件、成功解析的表格数据文件的集合,以及失败的表格数据文件的集合。

8.根据前述权利要求中任一项所述的系统,

其中,所述用户界面被配置为提供包括以下各项中的至少一项的报告:

-提取统计的概览;

-从每个表格数据文件、表单和/或表类型中提取的表数量的响应表;以及

-允许用户将提取的表直接迁移到数据库的界面。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于巴斯夫欧洲公司,未经巴斯夫欧洲公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202080027829.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top