[发明专利]一种基于机器学习的表格抽取方法有效
申请号: | 202010219328.8 | 申请日: | 2020-03-25 |
公开(公告)号: | CN111401010B | 公开(公告)日: | 2023-07-28 |
发明(设计)人: | 李鑫;郑磊;鲍琦 | 申请(专利权)人: | 苏州机数芯微科技有限公司 |
主分类号: | G06F40/154 | 分类号: | G06F40/154;G06F40/169;G06F40/174;G06F40/279;G06F16/11;G06N20/00 |
代理公司: | 合肥金律专利代理事务所(普通合伙) 34184 | 代理人: | 段晓微 |
地址: | 215000 江苏省苏州市苏州工业*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出的一种基于机器学习的表格抽取方法,包括:对原始xml文件进行预处理,获得预先选择的自动提取工具可识别的新xml文件;将新xml文件通过自动提取工具进行识别并转换成python可识别的二维列表;将表格标题和脚注从二维列表中分离出来,然后识别跨列子标题,并把子标题填充到对应的列;通过机器学习,区分出表头所在行的范围,然后合并表头;对跨行数据进行合并,获得最终表格数据。本发明实现了基于机器学习从格式为xml的文件中抽取清洗表格内容,保证了对xml文件信息的精确和完整的抽取。 | ||
搜索关键词: | 一种 基于 机器 学习 表格 抽取 方法 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州机数芯微科技有限公司,未经苏州机数芯微科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202010219328.8/,转载请声明来源钻瓜专利网。
- 上一篇:一种异形反光导电体的高光利用率组件
- 下一篇:牵引电机的轴装置