|
钻瓜专利网为您找到相关结果 653766个,建议您 升级VIP下载更多相关专利
- [发明专利]PDF表格提取方法-CN201710095978.4有效
-
郑龙;夏磊
-
南京述酷信息技术有限公司
-
2017-02-22
-
2018-04-13
-
G06K9/00
- 本发明技术方案公开了一种PDF表格提取方法,对PDF文档按页码进行解析,获取所有的图像数据、第一线条数据和字符数据,采用图像识别算法对图像数据按页码依次进行处理,从具有表格数据的图像数据中获得其表格数据对应的第二线条数据;采用图像算法对第一线条数据和第二线条数据按页码依次进行处理,获得具有表格行数据和列数据的表格框架数据;采用聚类算法对字符数据进行聚类处理,获得具有字符串集合的文本数据;经由最终所有表格框架和所有文本数据得到PDF文档中所有的表格数据。本发明对PDF文档中表格提取的方法提高了PDF文档中表格提取的准确率和效率,能得到更准确的表格数据,适用于对表格数据提取的准确率和效率要求更高的领域。
- pdf表格提取方法
- [发明专利]一种基于百科数据提取集成的查询系统-CN200910088677.4无效
-
伍伟;高军;王腾蛟;杨冬青
-
北京大学
-
2009-07-07
-
2009-12-30
-
G06F17/30
- 本发明涉及一种基于百科数据提取集成的查询系统,其特征在于:它包括数据提取模块、数据集成模块和数据查询模块;数据提取模块用于从因特网上提取百科网页,定位和初步过滤各类百科网页中的表格,之后进行基于视觉特征的定位和提取;将提取的表格统一转换成行表的形式,将具有相同特征参数的表格归为一类,提取和识别出每类表格的分类信息,将分类信息保存在信息数据库和XML数据库中;数据集成模块对表格进行分类并按类别打分;之后采用集成的方法,将具有相同属性的表格归并到同一个模式库中;对各模式库中的模式信息进行聚类,输出模式聚类和推荐模式;数据查询模块在信息数据库中查找对应的表格信息;输出查询结果和推荐模式。
- 一种基于百科数据提取集成查询系统
|