[发明专利]基于PDF格式文件的可视化仪器采集方法及系统有效
申请号: | 202110374828.3 | 申请日: | 2021-04-08 |
公开(公告)号: | CN112766245B | 公开(公告)日: | 2021-07-20 |
发明(设计)人: | 金震;李明;徐伟;石晓文 | 申请(专利权)人: | 北京三维天地科技股份有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06F3/0484;G06F3/0487 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 田春龙 |
地址: | 100000 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 pdf 格式文件 可视化 仪器 采集 方法 系统 | ||
1.一种基于PDF格式文件的可视化仪器采集方法,其特征在于,包括以下步骤:
获取目标可视化仪器输出的目标PDF文件,根据所述目标PDF文件定义预设采集区域;
获取工作人员使用鼠标在所述目标PDF上勾选的目标区域,根据所述目标区域调整所述预设采集区域,获得目标采集区域;
根据所述目标采集区域设置采集规则,将所述采集规则与所述目标可视化仪器进行绑定;
根据所述采集规则定时提取目标可视化仪器输出的后续PDF文件在所述目标采集区域内的内容;
在获取工作人员使用鼠标在所述目标PDF上勾选的目标区域,根据所述目标区域调整所述预设采集区域,获得目标采集区域之前,所述方法还包括:
验证所述目标PDF文件的准确性;
在所述目标PDF文件通过验证后,将所述目标PDF文件作为模板进行上传,获得PDF模板文件;
所述在所述目标PDF文件通过验证后,将所述目标PDF文件作为模板进行上传,获得PDF模板文件,包括:
获取所述目标PDF文件中的多个字段;
确定与每个字段相匹配的目标字符串,将多个目标字符串在预设模板样本中进行匹配获得各字段的描述信息;
根据所述目标PDF文件中各字段的描述信息以及目标PDF文件中的内容生成所述PDF模板文件;
将所述PDF模板文件上传到预设服务器;
所述确定与每个字段相匹配的目标字符串,将多个目标字符串在预设模板样本中进行匹配获得各字段的描述信息,包括:
获取多个预设字符串,构建初始决策树;
将所述多个预设字符串中同类型的预设字符串写入到所述初始决策树的同一个节点中;
写入完毕后,获取每个预设字符串的属性因子,将每个字符串与其属性因子相对应,获得目标决策树;
确定每个字段中组成文字的文字格式;
根据每个字段中的文字格式确定匹配字符串的匹配类型;
根据每个字段的字符串匹配类型确定每个字段的目标匹配节点;
将每个字段分割为多个子字段,获取每个子字段的特征因子,根据每个子字段的特征因子生成每个字段的字符串正则表达式;
根据每个字段的字符串正则表达式计算出每个字段所匹配的当前字符串的目标属性因子;
根据每个字段所匹配的当前字符串的目标属性因子在其目标匹配节点中查询与目标属性因子相同的目标字符串;
根据每个所述目标字符串估计出其对应的资源名称信息;
在所述预设模板样本中获取与每个资源名称信息相匹配的参考资源描述信息;
解析每个参考资源描述信息获得其对应的第一源文件,将多个第一源文件结合形成第二源文件;
计算所述第二源文件与目标PDF文件之间的目标相似度,确认所述目标相似度是否大于等于预设相似度,若是,将每个参考资源描述信息确认为每个字段的描述信息。
2.根据权利要求1所述基于PDF格式文件的可视化仪器采集方法,其特征在于,所述获取目标可视化仪器输出的目标PDF文件,根据所述目标PDF文件定义预设采集区域,包括:
解析所述目标PDF文件,从所述目标PDF文件中获得同类型内容的分布情况;
根据同类型内容的分布情况确定同类型内容的跨度区域;
将所述跨度区域定义为所述预设采集区域。
3.根据权利要求1所述基于PDF格式文件的可视化仪器采集方法,其特征在于,所述获取工作人员使用鼠标在所述目标PDF上勾选的目标区域,根据所述目标区域调整所述预设采集区域,获得目标采集区域,包括:
检测所述工作人员使用鼠标在所述目标PDF上的点击指令;
根据所述点击指令确定工作人员的当前点击力度,确认所述当前点击力度是否大于等于预设力度,若是,确认所述点击指令合格,否则,确认所述点击指令不合格;
统计目标用户的多个合格点击指令,根据将所述多个合格点击指令绘制出所述目标区域;
将所述目标区域与预设采集区域进行比较,确定目标区域包含所述预设采集区域之外的区域;
根据目标区域包含所述预设采集区域之外的区域对所述预设采集区域进行补充以获得所述目标采集区域。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三维天地科技股份有限公司,未经北京三维天地科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110374828.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:缺陷检测方法和装置
- 下一篇:一种页面展示方法、装置、电子设备及存储介质