[发明专利]一种基于配置信息匹配及相似度提取网页信息的方法在审
申请号: | 201711346436.6 | 申请日: | 2017-12-15 |
公开(公告)号: | CN108052619A | 公开(公告)日: | 2018-05-18 |
发明(设计)人: | 尚保林;王明兴;徐晓松 | 申请(专利权)人: | 北京海致星图科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100083 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于配置信息匹配及相似度提取网页信息的方法,提出了基于配置信息文本匹配及相似度计算实现的未知网页表格信息提取方法,利用新颖技术手段实现对未知网页表格细粒度的解析,通过自定义配置文件,获取用户想要的信息以及屏蔽不想要的信息,通过任意配置的外部文件,实现通用表格解析;提取网页中的最小表格,通过利用现今自然语言处理领域的文本间匹配以及相似度计算方式,抽取目标信息、弃丢无效信息,直接通过文本计算的方式实现信息获取,优于传统技术只能处理标准表格的方案,实现了对多种特殊表格的处理。 | ||
搜索关键词: | 一种 基于 配置 信息 匹配 相似 提取 网页 方法 | ||
【主权项】:
1.一种基于配置信息匹配及相似度提取网页信息的方法,其特征在于:包括以下步骤:S1:用户自定义与表格解析过程相关的配置文件;S2:顺序读取未知网页URL,查询数据库中是否已存在相关配置文件以及网页URL,若存在,直接读取数据;若不存在,存储其网页源码,利用JAVA中的Jsoup包将源码解析为Document对象;S3:从根节点处深度递归遍历所有含table标签的表格,寻找所有非重复最小表格;S4:遍历表格的第一行、第一列字段分别保存,获取配置文件中用户给出的字段列表,通过投票机制确定该表格属性为横向或者纵向;得到所有表格属性并保存;S5:将每个最小表格作为处理单位,将标签table作为根节点root;S6:若该表格为纵向表格,获取root第一个非空子节点的标签rowspan值,此值为表头所占行数,根据表头所占行数,获取所有表头字段propertyStr;S7:遍历表头节点的所有非空兄弟节点 ,遍历每一个兄弟节点 的非空子节点,并记录每一个兄弟节点子节点的个数,将数值 取为最大的子节点个数;S8:以表头节点的兄弟节点 个数与 设计对应的二维矩阵,分别读取兄弟节点 子节点的字段,将其存储于二维矩阵,形成表头propertyStr字段与二维矩阵列一一对应;S9:若所有 子节点的个数与表头字段propertyStr长度相同,执行步骤S11;S10:若 子节点的个数与表头字段长度不同,找出与表头字段propertyStr长度不同的兄弟节点对应的二维矩阵的行,认为其可能是另一个表头,对所有表头以及表头字段对应二维矩阵的字段值执行步骤S18、S19与S20;S11:若该表格为横向表格,取出root第一个非空子节点,遍历该节点的所有子节点,取出其字段值保存,记为第一类字段;遍历root的所有子节点,取出这些节点的第一个子节点,取出字段值保存,记为第二类字段;获取配置文件中用户给出的字段列表,计算出字段列表与上述两类字段的文本相似度,分别记为权重 和 ;S12:若 ,取出第一类字段列表序号为奇数所有字段分别与配置文件中用户给出的正面字段名/正面字段列表进行文本正则化匹配;若未匹配到,跳至步骤S13;若匹配到,执行步骤S6-S10;S13:取出根节点root非空子节点trElement的标签rowspan值;S14:若rowspan =1,遍历上述节点trElement的所有子节点,取出所有子节点的字段值记为strString,计算strString元素个数size;S15:若size为偶数,从0开始到size-1遍历strString,偶数序号作为表头,奇数序号作为字段值,执行步骤S18、S19与S20;S16:若size为奇数,从0开始到size-1遍历strString,0序号作为表头,后序字段拼接作为总字段值,执行步骤S18、S19与S20;S17:若rowspan >1,取出根节点root下的rowsapan个子节点,将子节点的第一个非空子节点作为表头,后序字段拼接作为总字段值,执行步骤S18、S19与S20;S18:遍历每一个表头字段与配置文件中用户给出的正面字段名/正面字段列表进行文本正则化匹配,若未匹配到,继续遍历下一个表头字段;若匹配到,将该表头字段与用户给出的负面字段名/负面字段列表进行文本正则化匹配,若匹配到,结束,继续遍历下一个表头字段,若未匹配到,记录被匹配字段列表所属的正面字段名,形成匹配到的表头字段与正面字段名一一对应的列表;S19:找出与匹配到的表头字段对应的字段值,数量为n;S20:设计数据结构R包含name和value属性,将R.name属性记为被匹配到的正面字段名,将R.value属性记为上述获取的字段值;产生n对数据结构R,保存到数据库;S21:将数据库中获得的所有数据结构R取出,进行清洗、保存;S22:读入下一个表格,返回步骤S3开始执行,当所有表格读取完毕,查询数据库中是否有对应的用户配置文件,URL以及获得的所有对数据结构R,若没有将其导入入数据库,方便快速查询;S23:读取下一个URL,返回步骤S2开始执行。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京海致星图科技有限公司,未经北京海致星图科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711346436.6/,转载请声明来源钻瓜专利网。
- 上一篇:一种复合陶瓷电容材料
- 下一篇:一种电动窗帘
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置