[发明专利]一种抽取网页半结构化数据的方法在审

专利信息
申请号: 201810953361.6 申请日: 2018-08-21
公开(公告)号: CN109657114A 公开(公告)日: 2019-04-19
发明(设计)人: 张露晨;唐积强;马秀娟;徐小磊;苏沐冉;李传海;吴震;王石 申请(专利权)人: 国家计算机网络与信息安全管理中心;中科国力(镇江)智能技术有限公司
主分类号: G06F16/951 分类号: G06F16/951;G06F16/9535;G06F16/81
代理公司: 南京知识律师事务所 32207 代理人: 高娇阳
地址: 100020*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种抽取网页半结构化数据的方法,包括:从web站点爬取页面;人工定制化爬取目标页的url;配置一类网站的关键词词根;对类似的网页进行分析,根据case1,case2,case3进行分类判别,并对复杂的嵌套情况加以处理,抽取出网页模板。通过指定的url选出同类(栏目)url,同栏目url对应的html文本结构相似,遍历所有html节点,通过节点间的联系或节点本身,发现对应关键词的模板。从一个网站的所有子url中,找出和人工给定的相似的url。把目标格式分为case1,case2,case3,三种情况,对每一种情况分别进行处理,生成网页模板。
搜索关键词: 结构化数据 网页模板 网页 网站 抽取 词根 嵌套 目标格式 文本结构 定制化 目标页 子url 遍历 页面 取出 分类 配置 分析 发现
【主权项】:
1.一种抽取网页半结构化数据的方法,其特征在于,包括以下内容:下面给出描述中所需的一些定义:半结构化数据在网页中存在的形式是key‑value对应的形式,通常存在3种对应的情况:Case1情况:key节点,value节点同在一个父节点下Case2情况:key、value同在一个节点下<div>key1:value1key2:value2</div>Case3情况:key节点在同一个父节点下,value节点在同一个父节点下,同时key节点的父节点和value节点的父节点同在一个父节点下Key节点:key所在的节点Value节点:value所在的节点;一、首先需要人工的两个步骤:①给定一个网站所有页面中,需要进行分析的目标页面的一个url;②维护一个想抽取的词的词根,用来过滤html中的文字节点,选出其中的key节点;二、一类网站只需要配置一组关键词,每个网站需要指定各自的目标分析页面的url;1、首先需要根据指定的url选出一个网站的同栏目下的网页,分析爬取的所有url,以“?”,“&”,“/”,“=”为分隔符切分所有的url,统计所有url分片出现的次数;修改指定目标页的url,以上4个分隔符对url进行切割,高频部分不变,低频部分变为可标记符号,以修改后的url为模板可以选出同类(栏目)的url和url对应的html文本;2、html文本清洗2.1、由于语法规则的限制,在html中转义了部分字符串;首先反转义这些字符,反转列表如下所示:html编码为“&nbsp”,原字符为“空格”;html编码为“&amp”,原字符为“&”;html编码为“&lt”,原字符为“<”;html编码为“&gt”,原字符为“>”;2.2、Html的部分标签包含和数据无关的大量的其他内容,在进行数据抽取的时候预先过滤掉这些和数据无关的标签;删掉的标签为“script”,标签的含义为“通常用于页面控制,与数据无关”;删掉的标签为“style”,标签的含义为“影响页面布局,无关数据”;删掉的标签为“br”,标签的含义为“空白符,等效于换行符”;删掉的标签为“img”,标签的含义为“图片节点”;删掉的标签为“input”,标签的含义为“输入框,例如用户名框,密码框”;删掉的标签为“button”,标签的含义为“按钮”;2.3、在html孤立的文字节点上下文加入自定义的标签,以区别现有的html标签;html文本中的某些字段节点没有标签,添加自定义标签之后,可以通过自定义标签选出这些文字节点;3、解析html文本从预处理之后的页面选出4至5个进行分析;以所有html标签为分隔符,切分整篇html文本,寻找case1情况和case3情况的key节点,寻找节点遵循以下规则:节点包含关键词词根、不包含任何数字、除去首尾位置,其余位置不包含标点符号、长度在2‑10个字符之间、包含该字面值的节点没有href属性;所有符合特征的字符串放入List<String>Keyword中;使用Htmlcleaner解析器对html源码进行分析;Xpath语言用在标记xml路径中,预处理之后的html文档和XML格式一致,此时使用xpath来定位html节点位置;使用htmlcleaner对html文档进行解析,遍历每一个节点,并放入一个Map<String,List<String>>map_xpath_reverse中;该map集合key为每个节点的xpath路径,value为在4至5个文档中,该xpath对应的节点字面值的集合;字面值在加入到集合前进行预处理操作:把所有的中文空格变为英文空格,把所有连续的空白符变成一个英文空格,去掉首尾的空格。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;中科国力(镇江)智能技术有限公司,未经国家计算机网络与信息安全管理中心;中科国力(镇江)智能技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810953361.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top