[发明专利]一种抽取网页半结构化数据的方法在审
申请号: | 201810953361.6 | 申请日: | 2018-08-21 |
公开(公告)号: | CN109657114A | 公开(公告)日: | 2019-04-19 |
发明(设计)人: | 张露晨;唐积强;马秀娟;徐小磊;苏沐冉;李传海;吴震;王石 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心;中科国力(镇江)智能技术有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9535;G06F16/81 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 高娇阳 |
地址: | 100020*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种抽取网页半结构化数据的方法,包括:从web站点爬取页面;人工定制化爬取目标页的url;配置一类网站的关键词词根;对类似的网页进行分析,根据case1,case2,case3进行分类判别,并对复杂的嵌套情况加以处理,抽取出网页模板。通过指定的url选出同类(栏目)url,同栏目url对应的html文本结构相似,遍历所有html节点,通过节点间的联系或节点本身,发现对应关键词的模板。从一个网站的所有子url中,找出和人工给定的相似的url。把目标格式分为case1,case2,case3,三种情况,对每一种情况分别进行处理,生成网页模板。 | ||
搜索关键词: | 结构化数据 网页模板 网页 网站 抽取 词根 嵌套 目标格式 文本结构 定制化 目标页 子url 遍历 页面 取出 分类 配置 分析 发现 | ||
【主权项】:
1.一种抽取网页半结构化数据的方法,其特征在于,包括以下内容:下面给出描述中所需的一些定义:半结构化数据在网页中存在的形式是key‑value对应的形式,通常存在3种对应的情况:Case1情况:key节点,value节点同在一个父节点下Case2情况:key、value同在一个节点下<div>key1:value1key2:value2</div>Case3情况:key节点在同一个父节点下,value节点在同一个父节点下,同时key节点的父节点和value节点的父节点同在一个父节点下Key节点:key所在的节点Value节点:value所在的节点;一、首先需要人工的两个步骤:①给定一个网站所有页面中,需要进行分析的目标页面的一个url;②维护一个想抽取的词的词根,用来过滤html中的文字节点,选出其中的key节点;二、一类网站只需要配置一组关键词,每个网站需要指定各自的目标分析页面的url;1、首先需要根据指定的url选出一个网站的同栏目下的网页,分析爬取的所有url,以“?”,“&”,“/”,“=”为分隔符切分所有的url,统计所有url分片出现的次数;修改指定目标页的url,以上4个分隔符对url进行切割,高频部分不变,低频部分变为可标记符号,以修改后的url为模板可以选出同类(栏目)的url和url对应的html文本;2、html文本清洗2.1、由于语法规则的限制,在html中转义了部分字符串;首先反转义这些字符,反转列表如下所示:html编码为“ ”,原字符为“空格”;html编码为“&”,原字符为“&”;html编码为“<”,原字符为“<”;html编码为“>”,原字符为“>”;2.2、Html的部分标签包含和数据无关的大量的其他内容,在进行数据抽取的时候预先过滤掉这些和数据无关的标签;删掉的标签为“script”,标签的含义为“通常用于页面控制,与数据无关”;删掉的标签为“style”,标签的含义为“影响页面布局,无关数据”;删掉的标签为“br”,标签的含义为“空白符,等效于换行符”;删掉的标签为“img”,标签的含义为“图片节点”;删掉的标签为“input”,标签的含义为“输入框,例如用户名框,密码框”;删掉的标签为“button”,标签的含义为“按钮”;2.3、在html孤立的文字节点上下文加入自定义的标签,以区别现有的html标签;html文本中的某些字段节点没有标签,添加自定义标签之后,可以通过自定义标签选出这些文字节点;3、解析html文本从预处理之后的页面选出4至5个进行分析;以所有html标签为分隔符,切分整篇html文本,寻找case1情况和case3情况的key节点,寻找节点遵循以下规则:节点包含关键词词根、不包含任何数字、除去首尾位置,其余位置不包含标点符号、长度在2‑10个字符之间、包含该字面值的节点没有href属性;所有符合特征的字符串放入List<String>Keyword中;使用Htmlcleaner解析器对html源码进行分析;Xpath语言用在标记xml路径中,预处理之后的html文档和XML格式一致,此时使用xpath来定位html节点位置;使用htmlcleaner对html文档进行解析,遍历每一个节点,并放入一个Map<String,List<String>>map_xpath_reverse中;该map集合key为每个节点的xpath路径,value为在4至5个文档中,该xpath对应的节点字面值的集合;字面值在加入到集合前进行预处理操作:把所有的中文空格变为英文空格,把所有连续的空白符变成一个英文空格,去掉首尾的空格。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;中科国力(镇江)智能技术有限公司,未经国家计算机网络与信息安全管理中心;中科国力(镇江)智能技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810953361.6/,转载请声明来源钻瓜专利网。