[发明专利]一种抽取网页半结构化数据的方法在审

申请号：	201810953361.6	申请日：	2018-08-21
公开（公告）号：	CN109657114A	公开（公告）日：	2019-04-19
发明（设计）人：	张露晨;唐积强;马秀娟;徐小磊;苏沐冉;李传海;吴震;王石	申请（专利权）人：	国家计算机网络与信息安全管理中心;中科国力（镇江）智能技术有限公司
主分类号：	G06F16/951	分类号：	G06F16/951;G06F16/9535;G06F16/81
代理公司：	南京知识律师事务所 32207	代理人：	高娇阳
地址：	100020***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种抽取网页半结构化数据的方法，包括：从web站点爬取页面；人工定制化爬取目标页的url；配置一类网站的关键词词根；对类似的网页进行分析，根据case1，case2，case3进行分类判别，并对复杂的嵌套情况加以处理，抽取出网页模板。通过指定的url选出同类(栏目)url，同栏目url对应的html文本结构相似，遍历所有html节点，通过节点间的联系或节点本身，发现对应关键词的模板。从一个网站的所有子url中，找出和人工给定的相似的url。把目标格式分为case1，case2，case3，三种情况，对每一种情况分别进行处理，生成网页模板。
搜索关键词：	结构化数据网页模板网页网站抽取词根嵌套目标格式文本结构定制化目标页子url 遍历页面取出分类配置分析发现
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种抽取网页半结构化数据的方法，其特征在于，包括以下内容：下面给出描述中所需的一些定义：半结构化数据在网页中存在的形式是key‑value对应的形式，通常存在3种对应的情况：Case1情况：key节点，value节点同在一个父节点下Case2情况：key、value同在一个节点下<div>key1:value1key2:value2</div>Case3情况：key节点在同一个父节点下，value节点在同一个父节点下，同时key节点的父节点和value节点的父节点同在一个父节点下Key节点：key所在的节点Value节点：value所在的节点；一、首先需要人工的两个步骤：①给定一个网站所有页面中，需要进行分析的目标页面的一个url；②维护一个想抽取的词的词根，用来过滤html中的文字节点，选出其中的key节点；二、一类网站只需要配置一组关键词，每个网站需要指定各自的目标分析页面的url；1、首先需要根据指定的url选出一个网站的同栏目下的网页，分析爬取的所有url，以“？”，“&”，“/”，“＝”为分隔符切分所有的url，统计所有url分片出现的次数；修改指定目标页的url，以上4个分隔符对url进行切割，高频部分不变，低频部分变为可标记符号，以修改后的url为模板可以选出同类(栏目)的url和url对应的html文本；2、html文本清洗2.1、由于语法规则的限制，在html中转义了部分字符串；首先反转义这些字符，反转列表如下所示：html编码为“&nbsp”，原字符为“空格”；html编码为“&amp”，原字符为“&”；html编码为“&lt”，原字符为“<”；html编码为“&gt”，原字符为“>”；2.2、Html的部分标签包含和数据无关的大量的其他内容，在进行数据抽取的时候预先过滤掉这些和数据无关的标签；删掉的标签为“script”，标签的含义为“通常用于页面控制，与数据无关”；删掉的标签为“style”，标签的含义为“影响页面布局，无关数据”；删掉的标签为“br”，标签的含义为“空白符，等效于换行符”；删掉的标签为“img”，标签的含义为“图片节点”；删掉的标签为“input”，标签的含义为“输入框，例如用户名框，密码框”；删掉的标签为“button”，标签的含义为“按钮”；2.3、在html孤立的文字节点上下文加入自定义的标签，以区别现有的html标签；html文本中的某些字段节点没有标签，添加自定义标签之后，可以通过自定义标签选出这些文字节点；3、解析html文本从预处理之后的页面选出4至5个进行分析；以所有html标签为分隔符，切分整篇html文本，寻找case1情况和case3情况的key节点，寻找节点遵循以下规则：节点包含关键词词根、不包含任何数字、除去首尾位置，其余位置不包含标点符号、长度在2‑10个字符之间、包含该字面值的节点没有href属性；所有符合特征的字符串放入List<String>Keyword中；使用Htmlcleaner解析器对html源码进行分析；Xpath语言用在标记xml路径中，预处理之后的html文档和XML格式一致，此时使用xpath来定位html节点位置；使用htmlcleaner对html文档进行解析，遍历每一个节点，并放入一个Map<String,List<String>>map_xpath_reverse中；该map集合key为每个节点的xpath路径，value为在4至5个文档中，该xpath对应的节点字面值的集合；字面值在加入到集合前进行预处理操作：把所有的中文空格变为英文空格，把所有连续的空白符变成一个英文空格，去掉首尾的空格。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;中科国力（镇江）智能技术有限公司，未经国家计算机网络与信息安全管理中心;中科国力（镇江）智能技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810953361.6/，转载请声明来源钻瓜专利网。

上一篇：合同文档的分拣方法、系统、计算机设备及其存储介质
下一篇：爬取数据自修复方法、装置、设备及介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种抽取网页半结构化数据的方法在审

专利文献下载