[发明专利]基于Web结构特征挖掘的网页类型自动识别方法在审

专利信息
申请号: 201710830492.0 申请日: 2017-09-15
公开(公告)号: CN107577783A 公开(公告)日: 2018-01-12
发明(设计)人: 于富财;汪辉;文友枥;胡光岷;费高雷 申请(专利权)人: 电子科技大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 成都宏顺专利代理事务所(普通合伙)51227 代理人: 周永宏
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 web 结构 特征 挖掘 网页 类型 自动识别 方法
【说明书】:

技术领域

发明属于网页识别技术领域,特别涉及一种基于Web结构特征挖掘的网页类型自动识别方法。

背景技术

随着科学技术的迅猛发展,互联网因包含海量的信息而成为人们汲取知识的主要场所。近年来,在国家的大力推广以及资金的大量投入下,互联网越来越得到普及了。通过互联网络发展状况统计显示的数据可以得到以下结果,中国网站数量呈增长趋势,2016年6月统计,有454万个网站,相比于2015年12月增长了7.4%。

由于网站数量的爆炸式增长,导致用户获取真正感兴趣的资源的难度急剧上升,这就是“信息过载”现象。面对纷繁复杂的网络世界,如何让人们快速、准确的得到有用的信息,将成为一个重要同时又有意义的研究方向。

面对人们的需求,搜索引擎技术及信息检索技术得到了很好的发展,为人们获取信息做出了重大贡献。因为现有的网络爬虫技术已比较完善,如何再进一步智能优化爬虫系统,必然是从网页源码获取后的模块入手。新闻、博客和论坛网站是重要信息的主要来源,文本抽取技术应用于这几类网站是有重大意义的。

而在文本抽取过程中,一般只关注有针对性的网页,譬如对新闻网页的文本抽取的前提条件是网页源码都是来自新闻网页,对论坛网页的文本抽取的前提条件是网页源码都是来自论文网页。在文本抽取过程之前,进行网页类型的自动分类对减少网站的多样性,提升网络爬虫的性能和精准率具有十分重要的意义。

自上世纪80年代网页自动分类技术才开始兴起,在此之前网页分类都是通过人工实现的,原因有二:一是技术限制;二是有人工完成的可行性。人工的网页分类的做法是通过专业人士的来判断网页的类别。由于人的主观意识,不同的人对网页的判别不同,为网页分类带来了不确定性。

该技术首先涉及的是文本分类,最早涉及文本分类这项技术的或者这个领域的公司是美国的IBM。在上世纪50年代公司人员Luhn将词频统计的思想率先用于文本的主动分类。与此同时,斯坦福大学、卡内基梅隆大学等都开始研究文本自动分类技术了,因此拥有比较成熟的分类算法,主要有:贝叶斯(Naive Bayes)、最小线性平方适配法LLSF(Linear Least Square Fit)、决策树(Decision Trees)、神经网络(Neural Networks)、K近邻(k-Nearest Neighbors)和支持向量机SVM(Support Vector Machines)。

在Web结构挖掘中的URL特征挖掘可能会带来以下问题:一是URL包含的仅仅是资源的定位信息,不包含网页的全部内容信息。二是网页包括的超链接中不是都与这个页面的内容相关的,对于分类会有负效果。网页内容的挖掘是采用纯文本分类技术,相比于结构化的文本信息,网页是一种半结构化的文档,存在很多其他信息,不仅仅是文本信息,所以采用纯文本分类技术来实现网页的分类是不可靠也是不现实的。

发明内容

本发明的目的在于克服现有技术的不足,提供一种先采用深度优先遍历搜索策略搜寻需要清除的噪声标签,然后从与网页结构息息相关的四个方面提取HTML文档的特征集,再运用机器学习中分类算法构造分类器完成网页类型的自动识别,思路简单、通用性强和准确率高的基于Web结构特征挖掘的网页类型自动识别方法。

本发明的目的是通过以下技术方案来实现的:基于Web结构特征挖掘的网页类型自动识别方法,包括以下步骤:

S1、通过爬虫系统获取网页源码集;

S2、对网页源码进行预处理;

S3、进行网页特征提取;

S4、运用机器学习中分类算法构造分类器,通过分类器完成网页类型的自动识别。

进一步地,所述步骤S2包括以下子步骤:

S21、清理噪声标签,把对目标网页类型正确自动识别有帮助的特征称为积极特征;把对目标网页类型正确自动识别无帮助的特征称为消极特征,将消极特征作为噪声标签清除;具体包括以下步骤:

S211、用JAVA的API接口将网页源码解析成DOM树;

S212、遍历DOM树的标签节点,判断当前标签是否属于待清除节点,若是则清除该标签节点并遍历下一个标签节点,否则将该标签节点添加到标签节点集中;

S22、对标签节点集中的标签信息进行预处理,对单个标签节点进行处理,获取标签节点的标签结构信息;包括以下两种情况:

一是节点中既有文本节点又有标签节点,在这种情况下,获取的文本内容是标签节点自身的文本,文本信息是从文本节点中获取;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710830492.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top