[发明专利]基于程序切片技术的网页过滤方法有效
申请号: | 201410175921.1 | 申请日: | 2014-04-28 |
公开(公告)号: | CN103970845B | 公开(公告)日: | 2017-03-22 |
发明(设计)人: | 张迎周;孙健;仉雪玲;孙韦翠;高海燕;陈栋;王子元;嵇宇 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F9/44 |
代理公司: | 南京经纬专利商标代理有限公司32200 | 代理人: | 叶连生 |
地址: | 210023 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 程序 切片 技术 网页 过滤 方法 | ||
技术领域
本发明给出了一种基于程序切片技术的网页过滤的设计方案,主要解决对网页中不良信息的过滤问题,属于信息安全领域。
背景技术
互联网作为一个开放和使用信息资源的全球性网络,已经和正在对世界各国的经济、政治、文化、科技、军事等各个领域产生重大影响,使人们的生活方式发生深刻变化。互联网的开放性、互连性以及使用的高自由性、信息来源的不可控性等,使得网络内容安全对社会的潜在威胁和危害是不可估量的。随着互联网的迅速普及,“网络垃圾”已经开始侵入我们的生活;黑客也开始利用互联网进行恶意代码、犯罪软件的感染和传播,从中获取利益;不法分子更是利用互联网作为渗透我们国家的秘密通道。因此,如何有效地过滤这些非法数据,如何更有针对性地提取网页内容,如何更加准确快捷地帮助用户寻找其感兴趣的信息,日益成为网络安全领域的一个热点问题。
以跨平台、可扩展、结构化等为特点的XML语言(可扩展标记语言)推出已经有几年的时间了,但据统计,互联网上信息的载体大部分还是以HTML(超文本标记语言)网页为主的。因此,对网页信息的处理,尤其是对HTML网页信息的处理已经成为互联网信息处理的重点,并由此产生了一些与互联网信息处理有关的研究领域,如:网页的检索、网页分类、网页信息抽取、网页摘要和新词预测等。这些领域几乎都是在网页正文信息的基础之上建立的,网页正文信息抽取的质量和性能会直接影响到它们的处理结果和性能,因此网页信息的过滤与抽取对互联网信息处理来说是一个重要的基础性的工作和研究课题。
程序切片是一种重要的程序分析和理解技术,对程序进行切片的过程就是删除无关代码的过程,程序切片技术在程序调试、回归测试、软件维护、程序理解以及逆向工程等方面有着广泛的应用。本专利将程序切片思想与网页过滤技术相结合,一方面拓展了程序切片技术的应用领域,另一方面充分利用程序切片结果,优化网页过滤方法。
参考文献:
[1]苏小鲁,郭文明.基于DOM的HTML网页正文信息抽取模块的设计和实现.北京邮电大学硕士研究生学位论文,2011.
[2]张迎周,徐宝文.一种新型形式化程序切片方法.中国科学E辑:信息科学,2008,38(2):161-176.
发明内容
技术问题:本发明的目的是提出一种基于程序切片技术的网页过滤方法。该方案从HTML文件中标签、元素以及嵌套在里面的JavaScript之间的依赖关系出发,对依赖关系进行分析,构建一个多层次的切片方法来对HTML中各个标签、元素以及嵌套的JavaScript的进行切片处理。针对现有的传统切片在面向脚本语言切片功能的匮乏以及在的类似于JavaScript这种面向对象语言存在的效率和准确率上的技术瓶颈,本发明着手于客户端脚本语言HTML里面标签、元素以及嵌套在HTML中的JavaScript之间的依赖关系,结合程序切片技术,提出一种网页过滤的方法。
技术方案:本发明提出了一种基于程序切片技术的网页过滤方法,包括对HTML标签和内容进行切片处理、嵌套在HTML中的JavaScript进行切片处理,进而达到对客户端网页内容的过滤。
在本发明中,所有的功能模块都是基于程序切片技术的。在网页过滤方法设计中,我们设计利用多钟不同的切片思想,首先针对客户端脚本源代码中的HTML文件中的标签和元素进行构造依赖关系的构造,而后在嵌套在HTML中的面向对象语言JavaScript中对象级、方法级以及语句级等等层次进行依赖图的构建。然后对这些依赖关系,我们采取逐步求精算法来分层计算JavaScript的切片。
目前的程序切片技术主要集中在处理面向过程和面向对象的语言,而网页过滤方法采用的是基于对象的语言(JavaScript),因此需要对基于对象语言的程序切片方法开展相关研究在网页检测过程中通过浏览器内核解析网页源代码并提取出源代码,以此作为网页检测的依据,具体实现步骤为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410175921.1/2.html,转载请声明来源钻瓜专利网。