[发明专利]基于动态贝叶斯模型的网页垃圾检测方法有效

申请号：	201110200276.0	申请日：	2011-07-18
公开（公告）号：	CN102243659A	公开（公告）日：	2011-11-16
发明（设计）人：	张卫丰;常成成;田先桃;张迎周;周国强;许碧欢;陆柳敏	申请（专利权）人：	南京邮电大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	南京经纬专利商标代理有限公司 32200	代理人：	叶连生
地址：	210003 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于动态贝叶斯模型网页垃圾检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种作弊网页检测的方法，主要采用一种改进的动态贝叶斯网络模型为用户点击行为建模，对作弊网页进行判断和识别，属于信息安全领域。

背景技术

搜索引擎是通向当今互联网的一座桥梁，是网民在海量的网页中找到自己感兴趣信息的工具。由于网络存在巨大的用户流量，这为广告提供了一个巨大的潜在市场。而网络广告高达3％以上的点击率可以使得这种潜在对象转变为现实的广告目标对象，进而导致直接或者间接的商品购买行为。相对于传统广告，这类广告的费用相对较低。于是，一大批急于打开市场而又苦于无法提供巨额广告费的中小厂商便成了网络广告的第一批客户。而大量研究结果显示，用户在使用搜索引擎时只会浏览前几页的返回结果[1，2，3]，对于商业网站而言，就某些查询占据靠前的排序，会给网站带来流量的大幅增加，流量的变大意味着更多的交易。

因为强大的利润诱惑，搜索引擎优化行业犹如雨后春笋般在快速地发展。搜索引擎优化，是针对搜索引擎对网页的检索特点，让网站建设各项基本要素适合搜索引擎的检索原则，从而使搜索引擎收录尽可能多的网页，并在搜索引擎自然检索结果中排名靠前，最终达到网站推广的目的。追求高排名是搜索引擎优化师们的目标。通过了解各类搜索引擎如何抓取互联网页面、如何进行索引以及如何确定其对某一特定关键词的搜索结果排名等技术，来对网页内容进行相关的优化，使其符合用户浏览习惯，提高网站访问量，最终提升网站的销售能力或宣传能力。商业网站都希望通过各种形式来干扰搜索引擎的排序，当中尤以各种依靠广告为生的网站为甚。然而，短期内大幅提高网站排名是一件困难的事情，一个页面一般需要经过长期的发展过程，才能变得“知名”。因而目前搜索引擎优化技术被很多目光短浅的人，用一些搜索引擎优化作弊的不正当手段，牺牲用户体验，一味迎合搜索引擎的缺陷来提高排名，这种搜索引擎优化方法是不可取的，最终也会受到用户的唾弃。

在建立网站或设计网页时使用一些不道德的方法来操控搜索引擎的排名算法，让自己的网页获得较高排名，这种做法就是搜索引擎作弊。这样的网页就叫做网页垃圾。

[1]Craig Silverstein，Hannes Marais，Monika Henzinger，and Michael Moricz.Analysis of a Very Large Web Search Engine Query Log.SIGIR Forum，33(1)：6-12，1999.

[2]Allan Borodin，Gareth O.Roberts，Jerrey S.Rosenthal，and Panayiotis Tsaparas.Link Analysis Ranking：Algorithms，Theory，and Experiments.ACM Trans.Inter.Tech.，5(1)：231-297，2005.

[3]Bernard J Jansen and Amanda Spink.An Analysis of Web Documents Retrieved and Viewed.In The 4th International Conference on Internet Computing，pages 65-69.Las Vegas，Nevada，2003.

发明内容

技术问题：本发明的目的是提供一种基于动态贝叶斯的垃圾网页检测方法，解决传统的动态贝叶斯模型存在以下几点缺点：

1、全部信息需求总能在某一个网址对应的网页就能满足，然后结束本次会话。但从实际的用户搜索经验就可以知道，尤其是在信息类型的查询中，用户点击了某个网址后可能只满足了部分的需要，然后继续往下查找。

2、如果上一个网址的摘要没有被查看，下一个网址的摘要就不会被查看，这也与实际情况不符。

本发明是一种改进的动态贝叶斯模型，其更符合搜索引擎用户的行为习惯。

技术方案：本发明的基于动态贝叶斯模型的网页垃圾检测方法分为三大部分：

一.日志分析

步骤11)收集网页点击日志；

步骤12)对日志内容进行分析，提取其中的用户身份标识号码、查询词、结果排名、是否被点击、网址等信息；

步骤13)按照每个查询词下所有的用户身份标识号码的个数进行降序排列，编号为0，1，2……；

步骤14)对于每个查询词，以其对应的网址编号和是否被点击建立会话文件，

二.采用期望最大化算法计算吸引度a_u和满意度s_u