[发明专利]一种多视图网络垃圾页面检测方法有效

申请号：	201110424701.4	申请日：	2011-12-16
公开（公告）号：	CN102521369A	公开（公告）日：	2012-06-27
发明（设计）人：	张化祥	申请（专利权）人：	山东师范大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	济南圣达知识产权代理有限公司 37221	代理人：	张勇
地址：	250014 山***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了提供一种多视图webspam检测方法,该方法包括如下步骤：首先获取训练数据中所有正常页面和spam页面的两视图；然后获取待检测页面的两视图；对获得的两视图各自构造矩阵；求出正常范数及spam范数；比较正常范数与spam范数的大小；若正常范数小于spam范数，则待检测页面为正常页面；若正常范数大于spam范数，则待检测页面为spam页面；若两者相等，则待检测页面随机识别为正常页面或spam页面。它具有对训练数据不平衡性不敏感、可同时检测多种spam页面及检测过程简单等优点。
搜索关键词：	一种视图网络垃圾页面检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种多视图web spam检测方法，其特征是，该方法包括如下步骤：步骤1：首先获取训练数据中所有正常页面和spam页面的内容视图及链接视图；步骤2：然后获取待检测页面的内容视图及链接视图；步骤3：将步骤1中所有正常页面的内容视图及链接视图各自构造矩阵，得到正常内容矩阵和正常链接矩阵；步骤4：将步骤1中所有spam页面的内容视图及链接视图各自构造矩阵，得到spam内容矩阵及spam链接矩阵；步骤5：用待检测页面的内容视图及链接视图各自构造矩阵，得到待检测内容矩阵及待检测链接矩阵；步骤6：利用正常内容矩阵和待检测内容矩阵求解权重矩阵W‑，利用spam内容矩阵及待检测内容矩阵求解权重矩阵W+；步骤7：利用正常链接矩阵及权重矩阵W‑求解近似矩阵B1，利用spam链接矩阵及权重矩阵W+求解近似矩阵B2；步骤8：利用步骤7中的近似矩阵B1和待检测链接矩阵求解正常范数E‑，利用近似矩阵B2和待检测链接矩阵求解spam范数E+；步骤9：比较正常范数E‑与spam范数E+的大小；若正常范数小于spam范数，则待检测页面为正常页面；若正常范数大于spam范数，则待检测页面为spam页面；若两者相等，则待检测页面随机识别为正常页面或spam页面；步骤10：如果待检测页面被识别为正常页面，就被保留下来，否则将待检测页面从页面库中删除，检测结束。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于山东师范大学，未经山东师范大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201110424701.4/，转载请声明来源钻瓜专利网。

上一篇：大型双曲面板材类零件加工中的尺寸校正装置及其方法
下一篇：阀门自动钻孔、攻丝机床

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种多视图网络垃圾页面检测方法有效

专利文献下载