[发明专利]基于最邻近标签传播算法的图像型垃圾邮件检测方法有效

申请号：	201310001117.7	申请日：	2013-01-05
公开（公告）号：	CN103150574A	公开（公告）日：	2013-06-12
发明（设计）人：	张卫丰;钱小燕;周国强;张迎周;王子元;周国富;许碧欢;陆柳敏	申请（专利权）人：	南京邮电大学
主分类号：	G06K9/62	分类号：	G06K9/62;H04L12/58
代理公司：	南京经纬专利商标代理有限公司 32200	代理人：	叶连生
地址：	210003 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	为了提高图像型垃圾邮件检测的精度和召回率，节省检测图像型垃圾邮件的时间，导致需要一个高效率的检测图像型垃圾邮件的方法。本发明的目的是提供一种利用基于最邻近的标签传播算法检测图像型垃圾邮件的方法。通过提取图片的加速鲁棒性特征描述符，确保了图片的旋转和尺度不变性；通过获取图片聚类中心点信息，再按照该信息均值聚类图片加速鲁棒性特征描述符，确保了所有图片聚类后的信息具有可比性；通过利用基于最邻近的标签传播，选择与每个图像相似度最接近的K（K=已知类别的图像数+测试的图像数/10，表示表示选取与图像相似度最相近的图像幅数）个图像的标签进行传播，提高了标签的传播速率，节省了检测图像型垃圾邮件的时间。
搜索关键词：	基于邻近标签传播算法图像垃圾邮件检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种利用基于最邻近标签传播算法检测图像型垃圾邮件的方法，其特征在于该方法包含的步骤为：步骤1）训练已知类别数据集，获取聚类中心点信息，其中类别分为正常图片和垃圾图片：步骤1.1）输入已知类别数据集中的正常图片和垃圾图片；步骤1.2）提取每幅图片的加速鲁棒性特征描述符信息：步骤1.2.1）获取输入的图片；步骤1.2.2）获取输入图片的积分图片；步骤1.2.3）获取积分图片的像素点；步骤1.2.4）输入图片的第一个像素点；步骤1.2.5）判断图片该像素点是否存在，如果存在，转步骤1.2.6），否则，转步骤1.2.14）；步骤1.2.6）计算该像素点的海森矩阵及行列式值；步骤1.2.7）判断该点是否是极值点，如果是，转步骤1.2.8），否则，转步骤1.2.13）；步骤1.2.8）确认该极值点为加速鲁棒性特征点；步骤1.2.9）获取该特征点在原始图片中的位置、尺度信息；步骤1.2.10）获取该特征点在原始图片中的主方向；步骤1.2.11）根据该特征点的位置、尺度、主方向信息，计算该特征点的加速鲁棒性特征描述符；其中，加速鲁棒性特征描述符采用64维描述向量存储；步骤1.2.12）输入图片下一个像素点，转步骤1.2.5）；步骤1.2.13）系统自动舍弃该点，转步骤1.2.12）；步骤1.2.14）输出图片的所有加速鲁棒性特征点描述符信息；步骤1.3）随机初始化聚类中心点，根据均值聚类算法，同时聚类已知类别数据集中所有图片的加速鲁棒性特征描述符：步骤1.3.1）获取需要聚类的所有加速鲁棒性特征点描述符信息；步骤1.3.2）获取聚类中心点的个数；步骤1.3.3）输入第一个加速鲁棒性特征点信息；步骤1.3.4）判断该加速鲁棒性特征点是否存在，如果存在，转步骤1.3.5），否则，转步骤1.3.9）；步骤1.3.5）分别计算该加速鲁棒性特征点到所有聚类中心点的距离；步骤1.3.6）选择最短距离，获取与最短距离相应的聚类中心信息；步骤1.3.7）将该加速鲁棒性特征点聚类到该聚类中心中；步骤1.3.8）输入下一个加速鲁棒性特征点，转步骤1.3.5）；步骤1.3.9）总结每个聚类中心中的加速鲁棒性特征点描述符信息；步骤1.3.10）更新所有聚类中心点信息：将每个聚类中心中的加速鲁棒性特征点描述符信息求和再取平均；步骤1.3.11）输出聚类后的所有的加速鲁棒性特征描述符信息；步骤1.4）输出所有的聚类中心点信息，即聚类后的所有的加速鲁棒性特征描述符信息；步骤2）训练已知类别数据集和测试数据集，获取每幅图片均值聚类后的加速鲁棒性特征描述符信息：步骤2.1）输入已知类别数据集中的正常图片和垃圾图片、测试数据集中的测试图片；步骤2.2）标签图片：若输入的图片属于正常图片数据集，则标签为0，若输入的图片属于垃圾图片数据集，则标签为1，若输入的图片属于测试图片数据集，则默认为垃圾图片，标签为1；步骤2.3）提取每幅图片的加速鲁棒性特征描述符信息，具体提取方法采用步骤1.2）中的步骤1.2.1）至步骤1.2.14）；步骤2.4）获取聚类中心点信息，具体获取方法采用步骤1）中的步骤1.1）至步骤1.4）；步骤2.5）根据聚类中心点信息，使用均值聚类算法，聚类每幅图片的加速鲁棒性特征描述符，具体聚类方法采用步骤1.3.1）至步骤1.3.11）；步骤2.6）输出每幅图片均值聚类后的加速鲁棒性特征描述符信息；步骤3）基于最邻近的标签传播算法分类图片：步骤3.1）获取所有图片聚类后的加速鲁棒性特征描述符信息；其中，所有图片包括已知类别数据集中的图片和测试数据集中的图片；步骤3.2）初始化已知类别数据集标签矩阵Y_lc：其中，y_ij表示类别数据集标签矩阵Y_lc的第i行第j列的元素值；l表示已知类别数据集中的图片数；c＝2，表示分类的类别数，共两类，分为正常图片类别（j=0）和垃圾图片类别（j=1）；步骤3.3）初始化标签概率分布矩阵LP_nc：lpij=yij0≤i<l01≤i<n,j=0,0≤i<n,0≤j<c11≤i<n,j=1---(2)]]>其中，lp_ij表示标签概率分布矩阵LP_nc的第i行第j列的元素值；n表示已知类别数据集和测试数据集中的所有图片数；c=2，表示分类的类别数；y_ij计算过程见公式（1）；步骤3.4）根据图片的加速鲁棒性特征描述符，计算图片之间的相似度W_nn：wij=1i=j1Σh=164×m(fih-fjh)2i≠j,0≤i<n,0≤j<n---(3)]]>其中，w_ij表示相似度矩阵W_nn的第i行第j列的元素值；n表示已知类别数据集和测试数据集中的所有图片数；f_ih表示第i张图片的第h个加速鲁棒性特征描述符信息，具体提取过程采用步骤2）的步骤2.1）至步骤2.6）；步骤3.5）根据相似度矩阵W_nn，计算图片之间的相似度排列矩阵：其中，表示相似度排列矩阵的第i行第j列的元素值；n表示已知类别数据集和测试数据集中的所有图片数；W_nn是相似度矩阵，w_ij表示第i幅图片与第j幅图片之间的相似度，计算过程为公式（3）；步骤3.6）根据相似度排列矩阵，计算图片之间的相似度K排列矩阵P_nn：pij=0pij′≠1|2|...|K1pij′=1|2|...|K,0≤i<n,0≤j<n---(5)]]>其中，P_ij表示相似度K排列矩阵P_nn的第i行第j列的元素值；n表示已知类别数据集和测试数据集中的所有图片数；表示第i幅图片与第j幅图片之间的相似度排列位置，计算过程见公式（4）；K=已知类别的图像数+测试的图像数/10，表示表示选取与图像相似度最相近的图像幅数；步骤3.7）根据相似度矩阵W_nn，计算图片之间的传播概率矩阵T_nn：tij=wijΣh=1nwih,0≤i<n,0≤j<n---(6)]]>其中，t_ij表示传播概率矩阵T_nn的第i行第j列的元素值；n表示已知类别数据集和测试数据集中的所有图片数；w_ij表示第i幅图片与第j幅图片之间的相似度，计算过程见公式（3）；步骤3.8）将每张图片视为一个节点，生成带权完全连接图；步骤3.9）根据每个节点的标签，进行标签传播：步骤3.9.1）根据相似度排列矩阵，确定每个节点最邻近的节点个数；步骤3.9.2）生成最邻近图；步骤3.9.3）更新标签概率分布矩阵LP_nc：lpij=Σh=1ntihpihlphj,0≤i<n,0≤j<c---(7)]]>其中，lp_ij表示标签概率分布矩阵LP_nc的第i行第j列的元素值；n表示已知类别数据集和测试数据集中的所有图片数；c＝2，表示分类的类别数；t_ij表示第i幅图片与第j幅图片之间的传播概率，计算过程为公式（6）；p_ij表示第i幅图片与第j幅图片之间的相似度的排列位置是否属于前K个，计算过程为公式（5），K=已知类别的图像数+测试的图像数/10，表示表示选取与图像相似度最相近的图像幅数；步骤3.9.4）限制已知类别数据，再次更新标签概率分布矩阵LP_nc：lpij=yij0≤i<llpijl≤i<n,0≤i<n,0≤j<c---(8)]]>其中，lp_ij表示标签概率分布矩阵LP_nc的第i行第j列的元素值；n表示已知类别数据集和测试数据集中的所有图片数；c＝2，表示分类的类别数；y_ij表示第i幅图片是否属于类别j，计算过程见公式（1）；步骤3.9.5）判断标签概率分布矩阵是否收敛，如果收敛，转步骤3.9.6），否则，转步骤3.9.3）；步骤3.9.6）根据标签概率分布矩阵，输出测试图片的标签；步骤4）根据测试图片的标签，将测试图片进行正常图片与垃圾图片分类。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京邮电大学，未经南京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201310001117.7/，转载请声明来源钻瓜专利网。

上一篇：无刷电机转子装置
下一篇：永磁电机转子及磁钢防护结构加工装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于最邻近标签传播算法的图像型垃圾邮件检测方法有效

专利文献下载