[发明专利]基于分布式矩阵分解特征提取的社交网络垃圾过滤方法有效
申请号: | 201410332642.1 | 申请日: | 2014-07-14 |
公开(公告)号: | CN104063516B | 公开(公告)日: | 2017-06-06 |
发明(设计)人: | 郑相涵;陈国龙;李园园;索文平;郭文忠;於志勇 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 福州元创专利商标代理有限公司35100 | 代理人: | 蔡学俊 |
地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分布式 矩阵 分解 特征 提取 社交 网络 垃圾 过滤 方法 | ||
技术领域
本发明涉及网络垃圾过滤技术领域,特别涉及一种基于分布式矩阵分解特征提取的社交网络垃圾过滤方法。
背景技术
目前,社交网络已经在人们的生活中扮演着重要的角色并对人们的信息获得、思考和生活产生不可低估的影响。通过社交网络,用户可以通过聊天室进行交流,创建个人主页来分享喜爱的信息,与朋友保持更加直接的联系,创建大交际圈并可寻找失去联络的朋友们,关注查看其他人的主页和分享等。然而,社交网络中的数据具有真假并存性、海量性、快速传播性、数量无界性等。由于数据的真假并存性与海量性,导致社交网络存在有大量的不可靠内容,例如欺诈性广告、仇恨言论、虚假新闻等,这些内容缺乏实际价值,然而却可能对随后的社交数据挖掘、用户行为分析、资源推荐精度产生负面影响,在这种背景下,社交网络的垃圾过滤已经成为一个亟待解决的问题。
发明内容
本发明的目的在于提供一种基于分布式矩阵分解特征提取的社交网络垃圾过滤方法,该方法有利于高效地过滤社交网络中的垃圾数据。
为实现上述目的,本发明的技术方案是:一种基于分布式矩阵分解特征提取的社交网络垃圾过滤方法,包括以下步骤:
步骤S1:构造社交网络用户-属性矩阵;
步骤S2:基于分布式矩阵分解对所述社交网络用户-属性矩阵进行特征提取;
步骤S3:对潜在特征向量进行分类,判断是否为社交网络垃圾。
进一步的,在步骤S1中,社交网络用户-属性矩阵的构造方法如下:
假设有n个用户,m个属性,则社交网络用户-属性矩阵构造为已知社交网络中n个用户集合和m个属性集合,Aij表示用户ui对属性vj的度量值,由此构造社交网络用户-属性矩阵A∈Rn×m:
所述社交网络用户-属性矩阵是稀疏矩阵。
进一步的,在步骤S2中,对所述社交网络用户-属性矩阵进行特征提取的方法如下:
假定存在用户特征矩阵W∈Rn×K 和属性特征矩阵H∈RK×m ,其中K = {1, …, k, …, K}为特征数;则社交网络用户-属性矩阵A中的任意元素Aij可以近似由WiHj得到,即Aij≈WiHj,因此可得:
采用分布式矩阵分解算法将分解问题转换为最优化问题求解,选择目标函数:
上式即为优化目标的代价函数;
对W的任一元素求导,有:
采用随机梯度下降法进行分布式矩阵分解,其迭代格式为:
其中,.*是矩阵对应元素之间的运算;
对W按行分块,对H按列分块,具体格式如下:
将H更新过程拆分为三个部分,分别为:(1)X=WTA,(2)Y=WTWH,(3);结合分块方案,通过适当的MapReduce过程求解各个部分;
同理,将W更新过程拆分为三个部分,分别为:(1)X=AHT,(2)Y=WHHT,(3);结合分块方案,通过适当的MapReduce过程求解各个部分。
进一步的,通过MapReduce过程求解H更新过程各个部分的方法如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410332642.1/2.html,转载请声明来源钻瓜专利网。