[发明专利]基于分布式矩阵分解特征提取的社交网络垃圾过滤方法有效

申请号：	201410332642.1	申请日：	2014-07-14
公开（公告）号：	CN104063516B	公开（公告）日：	2017-06-06
发明（设计）人：	郑相涵;陈国龙;李园园;索文平;郭文忠;於志勇	申请（专利权）人：	福州大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	福州元创专利商标代理有限公司35100	代理人：	蔡学俊
地址：	350108 福建省福州市***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于分布式矩阵分解特征提取社交网络垃圾过滤方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及网络垃圾过滤技术领域，特别涉及一种基于分布式矩阵分解特征提取的社交网络垃圾过滤方法。

背景技术

目前，社交网络已经在人们的生活中扮演着重要的角色并对人们的信息获得、思考和生活产生不可低估的影响。通过社交网络，用户可以通过聊天室进行交流，创建个人主页来分享喜爱的信息，与朋友保持更加直接的联系，创建大交际圈并可寻找失去联络的朋友们，关注查看其他人的主页和分享等。然而，社交网络中的数据具有真假并存性、海量性、快速传播性、数量无界性等。由于数据的真假并存性与海量性，导致社交网络存在有大量的不可靠内容，例如欺诈性广告、仇恨言论、虚假新闻等，这些内容缺乏实际价值，然而却可能对随后的社交数据挖掘、用户行为分析、资源推荐精度产生负面影响，在这种背景下，社交网络的垃圾过滤已经成为一个亟待解决的问题。

发明内容

本发明的目的在于提供一种基于分布式矩阵分解特征提取的社交网络垃圾过滤方法，该方法有利于高效地过滤社交网络中的垃圾数据。

为实现上述目的，本发明的技术方案是：一种基于分布式矩阵分解特征提取的社交网络垃圾过滤方法，包括以下步骤：

步骤S1：构造社交网络用户-属性矩阵；

步骤S2：基于分布式矩阵分解对所述社交网络用户-属性矩阵进行特征提取；

步骤S3：对潜在特征向量进行分类，判断是否为社交网络垃圾。

进一步的，在步骤S1中，社交网络用户-属性矩阵的构造方法如下：

假设有n个用户，m个属性，则社交网络用户-属性矩阵构造为已知社交网络中n个用户集合和m个属性集合，A_ij表示用户u_i对属性v_j的度量值，由此构造社交网络用户-属性矩阵A∈R^n×m：

所述社交网络用户-属性矩阵是稀疏矩阵。

进一步的，在步骤S2中，对所述社交网络用户-属性矩阵进行特征提取的方法如下：

假定存在用户特征矩阵W∈R^n×K 和属性特征矩阵H∈R^K×m ，其中K = {1, …, k, …, K}为特征数；则社交网络用户-属性矩阵A中的任意元素A_ij可以近似由W_iH_j得到，即A_ij≈W_iH_j，因此可得：