[发明专利]一种基于多特征融合的社交平台用户信息的分析方法在审

专利信息
申请号: 201810428598.2 申请日: 2018-05-07
公开(公告)号: CN108710609A 公开(公告)日: 2018-10-26
发明(设计)人: 柴一帆;岳文静;陈志;狄小娟;魏梦冶;骆威奇 申请(专利权)人: 南京邮电大学
主分类号: G06F17/27 分类号: G06F17/27;G06F17/30;G06K9/62
代理公司: 南京瑞弘专利商标事务所(普通合伙) 32249 代理人: 沈廉
地址: 江苏省南京*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开一种基于多特征融合的社交平台用户信息的分析方法,解决了目前社交网络的用户信息分析主要集中在用户的行为数据,而没有充分挖掘用户在社交网络内发表的文本内容这一问题。本发明首先用社交网络平台上的应用编程接口获取用户行为数据和文本内容数据,然后对行为数据进行处理,剔除缺失的无效用户,对行为数据进行量化,得到用户的行为统计数据,接着对用户发表的文本内容进行分词以及词频统计,对不同的词进行权重调整,最后利用主成分分析简化所得数据,应用线性回归和决策树算法,对用户的性别、年龄、性格成分进行预测。本发明通过结合用户在社交网络平台上的行为数据和发表的文本内容,在性别、年龄、性格成分的预测上拥有很好的准确性。
搜索关键词: 社交网络 行为数据 文本内容 用户信息 多特征融合 社交平台 文本内容数据 应用编程接口 用户行为数据 决策树算法 主成分分析 词频统计 权重调整 无效用户 行为统计 应用线性 分析 预测 分词 剔除 量化 挖掘 回归
【主权项】:
1.一种基于多特征融合的社交平台用户信息的分析方法,其特征在于,该方法包括以下步骤:步骤1)选用关于授权的开放网络标准OAthu,通过相关应用程序编程接口获取社交平台用户的数据;步骤2)对获取到的社交平台用户数据,剔除其中数据缺失的无效用户,从用户状态、用户日志、用户相册、用户好友、用户分享多维度计算获取用户的行为统计数据和文本统计数据;步骤3)对获取到的文本统计数据,用开源的汉语词法分析系统ICTCLAS将用户的所有文本内容进行分词;根据词语的状态、根目录状态、博客标题、博客主体、照片捕捉这五种不同来源对应的不同权值,对词语的权重进行调整;将同一个词语的所有权值累加,对停用词进行剔除,采用信息检索与数据挖掘加权技术TF‑IDF,对每个词对应的权重值再次进行修正,得到最终的分词结果;步骤4)采用现在流行的分布式系统基础架构对步骤3)中的分词结果进行词频统计,对每个用户下的相同的词语进行权重的累加,将所得的数据缩减,并对这些数据根据权重进行排序处理,对于出现频次较高的无意义停用词进行剔除,用TF‑IDF技术对权重进行修订,得到最终的文本统计数据;步骤5)将步骤2)得到的行为统计数据与步骤4)得到的文本统计数据进行合并,得到一个以用户为行、以具体词语与行为数据为列的稀疏矩阵,记该稀疏矩阵为X,用户个数为m,词语个数为n,则该矩阵X表示为采用主成分分析法简化获得的数据,得到简化的矩阵Y;步骤6)利用步骤5)中简化的矩阵Y对用户的资料及性格成分进行预测,对于需要输出具体类别的预测,采用一种新版本的决策树算法CART,引入基尼系数Gini指标算法作为分裂属性,Gini指标的定义为:所述k指类别数,所述r指类别总数,r在数值上和步骤5)中n相同,所述pk指类别k在数据集D中所占得比例)输入主成分分析法的输出矩阵,将数据随机分成四份,其中三份用于模型的训练,另外一份作为检验集进行模型有效性的验证;步骤7)对需要输出具体数值的预测,采用线性回归算法,用户的年龄y和步骤6)中经过主成分分析法得到的500个主要成分(x1,x2,……x500)存在线性关系,用方程表示为:y(x)=w0+w1x1+w2x2+……+w500x500所述w为权重,根据这些训练数据确定w,引入代价函数,其定义为:所述m为用户个数,y(x(i))指预测到的年龄,y(i)指实际年龄,wg指第g个权重,参数w0,w1,…,w500的确定过程采用梯度下降法,给定一个更新步长s,以权重w0为例,每次更新的大小为所述w为权重,m为用户个数,y(x(i))指预测到的年龄,y(i)指实际年龄,s为设置步长,在经过若干迭代之后得到最优权重,将检验集中的数据依次输入模型,得到预测结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810428598.2/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top