[发明专利]基于熵权法的跨社交网络用户身份匹配方法、介质及装置在审
申请号: | 202210971332.9 | 申请日: | 2022-08-15 |
公开(公告)号: | CN115048563A | 公开(公告)日: | 2022-09-13 |
发明(设计)人: | 饶志宏;王莉莉;康荣保;张晓;赵尔凡;杜艳霞 | 申请(专利权)人: | 中国电子科技集团公司第三十研究所 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9536;G06F16/955;G06K9/62 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 舒盛 |
地址: | 610000 *** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 熵权法 社交 网络 用户 身份 匹配 方法 介质 装置 | ||
1.一种基于熵权法的跨社交网络用户身份匹配方法,其特征在于,包括如下步骤:
S10,数据收集:采集多个社交网络的用户属性信息;
S20,特征提取和融合:基于用户属性信息提取并融合用户属性特征;
S30,相似度计算:计算两用户不同属性特征的相似度;
S40,身份匹配:利用熵权法为两用户不同属性分配权重,基于两用户不同属性特征的相似度以及权重计算两用户的总体相似度;
S50,输出结果:根据两用户的总体相似度判断两用户是否身份匹配;
步骤S10中采集多个社交网络的用户属性信息的方法包括:
S11,利用网络爬虫技术对多个社交网络的用户属性信息进行数据采集;所述用户属性信息包括用户名、性别、学历、职业、个人描述、兴趣、关注话题、发布内容、关注数、粉丝数、获赞数、文章数、个人主页URL、Email、地理位置和好友列表;
S12,对采集的用户属性信息进行数据预处理;所述数据预处理包括噪声数据去除和混乱文本重组;
步骤S20中基于用户属性信息提取并融合用户属性特征的方法包括:
S21,基本属性特征提取:
对于采用字符串存储的用户名、性别、学历、职业、兴趣、个人主页URL、Email和好友列表,将数据预处理后的字符串作为属性特征;
对于关注数和粉丝数,将关注数和粉丝数组成二维向量作为属性特征;
对于获赞数和文章数,将获赞数和文章数组成二维向量作为属性特征;
对于地理位置,将地理位置统一转换为WGS84坐标信息;所述地理位置包括详细地址、GPS定位和城市名称;
S22,短文本特征提取:
对于采用短文本方式存储的个人描述、关注话题和发布内容,将社交网络中用户的个人描述、关注话题和发布内容分别视作由多个词语组成的文档,每个词语的重要程度用TF-IDF值进行评估,从而通过计算文档中每个词语的TF-IDF值,来提取短文本的属性特征;
S23,特征融合:
对社交网络A中任一用户
融合后,用户
同理得到用户
步骤S22中短文本特征提取的方法包括:
计算TF值:
其中,TF表示词频,即一个词语在文档中出现的频率;表示词语在文档中出现的频率;表示词语在文档中出现的次数;表示所有词语在文档中出现的次数之和;
计算IDF值:
其中,表示文档包含词语,表示包含词语的所有文档数目,加1以避免分母为0的情况,|
计算TF-IDF值:
其中,表示词语的词频,表示词语的逆文档频率,表示词语的TF-IDF值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第三十研究所,未经中国电子科技集团公司第三十研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210971332.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种机械设备用永磁节能电动机
- 下一篇:一种晶体管及其制备方法