[发明专利]基于多标记学习的用户标签预测方法、系统及存储介质有效
申请号: | 201910916923.4 | 申请日: | 2019-09-26 |
公开(公告)号: | CN110751188B | 公开(公告)日: | 2020-10-09 |
发明(设计)人: | 黄晋;于晗宇;朱佳 | 申请(专利权)人: | 华南师范大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08;G06Q50/00 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 何文聪 |
地址: | 510631 广东省广州市天*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 标记 学习 用户 标签 预测 方法 系统 存储 介质 | ||
本发明公开了基于多标记学习的用户标签预测方法、系统及存储介质,方法包括:对原始社交网络用户数据集进行转化,得到描述用户对象的特征数据集和标识用户对象的标签数据集;根据用户对象的特征数据集,构建用户对象的特征链;对特征链进行编码,获取特征链的表示向量;对特征链的表示向量进行解码,生成蕴含用户标签信息的隐藏向量;根据隐藏向量,生成实际的用户标签。本发明考虑了用户特征和用户标签之间的联系以及用户标签和用户标签之间的关系,提高了标签预测的准确率,可广泛应用于社交网络领域。
技术领域
本发明涉及社交网络领域,尤其是基于多标记学习的用户标签预测方法、系统及存储介质。
背景技术
当前随着社交网络的出现和快速发展,在国外出现了如Facebook、Twitter和YouTube这样拥有广泛用户的社交网站,国内也出现了类似的,如新浪微博,腾讯微博等新兴社交网络网站。社交网络作为一种传播信息,和朋友联系互动等社交行为的媒介,在日常生活中有非常重要的作用。在社交网络中有一项重要的任务,就是定义社交网络中活动单位——用户的各类标签,比如是用户的兴趣标签、个性标签以及好友关系标签。兴趣标签能反应用户对特定类别信息的关注;个性标签能够反应用户的独特属性,好友关系标签能够反应用户的社交网络。由此可以看出用户标签综合反映了用户在社交网络环境下的个性化特征,借此能广泛的开展兴趣推荐、行为预测、情感分类等任务,帮助服务提供商更好的进行商品推荐、新闻推送以及构建用户画像。此外,随着各种社交网络应用工具的丰富,社交类型也越来越多样化,单个标签已无法满足社交网络中用户日益增长的多元个性化需求。因此,社交网络环境下的用户多标签分类研究得到了越来越多的关注。
当前,存在着一些对社交网络中用户标签的预测方法。例如一种借助LDA(LatentDirichlet Allocation)主题模型的算法可以处理用户发表的微博,从而提取出用户潜在的喜好标签。此外一种计算KL散度的方法能从用户已有好友关系的基础上计算出当前用户与其他好友的喜好相似度,喜好越相似,对目标用户的影响程度越大,从而使得噪音连接(大众关系)影响力降低,并最终得到降噪关系(用户好友标签)。
预测社交网络中新用户的用户标签,在形式上可以认为每个用户是一个对象,因此就能使用若干维的特征向量来描述对象,同时对用户对象的用户标签也可以使用多个0-1标签来进行简洁高效的标识。在这种推理下,用户转变为用户对象,有描述用户对象的特征和标识用户对象的标签,其特征和标签集都指向同一个用户对象,含有相同的潜在对象含义,因此存在着从用户对象的特征转变到用户对象的标签的可能性。以上的描述和推理符合多标记学习的定义——多标记学习是一种特定的学习任务,其中每个训练对象不仅被若干维的特征向量所描述,同时还被一组标签所标记,该目标就是学习一个能够对未知新对象预测其合适标签集的模型。因此本发明提出对社交网络中的用户标签预测问题使用多标记学习方法来进行建模,使其能更广泛和高效的预测未知用户的标签。
在过去的几十年间,针对多标记学习问题,许多方法被提出。ML-KNN是一种使用最大化后验概率来决定每个未知对象的标记集的最近邻方法;此外,LIFT方法通过对对象的正面和负面标签进行聚类分析,构建每个标签特有的特征,然后通过查询聚类结果来预测标签;分类器链是多标记学习中的高阶方法,将多标记学习任务转换为二元分类链,以模拟标签之间的相关性。这里,给出多标记学习中标签间关系的定义:一阶关系:只关注单一的标签,忽略标签之间的关系;二阶关系:只关注两两标签之间的关系,不考虑三者或以上的标签间关系;高阶关系:关注所有标签之间的互相关系。然而,以上提出的这些方法只能捕获有限的一阶或二阶标签间关系,可能无法全面的反应现实环境下用户标签联系;或者考察高阶标记关系方法的计算复杂度随着标签数量的增加而指数级增长,难以计算和大规模实施。
发明内容
有鉴于此,本发明实施例提供一种准确率高的,基于多标记学习的用户标签预测方法、系统及存储介质。
一方面,本发明实施例提供了一种基于多标记学习的用户标签预测方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学,未经华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910916923.4/2.html,转载请声明来源钻瓜专利网。