[发明专利]基于最低阈值的用户个人品性多标记预测方法有效
申请号: | 201410081840.5 | 申请日: | 2014-03-06 |
公开(公告)号: | CN103995820B | 公开(公告)日: | 2019-04-16 |
发明(设计)人: | 王英;左万利;王萌萌;王鑫;彭涛;田中生;赵秋月 | 申请(专利权)人: | 吉林大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/958 |
代理公司: | 长春市四环专利事务所(普通合伙) 22103 | 代理人: | 郭耀辉 |
地址: | 130012 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于最低阈值的用户个人品性多标记预测方法,旨在克服现有技术存在的整体精准度不高、适用性不强、特征权重及用户个人品性标记阈值分配过于主观化和对用户个人品性之间相关性的忽视等问题,该方法的步骤为:1.由特征解析与表示模块实现用户个人品性相关特征集合的解析和表示;2.由特征分析和预处理模块实现多元数据类型的归一化;3.由参数学习模块实现特征权重的分配以及用户个人品性标记最低阈值的确定;4.由用户个人品性预测模块实现基于最低阈值的用户个人品性多标记的预测。 | ||
搜索关键词: | 用户 个人 品性 预测 方法 | ||
【主权项】:
1.一种基于最低阈值的用户个人品性多标记预测方法,其特征在于,所述的基于最低阈值的用户个人品性预测方法包括如下步骤:(1)由特征解析与表示模块实现用户个人品性相关特征的解析和表示:1)通过新浪微博API获取新浪微博用户初始的用户个人特征集合、关系特征集合、兴趣特征集合和发表状态集合;2)对用户个人特征集合、关系特征集合进行预处理;3)计算用户的情感特征;4)基于步骤1)2)3)的结果,将用户个人品性特征表示为:{gender,actDays,verified,lang,favouritesAct,statusesAct},{followersAct,friendsAct,bifollowerAct},{(i0,ω0),(i1,ω1),…,(im,ωm)}和E;其中:{gender,actDays,verified,lang,favouritesAct,statusesAct}为用户个人特征集合,gender为用户性别,actDays为用户的活跃天数,verified为用户是否是新浪微博认证用户,lang为用户当前的语言版本,favouritesAct为用户的收藏活跃频率,statusesAct为用户发表的微博的活跃频率;{followersAct,friendsAct,bifollowerAct}为用户关系特征集合,followersAct为用户的粉丝活跃频率,friendsAct为用户的关注活跃频率,bifollowerAct为用户的互粉活跃频率;{(i0,ω0),(i1,ω1),…,(im,ωm)}为用户兴趣特征集合,im为用户第m个兴趣名称,ωm为用户第m个兴趣的权重;E为用户的情感极性特征;(2)由特征分析和预处理模块实现多元数据类型的归一化;(3)由参数学习模块实现特征权重的分配以及用户个人品性标记最低阈值的确定:1)分配各个特征权重;2)确定用户个人品性标记的最低阈值;(4)由用户个人品性预测模块实现基于最低阈值的用户个人品性的预测;其中,所述的实现用户个人特征集合、关系特征集合预处理包括如下步骤:①将用户注册微博账号的日期基于某一时间点转换为用户注册微博账号的天数,即用户活跃天数,记为:actDays,并将其加入到用户个人特征集合中,同时将用户的注册时间从集合中移除,即得到用户个人特征集合{gender,actDays,verified,lang,favouritesCount,statusesCount},其中,gender表示用户性别,actDays表示活跃天数,verified表示是否认证,lang表示语言,favouritesCount表示收藏数量,statusesCount表示状态数量;②基于用户活跃天数,计算用户个人特征集合和关系特征集合中数值型元素的活跃频率,计算公式如下:featureActi=|featurei|/actDays其中:featureActi为第i个特征的活跃频率,|featurei|为第i个特征的绝对值,即得到新定义的用户个人特征集合{gender,actDays,verified,lang,favouritesAct,statusesAct}和关系特征集合{followgrsAct,friendsAct,bifollowerAct},在关系特征集合中,followersAct表示跟随者关系,friendsAct表示朋友关系,bifollowerAct表示粉丝数;其中,所述的实现用户情感特征的计算包括如下步骤:①应用NLPIR汉语分词系统,从发表状态集合中抽取出形容词和副词列表,记为:Emotion_words=(e0,e1,…,ej)其中:ej为第j个形容词或者副词;基于知网的中文情感分析用词语集,计算用户的情感极性特征,其计算公式如下:
其中:![]()
Pos_dec和Neg_dec为正极性和负极性情感词典,若相应极性情感词典中包含形容词或者副词ei,则对应函数值为1,否则值为0;其中,所述的实现归一化多元类型数据包括如下步骤:①初始化数值型用户个人品性特征值的离散中心点集合,其计算公式如下:
其中:{ai1,ai2,ai3,…}为第i个用户个人品性数值型特征的取值集合,mij[0]∈Mi[0]为第i个用户个人品性数值型特征的第j个初始中心点,k为预先定义的离散集合数;②应用Kohonen’s feature‑maps聚类算法获得某一特征收敛的中心点集合;③计算特征值与中心点之间的距离,与特征值距离最近的中心点对应的离散集合即为该特征值对应的离散取值,从而实现将定量的特征值转换为定性的特征值;其中,所述的实现特征权重的分配包括如下步骤:①计算特征的信息熵,其计算公式如下:
其中:
为用户i的第j维特征,n为用户i对应的个人品性标记的总数量,valij和Vij分别为特征
某一取值和取值集合,p(yk)为数据集出现用户个人品性标记yk的概率,p(valij)为在数据集中特征
取值为valij的概率,p(yk|valij)为在数据集中当
取值为valij时,预测用户的个人品性属于标记yk的概率;②基于步骤①得到的特征信息熵,计算特征的权重,其计算公式如下:
其中:Weightj为特征
的权重,
为特征
的信息增益;其中,所述的实现用户个人品性标记最低阈值的确定包括如下步骤:①初始化用户个人品性标记最低阈值;②应用Kohonen’s feature‑maps聚类算法获得收敛的用户个人品性标记最低阈值;其中,所述的实现用户个人品性预测包括如下步骤:①基于特征权重计算某一用户与其他所有用户之间的距离,其计算公式如下:
其中:
和
分别为测试用户test与训练集中用户i的第j维特征,||·||表示返回实数的绝对值;②根据用户之间的距离,对用户进行升序排列,选择排在前K位的用户作为某一用户的K近邻用户集合,记为
③初始化用户个人品性标记集合为空,记为TagSet;④ 基于
用户个人品性标记分数计算公式如下:
其中:Cj为
中将用户个人品性标记yj作为其相关标记的样本个数,Hj为
具有用户个人品性标记yj这一事件,P(Hj|Cj)为当
中有Cj个样本具有用户个人品性标记yj时Hj成立的概率;⑤若
大于或者等于yj对应的用户个人品性标记最低阈值,则将其加入集合TagSet中;⑥若所有用户个人品性标记均已判断完毕,返回用户个人品性标记集合,否则重复步骤④和步骤⑤。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410081840.5/,转载请声明来源钻瓜专利网。
- 上一篇:一种蒸发器用的高效热交换管
- 下一篇:热化学储能测试装置及测试方法