[发明专利]一种对网络用户进行标注的方法与设备有效
申请号: | 201310344606.2 | 申请日: | 2013-08-08 |
公开(公告)号: | CN104346408B | 公开(公告)日: | 2017-11-21 |
发明(设计)人: | 魏芳 | 申请(专利权)人: | 中国移动通信集团公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京同达信恒知识产权代理有限公司11291 | 代理人: | 郭润湘 |
地址: | 100032 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种对网络用户进行标注的方法与设备,通过采用分别从用户文本信息集合中挖掘出的第一特征信息,以及根据用户社交信息集合而挖掘出的第二特征信息,来对原始的用户文本信息集合进行扩展,从而可以在一定程度上克服原始的用户文本信息集合的信息稀疏性,进而使得根据扩展得到的用户文本信息对网络用户进行的标注的准确性得到提高。 | ||
搜索关键词: | 一种 网络 用户 进行 标注 方法 设备 | ||
【主权项】:
一种对网络用户进行标注的方法,其特征在于,包括:获得待标注用户的用户文本信息集合和用户社交信息集合;其中,所述用户文本信息集合由所述待标注用户发布的用户文本信息构成,所述用户社交信息集合由所述待标注用户的用户社交信息构成;从所述用户文本信息集合中挖掘用于表征所述待标注用户的特定属性的第一特征信息,并根据所述用户社交信息集合,挖掘用于表征所述待标注用户的所述特定属性的第二特征信息;从所述用户文本信息集合中挖掘用于表征所述待标注用户的特定属性的第一特征信息,具体包括:根据所述用户文本信息集合包含的不同特征词的个数、预设用户集合中的所有用户的总个数,以及分别用于表征所述待标注用户与所述用户集合中的其他各个用户之间的相似程度的各相似度值,确定所述用户文本信息集合分别在预先指定的各潜在语义上的分布概率信息,以及所述各潜在语义分别在所述不同特征词上的分布概率信息;根据确定出的所述用户文本信息集合分别在预先指定的各潜在语义上的分布概率信息,以及所述各潜在语义分别在所述不同特征词上的分布概率信息,从所述不同特征词中选取特征词;其中:所述用户集合中包含所述待标注用户以及发布所述用户社交信息集合中的用户社交信息的用户;所述各相似度值是根据所述用户社交信息集合确定的;所述潜在语义为与所述特定属性相匹配的潜在语义;将挖掘出的所述第一特征信息和所述第二特征信息加入所述用户文本信息集合中,得到扩展后的用户文本信息集合;根据所述扩展后的用户文本信息集合,从预先设置的与所述属性相匹配的多个标签中,确定与所述扩展后的用户文本信息集合相匹配的标签;根据确定的标签,对所述待标注用户进行标注。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团公司,未经中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310344606.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种淋膜原纸及其生产工艺
- 下一篇:一种芦苇浆的全无氯漂白方法