[发明专利]一种对网络用户进行标注的方法与设备有效
申请号: | 201310344606.2 | 申请日: | 2013-08-08 |
公开(公告)号: | CN104346408B | 公开(公告)日: | 2017-11-21 |
发明(设计)人: | 魏芳 | 申请(专利权)人: | 中国移动通信集团公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京同达信恒知识产权代理有限公司11291 | 代理人: | 郭润湘 |
地址: | 100032 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 用户 进行 标注 方法 设备 | ||
1.一种对网络用户进行标注的方法,其特征在于,包括:
获得待标注用户的用户文本信息集合和用户社交信息集合;其中,所述用户文本信息集合由所述待标注用户发布的用户文本信息构成,所述用户社交信息集合由所述待标注用户的用户社交信息构成;
从所述用户文本信息集合中挖掘用于表征所述待标注用户的特定属性的第一特征信息,并根据所述用户社交信息集合,挖掘用于表征所述待标注用户的所述特定属性的第二特征信息;从所述用户文本信息集合中挖掘用于表征所述待标注用户的特定属性的第一特征信息,具体包括:根据所述用户文本信息集合包含的不同特征词的个数、预设用户集合中的所有用户的总个数,以及分别用于表征所述待标注用户与所述用户集合中的其他各个用户之间的相似程度的各相似度值,确定所述用户文本信息集合分别在预先指定的各潜在语义上的分布概率信息,以及所述各潜在语义分别在所述不同特征词上的分布概率信息;根据确定出的所述用户文本信息集合分别在预先指定的各潜在语义上的分布概率信息,以及所述各潜在语义分别在所述不同特征词上的分布概率信息,从所述不同特征词中选取特征词;其中:所述用户集合中包含所述待标注用户以及发布所述用户社交信息集合中的用户社交信息的用户;所述各相似度值是根据所述用户社交信息集合确定的;所述潜在语义为与所述特定属性相匹配的潜在语义;
将挖掘出的所述第一特征信息和所述第二特征信息加入所述用户文本信息集合中,得到扩展后的用户文本信息集合;
根据所述扩展后的用户文本信息集合,从预先设置的与所述属性相匹配的多个标签中,确定与所述扩展后的用户文本信息集合相匹配的标签;
根据确定的标签,对所述待标注用户进行标注。
2.如权利要求1所述的方法,其特征在于,根据所述用户社交信息集合,挖掘用于表征所述待标注用户的所述特定属性的第二特征信息,具体包括:
根据所述用户集合中的各个用户的用户社交信息集合以及所述多个标签,分别确定所述用户集合中的各个用户已经被标注的标签;
根据所述用户集合中的各个用户已经被标注的标签、所述用户集合中的所有用户的总个数,以及与所述多个标签相对应的潜在语义在待标注用户的用户文本信息中包含的指定特征词上的分布概率信息,确定该待标注用户的用户文本信息集合中包含的所述指定特征词分别在所述多个标签中的每个标签上的分布概率信息;
根据确定出的所述多个标签中的每个标签分别在所述待标注用户的用户文本信息中包含的指定特征词上的分布概率信息,从所述多个标签中选取标签。
3.如权利要求2所述的方法,其特征在于,根据所述用户集合中的各个用户已经被标注的标签、所述用户集合中的所有用户的总个数,以及确定出的与所述多个标签相对应的潜在语义在所述用户集合中的其他各个用户的用户文本信息中包含的指定特征词上的分布概率信息,确定该待标注用户的用户文本信息集合中包含的所述指定特征词分别在所述多个标签中的每个标签上的分布概率信息,具体包括:
根据所述用户集合中的各个用户已经被标注的标签、所述用户集合中的所有用户的总个数、与所述多个标签相对应的潜在语义在待标注用户的用户文本信息中包含的指定特征词上的分布概率信息,以及获得的根据所述用户社交信息集合而确定出的用于表征所述用户集合中的不同用户之间的相互影响程度的影响力值,确定该待标注用户的用户文本信息集合中包含的所述指定特征词分别在所述多个标签中的每个标签上的分布概率信息。
4.如权利要求1~3任一所述的方法,其特征在于,根据所述扩展后的用户文本信息集合,从预先设置的与所述属性相匹配的多个标签中,确定与所述扩展后的用户文本信息集合相匹配的标签,具体包括:
通过将所述扩展后的用户文本信息集合分别输入预先设置的分类器集群所包含的每个分类器,确定与所述扩展后的用户文本信息集合相匹配的标签;
其中,所述分类器集群包含的任意分类器均用于根据所述多个标签中的一个标签区分不同用户文本信息集合,且不同的所述分类器在区分不同用户文本信息集合时所根据的标签互不相同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团公司,未经中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310344606.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种淋膜原纸及其生产工艺
- 下一篇:一种芦苇浆的全无氯漂白方法