[发明专利]一种微博用户的用户类别确定方法及装置在审
| 申请号: | 201510057100.2 | 申请日: | 2015-02-04 |
| 公开(公告)号: | CN104598624A | 公开(公告)日: | 2015-05-06 |
| 发明(设计)人: | 李寿山;戴斌;段湘煜;周国栋 | 申请(专利权)人: | 苏州大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 常亮 |
| 地址: | 215123 江苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 用户 类别 确定 方法 装置 | ||
技术领域
本申请涉及自然语言处理及社交网络技术领域,特别是涉及一种微博用户的用户类别确定方法及装置。
背景技术
互联网的开放性、虚拟性与共享性使其渐渐成为人们表达观点、态度、感觉、情绪等各种情感的公共平台,并且产生大量的社交网站,同时微博也随之产生,成为一个跨时代产品。
用户通过微博发表的文本中蕴含了大量的信息,且越来越多的研究工作开始关注微博,其中非常重要的一类研究是微博用户特征分析。微博用户特征分析就是通过对微博用户的信息和关系数据进行决策树分析、相关性分析和关联规则来挖掘用户特征,并根据这些特征进行用户分类、用户挖掘及影响力探测等。
其中,微博用户分类是微博用户特征分析的一项基本内容。具体来讲,微博用户分类是将微博用户划分为特定类别,比如:将微博用户划分为个人用户类别和非个人用户类别等。然而,由于社交网络刚刚起步相关研究较少,因此,关于微博用户分类的研究也比较缺乏。
发明内容
有鉴于此,本申请的目的在于提供一种微博用户的用户类别确定方法及装置,以实现对微博用户的用户类别的确定。
为了实现上述目的,本发明实施例提供的技术方案如下:
一种微博用户的用户类别确定方法,包括:
获取待用户类别确定的微博用户的用户名;
利用预先构建的最大熵分类器对所述微博用户的用户名进行分类,得到分类结果,所述分类结果包括所述微博用户属于第一用户类别的第一后验概率,以及所述微博用户属于第二用户类别的第二后验概率;
利用所述分类结果及预先设置的用户类别确定规则确定所述微博用户的用户类别。
优选的,所述利用所述分类结果及预先设置的用户类别确定规则确定所述微博用户的用户类别的过程为:
比较所述分类结果中的第一后验概率和第二后验概率,将所述第一后验概率和第二后验概率中数值较大者确定为目标后验概率;
将所述目标后验概率对应的用户类别确定为所述微博用户的用户类别。
优选的,预先构建最大熵分类器的过程为:
获取预设数量的微博用户中每个所述微博用户的用户信息,所述用户信息至少包括所述微博用户的用户名和微博地址;
响应用户利用所述微博用户的微博地址进行的类别设定操作,生成所述微博用户的用户类别,所述用户类别为第一用户类别或第二用户类别;
分别将每个所述微博用户的用户名和用户类别作为训练样本输入到预先设置的最大熵工具包中,构建最大熵分类器。
优选的,所述获取预设数量的微博用户中每个所述微博用户的用户信息的过程为:
获取预设数量的微博用户;
利用预先设置的API算法,分别获取每个所述微博用户的用户信息,所述用户信息至少包括所述微博用户的用户名和微博地址。
优选的,所述获取预设数量的微博用户的过程为:
S1、获取一个微博用户,并将其加入预先构建的空的用户队列中;
S2、按照先进先出原则,从所述用户队列中选取一个微博用户;
S3、获取所述微博用户的粉丝和关注者的并集,并将所述并集中的各个微博用户添加至所述用户队列中;
S4、判断所述用户队列中的微博用户的数量是否满足预设数量要求;当否时,返回执行S2;当是时,执行S5;
S5、将当前所述用户队列中的各个微博用户作为最终获取的微博用户。
一种微博用户的用户类别确定装置,包括:
用户名获取单元,用于获取待用户类别确定的微博用户的用户名;
分类单元,用于利用预先构建的最大熵分类器对所述微博用户的用户名进行分类,得到分类结果,所述分类结果包括所述微博用户属于第一用户类别的第一后验概率,以及所述微博用户属于第二用户类别的第二后验概率;
类别确定单元,用于利用所述分类结果及预先设置的用户类别确定规则确定所述微博用户的用户类别。
优选的,所述类别确定单元包括:
比较单元,用于比较所述分类结果中的第一后验概率和第二后验概率,将所述第一后验概率和第二后验概率中数值较大者确定为目标后验概率;
类别确定子单元,用于将所述目标后验概率对应的用户类别确定为所述微博用户的用户类别。
优选的,还包括最大熵分类器构建单元,所述最大熵分类器构建单元包括:
用户信息获取单元,用于获取预设数量的微博用户中每个所述微博用户的用户信息,所述用户信息至少包括所述微博用户的用户名和微博地址;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510057100.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于自动识别标识符的数据表存储方法
- 下一篇:对搜索条目进行排序的方法及系统





