[发明专利]一种挖掘热词的方法与装置有效
| 申请号: | 201210018787.5 | 申请日: | 2012-01-20 |
| 公开(公告)号: | CN103218368A | 公开(公告)日: | 2013-07-24 |
| 发明(设计)人: | 邸楠 | 申请(专利权)人: | 深圳市腾讯计算机系统有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 王一斌;王琦 |
| 地址: | 518057 广东省深圳市南*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 挖掘 方法 装置 | ||
技术领域
本发明涉及计算机聚类技术,特别涉及一种挖掘热词的方法与装置。
背景技术
随着计算机通信技术的发展,尤其是3g网络和智能移动终端的发展,用户的网络生活越来越丰富,在社交网络上聊天、浏览新闻、看电影、玩游戏、搜索、购物、发布信息等,越来越成为网络生活的一部分。而如何让用户有效地从网络社区中找到有价值的信息,成为信息领域一个重要的研究课题。
目前,在社区中海量的各领域的网络信息中,采用基于文档进行热词挖掘的方法,利用空间向量模型(VSM,Vector Space Model)将网络中的文档表示为由词语组成的特征向量,每一维特征向量值对应词语的相关信息,可以是二值、词语在文档出现次数的词频(TF,Term Frequency)、词频反文档频率(TF-IDF,Term Frequency-Inverse Document Frequency)等。例如,在二值中,可以用0表示词语在相关文档出现,用1表示词语未出现在该相关文档,在TF-IDF中,利用词语在该文档中出现的次数以及该词语在历史文档中出现的次数作为特征向量值的相关信息。这样,通过将文档表示为由词语组成的特征向量后,对文档进行聚类,过滤特征向量中的一些词语,从而挖掘出文档中有价值的词语的信息,并选取一些过滤的到的词语作为热词推荐给用户,从而增加用户的业务体验。但该方法以文档中包含的词语表示文档,采用TF-IDF等方法进行聚类,对于用户比较关注的突发性热点事件,由于该突发性热点事件只与较短的时间信息相关,其词语在历史文档中几乎没有出现,因而,在聚类过程中,容易被过滤掉,使得推荐给用户的热词不能反映热点事件,价值较低;进一步地,由词语组成的特征向量中,维度为非0值较多,且包含了大量与热点事件无关的词语,增加了聚类处理的复杂度,无法满足社交网络的实时性要求。
为了有效降低以静态表示文档导致的缺少与热点事件紧密相关的时间信息,现有技术提出了一种改进的基于文档挖掘热词的方法,即考虑热点事件中词语的动态文档表示方法:技术人员浏览文档,当文档中的某个词语在文档所处时间段为与事件紧密相关的时间段时,基于该文档在原有TF-IDF基础上,增加该词语在文档特征向量中的权重,这样,可以提高该词语在聚类结果中的优先性,从而增大作为热词输出并推荐给用户的概率,以克服文档静态表示的缺陷。
由上述可见,现有改进的基于文档挖掘热词的方法,虽然能够有效降低以静态表示文档导致的缺少与事件紧密相关的时间信息,但在进行聚类的词语中,还是包含了大量与热点事件无关的词语,增加了聚类复杂度;进一步地,需要人工识别文档中热点事件包含的词语,且采用现有TF-IDF等聚类方法,而热点事件一般具有突发性、持续时间短等特点,使得考虑词语历史信息的聚类方法,虽然增加了热点事件包含的词语在文档特征向量中的权重,但其聚类结果还是较容易过滤实时性热点事件中包含的词语,热点挖掘效率较低,还是无法满足社交网络挖掘的实时性要求。
发明内容
有鉴于此,本发明的主要目的在于提出一种挖掘热词的方法,降低聚类复杂度、提高社交网络热点挖掘的效率。
本发明的另一目的在于提出一种挖掘热词的装置,降低聚类复杂度、提高社交网络热点挖掘的效率。
为达到上述目的,本发明提供了一种挖掘热词的方法,该方法包括:
预先设置热词库并对热词库中的各热词设置相应的热词权重;
根据热词在文档中的词频以及热词库中设置的热词权重,将文档用热词库中热词进行表示;
将用热词库中热词进行表示的文档聚类为预设数目的文档类;
对预设数目的文档类进行重心排序,过滤掉文档类重心值小于预先设置的重心阈值的文档类;
对过滤后的文档类按照预先设置的热词选取策略进行热词选取。
所述预设数目为用热词库中热词进行表示的文档总数的平方根与预设的文档类系数的乘积;
所述将用热词库中热词进行表示的文档聚类为预设数目的文档类包括:
将用热词库中热词进行表示的文档设置为一个文档类;
采用贪心算法对设置的文档类进行分裂,使得当前分裂后生成的两个文档类的平均距离最大;
计算各文档类的类内距离以及各文档类之间的类间距离,选取类内距离与类间距离比值最大对应的文档类进行再分裂;
确认分裂得到的所有文档类数目达到预设数目。
在得到预设数目的文档类后,进一步包括:
对预设数目的文档类中的相似文档类进行合并处理;
所述对预设数目的文档类中的相似文档类进行合并处理包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市腾讯计算机系统有限公司,未经深圳市腾讯计算机系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210018787.5/2.html,转载请声明来源钻瓜专利网。





