[发明专利]一种挖掘热词的方法与装置有效

申请号：	201210018787.5	申请日：	2012-01-20
公开（公告）号：	CN103218368A	公开（公告）日：	2013-07-24
发明（设计）人：	邸楠	申请（专利权）人：	深圳市腾讯计算机系统有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京德琦知识产权代理有限公司 11018	代理人：	王一斌;王琦
地址：	518057 广东省深圳市南***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种挖掘方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及计算机聚类技术，特别涉及一种挖掘热词的方法与装置。

背景技术

随着计算机通信技术的发展，尤其是3g网络和智能移动终端的发展，用户的网络生活越来越丰富，在社交网络上聊天、浏览新闻、看电影、玩游戏、搜索、购物、发布信息等，越来越成为网络生活的一部分。而如何让用户有效地从网络社区中找到有价值的信息，成为信息领域一个重要的研究课题。

目前，在社区中海量的各领域的网络信息中，采用基于文档进行热词挖掘的方法，利用空间向量模型(VSM，Vector Space Model)将网络中的文档表示为由词语组成的特征向量，每一维特征向量值对应词语的相关信息，可以是二值、词语在文档出现次数的词频(TF，Term Frequency)、词频反文档频率(TF-IDF，Term Frequency-Inverse Document Frequency)等。例如，在二值中，可以用0表示词语在相关文档出现，用1表示词语未出现在该相关文档，在TF-IDF中，利用词语在该文档中出现的次数以及该词语在历史文档中出现的次数作为特征向量值的相关信息。这样，通过将文档表示为由词语组成的特征向量后，对文档进行聚类，过滤特征向量中的一些词语，从而挖掘出文档中有价值的词语的信息，并选取一些过滤的到的词语作为热词推荐给用户，从而增加用户的业务体验。但该方法以文档中包含的词语表示文档，采用TF-IDF等方法进行聚类，对于用户比较关注的突发性热点事件，由于该突发性热点事件只与较短的时间信息相关，其词语在历史文档中几乎没有出现，因而，在聚类过程中，容易被过滤掉，使得推荐给用户的热词不能反映热点事件，价值较低；进一步地，由词语组成的特征向量中，维度为非0值较多，且包含了大量与热点事件无关的词语，增加了聚类处理的复杂度，无法满足社交网络的实时性要求。

为了有效降低以静态表示文档导致的缺少与热点事件紧密相关的时间信息，现有技术提出了一种改进的基于文档挖掘热词的方法，即考虑热点事件中词语的动态文档表示方法：技术人员浏览文档，当文档中的某个词语在文档所处时间段为与事件紧密相关的时间段时，基于该文档在原有TF-IDF基础上，增加该词语在文档特征向量中的权重，这样，可以提高该词语在聚类结果中的优先性，从而增大作为热词输出并推荐给用户的概率，以克服文档静态表示的缺陷。

由上述可见，现有改进的基于文档挖掘热词的方法，虽然能够有效降低以静态表示文档导致的缺少与事件紧密相关的时间信息，但在进行聚类的词语中，还是包含了大量与热点事件无关的词语，增加了聚类复杂度；进一步地，需要人工识别文档中热点事件包含的词语，且采用现有TF-IDF等聚类方法，而热点事件一般具有突发性、持续时间短等特点，使得考虑词语历史信息的聚类方法，虽然增加了热点事件包含的词语在文档特征向量中的权重，但其聚类结果还是较容易过滤实时性热点事件中包含的词语，热点挖掘效率较低，还是无法满足社交网络挖掘的实时性要求。

发明内容

有鉴于此，本发明的主要目的在于提出一种挖掘热词的方法，降低聚类复杂度、提高社交网络热点挖掘的效率。

本发明的另一目的在于提出一种挖掘热词的装置，降低聚类复杂度、提高社交网络热点挖掘的效率。

为达到上述目的，本发明提供了一种挖掘热词的方法，该方法包括：

预先设置热词库并对热词库中的各热词设置相应的热词权重；

根据热词在文档中的词频以及热词库中设置的热词权重，将文档用热词库中热词进行表示；

将用热词库中热词进行表示的文档聚类为预设数目的文档类；

对预设数目的文档类进行重心排序，过滤掉文档类重心值小于预先设置的重心阈值的文档类；

对过滤后的文档类按照预先设置的热词选取策略进行热词选取。

所述预设数目为用热词库中热词进行表示的文档总数的平方根与预设的文档类系数的乘积；

所述将用热词库中热词进行表示的文档聚类为预设数目的文档类包括：

将用热词库中热词进行表示的文档设置为一个文档类；