[发明专利]一种挖掘热点词的方法与装置无效
申请号: | 201110307846.6 | 申请日: | 2011-10-12 |
公开(公告)号: | CN103049443A | 公开(公告)日: | 2013-04-17 |
发明(设计)人: | 罗侃;陈洪亮;杨志峰 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 王一斌;王琦 |
地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 挖掘 热点 方法 装置 | ||
1.一种挖掘热点词的方法,其特征在于,该方法包括:
获取输入的文本流,对文本流进行分词,获取候选词集;
统计候选词集中各候选词在文本流中出现的当前频率,获取各候选词在预先存储的历史数据中的各历史频率;
根据候选词的当前频率以及各历史频率计算该候选词的频率异常性值,在历史数据中存储该候选词的当前频率信息并输出预定数目的频率异常的候选词。
2.如权利要求1所述的方法,其特征在于,在获取候选词集后,进一步包括:
将预先设置的停用词表与获取的候选词集进行匹配,将候选词集中与停用词表相匹配的词语进行过滤。
3.如权利要求2所述的方法,其特征在于,所述停用词表包括:无意义词语、和/或,高文档率词语。
4.如权利要求1所述的方法,其特征在于,所述获取各候选词在预先存储的历史数据中的各历史频率包括:
如果历史数据中存储有该候选词的各历史频率,读取该候选词的各历史频率;
如果历史数据中未存储有该候选词的历史频率,计算历史数据中存储的所有候选词的各历史频率的平均值,作为该候选词的各历史频率。
5.如权利要求1所述的方法,其特征在于,所述根据候选词的当前频率以及各历史频率计算该候选词的频率异常性值包括:
根据候选词的各历史频率获取该候选词的历史频率的平均值;
根据该候选词的各历史频率以及获取的该候选词的历史频率的平均值,计算该候选词的方差;
获取该候选词的当前频率与历史频率的平均值的差的绝对值,计算该绝对值与所述方差的商,得到该候选词的频率异常性值。
6.如权利要求1至5任一项所述的方法,其特征在于,所述输出预定数目的频率异常的候选词为:
将预定数目的频率异常的候选词聚合成用以描述一个事件或主题的词簇进行输出。
7.如权利要求6所述的方法,其特征在于,所述将预定数目的频率异常的候选词聚合成用以描述一个事件或主题的词簇包括:
基于预定数目的频率异常的候选词,统计每两个候选词组成的词组在同一文本流中出现的次数;
统计该两个候选词在同一文本流中分别出现的次数,并获取该两个候选词在同一文本流中分别出现的次数的乘积;
获取所述词组在同一文本流中出现的次数与所述乘积的商,作为所述两个候选词之间的点间互信息距离;
如果获取的点间互信息距离值大于预先设置的点间互信息距离值阈值,则将该点间互信息距离值对应的两个候选词合成为一个词簇。
8.如权利要求1至5任一项所述的方法,其特征在于,进一步包括:
基于选择的预定数目的频率异常的候选词或者通过候选词聚合形成的词簇,触发从预先设置的外部数据源执行搜索,并将搜索结果与预定数目的频率异常的候选词或者词簇同时向用户展示。
9.一种挖掘热点词的装置,其特征在于,该装置包括:分词模块、历史数据存储模块以及频率异常性值处理模块,其中,
分词模块,用于获取输入的文本流,对文本流进行分词,获取候选词集;
历史数据存储模块,用于存储候选词的各历史频率;
频率异常性值处理模块,用于统计候选词集中各候选词在文本流中出现的当前频率,根据候选词的当前频率以及历史数据存储模块存储的该候选词的各历史频率计算该候选词的频率异常性值,将计算得到的候选词的当前频率信息输出至历史数据存储模块,并输出预定数目的频率异常的候选词。
10.如权利要求9所述的装置,其特征在于,进一步包括:
去噪模块,用于根据预先设置的停用词表,与分词模块获取的候选词集进行匹配,将候选词集中与停用词表相匹配的词语进行去噪处理。
11.如权利要求9或10所述的装置,其特征在于,进一步包括:
候选词聚合模块,用于接收频率异常性值处理模块输出的预定数目的频率异常的候选词,将获取的候选词聚合成用以描述一个事件或主题的词簇。
12.如权利要求11所述的装置,其特征在于,进一步包括:
搜索模块,用于以获取的词簇或候选词为搜索关键词,触发从预先设置的数据源执行搜索,向用户展示词簇以及搜索结果,或者,候选词以及搜索结果。
13.如权利要求12所述的装置,其特征在于,所述频率异常性值处理模块包括:当前频率统计单元、历史频率平均值计算单元、方差计算单元、异常性值计算单元以及候选词输出判断单元,其中,
当前频率统计单元,用于统计候选词集中各候选词在输入文本流中出现的当前频率,将当前频率分别输出至历史数据存储模块以及异常性值计算单元;
历史频率平均值计算单元,用于读取历史数据存储模块存储的各候选词的历史频率,计算各候选词的历史频率的平均值,输出至异常性值计算单元;
方差计算单元,用于根据历史数据存储模块存储的各候选词的历史频率以及历史频率平均值计算单元计算得到的该候选词的历史频率的平均值,计算各候选词的方差,输出至异常性值计算单元;
异常性值计算单元,用于根据各候选词的当前频率、历史频率的平均值以及方差,分别计算各候选词的异常性值;
候选词输出判断单元,用于将异常性值大于预先设置的异常性值阈值的候选词或将异常性值最大的预定数目的候选词进行输出展示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110307846.6/1.html,转载请声明来源钻瓜专利网。