[发明专利]从文本文档中检测热点事件的方法和设备有效
申请号: | 201410082915.1 | 申请日: | 2014-03-07 |
公开(公告)号: | CN103823792B | 公开(公告)日: | 2017-01-11 |
发明(设计)人: | 杨路军;潘照明 | 申请(专利权)人: | 网易(杭州)网络有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/30 |
代理公司: | 北京信远达知识产权代理事务所(普通合伙)11304 | 代理人: | 赵百令,刘大玲 |
地址: | 310052 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明的实施方式提供了一种从文本文档中检测热点事件的方法。该方法包括:A)、对在当前采样周期所采集的文本文档进行分词处理,从而得到候选词;B)、从所述候选词中筛选出其词频大于或等于预设词频阈值,和/或,词频增长率大于或等于预设增长率阈值的候选词作为热点词;C)、将所述热点词分组,将属于同一事件的热点词分到同一个组中。本发明的方法可以解决现有技术中因短文本文档的特征的数量有限而导致的热点事件的检测准确性不高的问题,以及,现有技术中无法根据文档簇直观、明了地确定热点事件的内容的问题。此外,本发明的另一方面提供了一种从文本文档中检测热点事件的设备,例如,服务器上安装的软件。 | ||
搜索关键词: | 文本 文档 检测 热点 事件 方法 设备 | ||
【主权项】:
一种从文本文档中检测热点事件的方法,包括:A)、对在当前采样周期所采集的文本文档进行分词处理,从而得到候选词;B)、从所述候选词中筛选出其词频大于或等于预设词频阈值,和/或,词频增长率大于或等于预设增长率阈值的候选词作为热点词;C)、将所述热点词分组,将属于同一事件的热点词分到同一个组中;其中,所述步骤C)包括:C1)、构建所述热点词的词向量,其中,所述词向量的分量为所述热点词分别在当前采样周期的前M个采样周期的词频,M为任意一个非零整数;C2)、对所述热点词的词向量进行归一化处理;C3)、计算归一化处理后的每两个热点词的词向量之间的相似度,作为每两个热点词之间的相似度;C4)、计算1与每两个热点词之间的相似度的差值,作为每两个热点词之间的距离;C5)、基于每两个热点词之间的距离,对所有热点词进行聚类处理,得到多个簇,一个簇即为一个组,从而将属于同一事件的热点词分到同一个组中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易(杭州)网络有限公司,未经网易(杭州)网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410082915.1/,转载请声明来源钻瓜专利网。
- 上一篇:包装袋(暖宫贴)
- 下一篇:一种电场数值建模方法及装置