[发明专利]从文本文档中检测热点事件的方法和设备有效

专利信息
申请号: 201410082915.1 申请日: 2014-03-07
公开(公告)号: CN103823792B 公开(公告)日: 2017-01-11
发明(设计)人: 杨路军;潘照明 申请(专利权)人: 网易(杭州)网络有限公司
主分类号: G06F17/22 分类号: G06F17/22;G06F17/30
代理公司: 北京信远达知识产权代理事务所(普通合伙)11304 代理人: 赵百令,刘大玲
地址: 310052 浙江省杭州*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明的实施方式提供了一种从文本文档中检测热点事件的方法。该方法包括:A)、对在当前采样周期所采集的文本文档进行分词处理,从而得到候选词;B)、从所述候选词中筛选出其词频大于或等于预设词频阈值,和/或,词频增长率大于或等于预设增长率阈值的候选词作为热点词;C)、将所述热点词分组,将属于同一事件的热点词分到同一个组中。本发明的方法可以解决现有技术中因短文本文档的特征的数量有限而导致的热点事件的检测准确性不高的问题,以及,现有技术中无法根据文档簇直观、明了地确定热点事件的内容的问题。此外,本发明的另一方面提供了一种从文本文档中检测热点事件的设备,例如,服务器上安装的软件。
搜索关键词: 文本 文档 检测 热点 事件 方法 设备
【主权项】:
一种从文本文档中检测热点事件的方法,包括:A)、对在当前采样周期所采集的文本文档进行分词处理,从而得到候选词;B)、从所述候选词中筛选出其词频大于或等于预设词频阈值,和/或,词频增长率大于或等于预设增长率阈值的候选词作为热点词;C)、将所述热点词分组,将属于同一事件的热点词分到同一个组中;其中,所述步骤C)包括:C1)、构建所述热点词的词向量,其中,所述词向量的分量为所述热点词分别在当前采样周期的前M个采样周期的词频,M为任意一个非零整数;C2)、对所述热点词的词向量进行归一化处理;C3)、计算归一化处理后的每两个热点词的词向量之间的相似度,作为每两个热点词之间的相似度;C4)、计算1与每两个热点词之间的相似度的差值,作为每两个热点词之间的距离;C5)、基于每两个热点词之间的距离,对所有热点词进行聚类处理,得到多个簇,一个簇即为一个组,从而将属于同一事件的热点词分到同一个组中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易(杭州)网络有限公司,未经网易(杭州)网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201410082915.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top