[发明专利]一种基于文档词汇特征变化的突发事件检测方法无效

专利信息
申请号: 201310170296.7 申请日: 2013-05-10
公开(公告)号: CN103246728A 公开(公告)日: 2013-08-14
发明(设计)人: 王厚峰;张龙凯 申请(专利权)人: 北京大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京万象新悦知识产权代理事务所(普通合伙) 11360 代理人: 朱红涛
地址: 100871*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 文档 词汇 特征 变化 突发事件 检测 方法
【说明书】:

技术领域

发明提出了一种基于可比时间段文档集合中词汇特征变化的突发事件检测方法,通过分析可比时间段文档集合中词汇使用的不同,推断可能的新事件,特别是突发事件。本发明属于文本挖掘和信息检索领域。 

背景技术

网络信息化为人们传递消息、表达观点、获取信息提供了非常方便的手段。网络已经成为了信息的海洋。如何充分利用网络信息资源,挖掘感兴趣的信息,追踪热点事件,已经成为人们非常关注的问题。 

突发事件是一种可能给社会的安宁带来冲击的事件,历来受到政府机构和相关企业部门的高度重视。在当今社会,网络成为事件报道和信息传播的主要途径。一旦出现突发事件,通常会有大量的跟进报道。从网上快速检测突发事件、跟踪事件的发展过程,对于政府决策和维护社会稳定有着重要的作用。 

由于事件的突然性和特殊性,相关报道在用词和语言的表达方面也会存在不同之处。本发明就是针对文档集合,通过分析用词规律的变化来检测可能的突发事件。 

发明内容

为了便于说明,先约定下列概念: 

内容词:这里指名词、动词和形容词。 

线索词:也叫区分词,是能够用于检测突发事件、并表达事件内容的词语。突发线索词可以区分普通报道,特别是规律性的报道。在这里,突发线索词属于内容词。 

目标文档集:待挖掘的文档集合。目标文档集包含若干文档,每一文档对应于一篇网上时政新闻文章。 

比较文档集:用于同目标文档集作对比的文档集,通过对比来检测目标文档在用词方面的变化情况,以判断目标文档是否含有突发事件。一般使用目标文档之前若干年同一时间段的新闻文章作为比较文档集。 

突发事件:指目标文档集中与比较文档集差异较大的一组文档的集合共同表达的内容,可以由一组线索词来代表。在新闻文档集合中,发生在A年份但在之前若干年份同一时期没有发生的事件可以看成是突发事件。 

本发明的目的是提供一种简单的方法,在没有人工干预的情况下,容易检测目标文档集中所含的突发事件。 

本发明的原理是:利用某种度量方法计算目标文档集与比较文档集中差异明显的词,将它们作为突发线索词;再对线索词集进行聚类处理,然后将聚类结果映射到事件,从而找到目标文档集的突发事件。度量方法可以根据需要选择,例如选择TF-IDF方法,也可以是自己编写的其他方法。这里提到的TF-IDF方法是信息检索中一种经典的计算方法,其中,TF(t)表示词t在一个文档中出现的频率(Term Frequency),DF(t)表示词t在多少个文档中出现(Document Frequency),IDF(t)称为t的逆文档频率(Inverse Document Frequency),可以是DF(t)的倒数或其它变形的计算方法。如果词t在某个文档中出现得非常频繁,同时,很少在其它文档中出现,那么,这一个词就是差异明显的词,也度量了所在文档与其它文档的某种差异。在后面的实施部分将详细说明TF和IDF的计算方法。 

本发明的技术方案如下: 

一种基于文档词汇特征变化的突发事件检测方法(参图1),其特征是,包括如下步骤: 

步骤一:利用计算机从新闻网站(例如腾讯、新浪)上的时政新闻报道中爬取指定时间段(例如,某一天)的新闻文章,每一篇文章表示为一个文档,时间段内的全部文档构成目标文档集合;对每一个文档进行预处理,包括汉语词切分和词性标注;留下内容词,过滤掉其它词;把每一个目标文档及其处理结果存储到计算机的数据库中; 

步骤二:获取前面k年与目标文档相同时间段及前r天和后r天的新闻文档作为比较文档集;对比较文档集同样进行汉语切词和词性标注处理,保留内容词,将每一个对比文档及其处理结果存储在计算机的数据库中;这里的k值和r值可以根据需要设置; 

步骤三:从数据库中提取目标文档集中的所有线索词; 

步骤四:对线索词集聚类,形成突发事件描述。 

所述的突发事件检测方法,其特征是,所述步骤三,如下实现: 

S31:从数据库中获取目标文档集、比较文档集的所有内容词以及词频; 

S32:用一定的信息衡量标准计算目标文档集合中的内容词与比较文档集中相同词的差异性; 

S33:根据一定的顺序排列,把排在前面的部分词语筛选出来,作为目标文档集的线索词。 

所述的突发事件检测方法,其特征是,所述步骤四,如下实现: 

S41:构建线索词之间的相关度矩阵; 

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310170296.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top