[发明专利]面向网络流式数据的事件实时过滤方法和系统有效
申请号: | 201310136896.1 | 申请日: | 2013-04-19 |
公开(公告)号: | CN103198146A | 公开(公告)日: | 2013-07-10 |
发明(设计)人: | 程学旗;刘盛华;邱文一;王元卓;刘悦;莫溢;黄展坤 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 网络 数据 事件 实时 过滤 方法 系统 | ||
技术领域
本发明涉及信息检索和过滤,尤其涉及从网络流式数据中实时过滤事件的方法。
背景技术
目前互联网产生的用户信息数量巨大,论坛、博客、新闻以及社会媒体等信息内容无处不在,尤其像微博这样的信息,更新速度快,实时性强,这些信息源源不断的产生形成一种流式数据。国际知名微博Twitter的工程副总裁迈克尔·雅培(Michael Abbott)于2011年9月28日接受采访时透露,最近Twitter每天平均产生2.3亿条消息。国内新浪2012年2月29日的统计数据显示新浪微博注册用户突破3亿大关,用户每日发博量超过1亿条。社会媒体迅速、即时,给人们的生活带来便利的同时,也因其产生的速度远远地超越了人们的利用效率,使得人们从中难以及时地获取有效的信息。
这种流式数据也可以被称为网络流式数据,是指按照时间顺序无限增加的数据观测值向量所组成的数据序列,也可以将流式数据看成历史数据和不断增加的更新数据的并集。网络流式数据中事件的主题内容包括了现实社会中政治、经济、军事、金融、生活、娱乐等方方面面。因此,对于大量流式数据的实时处理跟踪或过滤出其中的事件成为研究的热点。
例如,2008年的美国总统大选,上演了一场史无前例地利用社会媒体YouTube和Facebook进行筹集资金,向选民传递候选者的信息和说词的案例。麻省理工的研究者随后通过挖掘博客的流式数据,来展示参选人的支持度与其赢得的选票数目具有吻合的走势(可参见参考文献1,P.Gloor,J.Krauss,S.Nann,K.Fischbach,and D.Schoder,“Web Science2.0:Identifying Trends through Semantic Social Network Analysis”,Computational Science and Engineering International Conference,第4卷,第215-222页,2009年8月)。A.Tumasjan等人对Twitter上的流式数据进行研究,以德国联邦选举事件为案例,发现Twitter上的内容可以作为一个政治观点的有效指示器,合理地反映了当前离线的政治情感(可参见参考文献2,A.Tumasjan,T.O.Sprenger,P.G.Sandner,I.M.Welpe.Predicting Elections with Twitter:What140Characters Reveal about Political Sentiment.In Fourth International AAAI Conference on Weblogs and Social Media,2010)。参考文献3(T.Sakaki,M.Okazaki,and Y.Matsuo.Earthquake Shakes Twitter Users:Real-time Event Detection by Social Sensors.Proceedings of WWW2010:the International World Wide Web Conference,pp.851-860,2010)利用Twitter流式数据的时效性,来监测特定的事件——地震,并利用时空信息发现震心。参考文献4(Asur,S.and Huberman,B.,Predicting the Future With Social Media,Arxiv preprint arXiv:1003.5699,2010.)通过对Twitter信息中的某部电影的相关讨论或事件进行挖掘建立模型来预测票房。
但是,目前的这类对互联网中的大量的文本流式数据进行事件实时过滤的系统大多功能都比较专一,通用性差,对业务变更适应性差。例如,现有的过滤系统针对特定领域中的特定文本数据而设计,而各个领域的文本格式不同,过滤所使用的规则也不同(实际上过滤系统就是使用某种规则去筛选出所需的文本),因此这些过滤系统的复用性差,对业务变更适应性差。对于不同领域的文本数据,需要分别开发不同的过滤系统,难以满足用户多样的需求,而且还浪费人力和资源等等。
发明内容
因此,本发明的目的在于克服上述现有技术的缺陷,提供一种通用的事件实时过滤方法,从互联网中的大量的文本流式数据中实时监控和过滤事件。
本发明的目的是通过以下技术方案实现的:
一方面,本发明提供了一种面向网络流式数据的事件实时过滤方法,包括:步骤1)响应于加载事件规则的请求来加载事件规则,所述事件规则包括过滤规则列表和信息源范围;步骤2)根据所加载的事件规则对网络流式数据进行过滤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310136896.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:显示装置及可显示多灰阶的显示方法
- 下一篇:彩色滤光片
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置