[发明专利]流式数据事件文本专题及检测系统在审
申请号: | 202011566187.3 | 申请日: | 2020-12-25 |
公开(公告)号: | CN112597269A | 公开(公告)日: | 2021-04-02 |
发明(设计)人: | 庄旭;袁鑫;贾莹;尹可鑫;张乾君 | 申请(专利权)人: | 西南电子技术研究所(中国电子科技集团公司第十研究所) |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/35;G06F16/34;G06F16/951 |
代理公司: | 成飞(集团)公司专利中心 51121 | 代理人: | 郭纯武 |
地址: | 610036 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 事件 文本 专题 检测 系统 | ||
本发明公开的一种流式数据事件文本专题及检测系统,可消除中间过程冗余,减少检测时间。本发明通过下述技术方案实现:专题检测模块构建专题及事件检测算法模型,采用爬虫技术从各大网络媒体、社交平台实时地爬取文本数据;专题追踪模块根据文本摘要模块提供的文本摘要信息给出专题摘要及关键字信息;关联检测模块检测各个方向的文本,划分其事件归属,设置确定长度的时间窗,将检测到的专题聚类的结果送入专题追踪模块获取具有更小粒度的聚类结果,事件识别模块采用层次聚类方式进行事件识别,并给出设计的专题摘要及事件抽取算法和专题摘要及关键字信息送至事件抽取模块,解析专题及事件的关键信息,得到一个数目较多的专题集。
技术领域
本发明属于专题检测与追踪、事件检测与抽取技术领域,特别是涉及一种针对流式文本数据的专题及事件检测系统。
背景技术
近年来,随着互联网和物联网的快速发展,互联网上每天都会产生大量的信息,互联网上充斥的大量信息,呈爆炸的不断加剧,人们越来越难以快速准确地从网上检索到高质量的有用新闻信息,而且这些海量的数据在很多应用中都会出现,而这其中有很大一部分数据是以流式数据的形式存在的。流式数据的特点是快速、大量、无序,并且要求快速的响应。国内外各类突发事件频发,新闻网站、社交平台作为人们信息交换最直接、最快速的途径,其中蕴含的信息对于突发事件的识别具有重要价值。然而由于互联网信息资源具有信息异质、异构、分散、重复现象严重的特点,缺少统一的形式化表达,形成各种各样的“信息孤岛”,很难对信息资源进行整合和利用,对特定用户而言,其中大部分信息均为无效信息,特别是一些与生活紧密相关的热点话题以及一些重要的大事件往往会通过网络率先引发、传输和扩散,这些信息往往会对社会公共安全造成重大影响,一方面人们越来越多的通过网络诉求、宣泄情感并且评论时事,另一方面网络也会成为虚假信息传播和扩散的平台,会被一些不法分子利用。如何高效、实时、全方位从网络数据流中捕捉热点话题和事件,快速呈现用户感兴趣的内容,已经成为网络舆情监控以及社会公共安全分析的重要研究内容。如何满足流式数据的处理需求也成为当前研究的一个热点课题。流式数据处理系统中常常要提取出事件,进而针对将来发生在流式数据上的事件做预测分析处理和对事件和主题的表达,以方便有效地获得想要了解的问题,满足相关的应用需求。快速有效的检测事件并进行相关的特征抽取,是提升突发事件把握能力,解析突发事件信息的关键。以数据驱动为主的可计算方法在数据规模变大以及数据本身变得更加复杂后,将面临巨大挑战。可以说,从网络跨媒体数据中快速挖掘出深层知识,并对其自然呈现,突破公共安全领域跨媒体数据处理的瓶颈问题。相应的,海量数据可计算性成为一个值得重视的问题。工业界也对大规模数据计算这一问题投入了大量人力和物力。如何对海量跨媒体数据进行挖掘,获取其蕴含的热点和敏感话题及重大事件,进而高效自然呈现,是当前网络跨媒体数据与人们现实生活紧密关联背景下公共安全面临的挑战。在大数据流式计算环境中,数据流往往是到达后立即被计算并使用,只有极少数的数据才会被持久化地保存下来,大多数数据往往会被直接丢弃。数据的使用往往是一次性的、易失的,即使重放,得到的数据流和之前的数据流往往也是不同的。这就需要系统具有一定的容错能力,要充分地利用好仅有的一次数据计算机会,尽可能全面、准确、有效地从数据流中得出有价值的信息。在大数据流式计算环境中,数据的产生完全由数据源确定,由于不同的数据源在不同时空范围内的状态不统一且发生动态变化,导致数据流的速率呈现出了突发性的特征。前一时刻数据速率和后一时刻数据速率可能会有巨大的差异,这就需要系统具有很好的可伸缩性,能够动态适应不确定流入的数据流,具有很强的系统计算能力和大数据流量动态匹配的能力。一方面,在突发高数据流速的情况下,保证不丢弃数据,或者识别并选择性地丢弃部分不重要的数据;另一方面,在低数据速率的情况下,保证不会太久或过多地占用系统资源。在大数据流式计算环境中,各数据流之间、同一数据流内部各数据元素之间是无序的:一方面,由于各个数据源之间是相互独立的,所处的时空环境也不尽相同,因此无法保证数据流间的各个数据元素的相对顺序;另一方面,即使是同一个数据流,由于时间和环境的动态变化,也无法保证重放数据流和之前数据流中数据元素顺序的一致性.这就需要系统在数据计算过程中具有很好的数据分析和发现规律的能力,不能过多地依赖数据流间的内在逻辑或者数据流内部的内在逻辑或者数据流内部的内在逻辑。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南电子技术研究所(中国电子科技集团公司第十研究所),未经西南电子技术研究所(中国电子科技集团公司第十研究所)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011566187.3/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置