[发明专利]流式数据事件文本专题及检测系统在审

专利信息
申请号: 202011566187.3 申请日: 2020-12-25
公开(公告)号: CN112597269A 公开(公告)日: 2021-04-02
发明(设计)人: 庄旭;袁鑫;贾莹;尹可鑫;张乾君 申请(专利权)人: 西南电子技术研究所(中国电子科技集团公司第十研究所)
主分类号: G06F16/31 分类号: G06F16/31;G06F16/35;G06F16/34;G06F16/951
代理公司: 成飞(集团)公司专利中心 51121 代理人: 郭纯武
地址: 610036 四川*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据 事件 文本 专题 检测 系统
【说明书】:

发明公开的一种流式数据事件文本专题及检测系统,可消除中间过程冗余,减少检测时间。本发明通过下述技术方案实现:专题检测模块构建专题及事件检测算法模型,采用爬虫技术从各大网络媒体、社交平台实时地爬取文本数据;专题追踪模块根据文本摘要模块提供的文本摘要信息给出专题摘要及关键字信息;关联检测模块检测各个方向的文本,划分其事件归属,设置确定长度的时间窗,将检测到的专题聚类的结果送入专题追踪模块获取具有更小粒度的聚类结果,事件识别模块采用层次聚类方式进行事件识别,并给出设计的专题摘要及事件抽取算法和专题摘要及关键字信息送至事件抽取模块,解析专题及事件的关键信息,得到一个数目较多的专题集。

技术领域

本发明属于专题检测与追踪、事件检测与抽取技术领域,特别是涉及一种针对流式文本数据的专题及事件检测系统。

背景技术

近年来,随着互联网和物联网的快速发展,互联网上每天都会产生大量的信息,互联网上充斥的大量信息,呈爆炸的不断加剧,人们越来越难以快速准确地从网上检索到高质量的有用新闻信息,而且这些海量的数据在很多应用中都会出现,而这其中有很大一部分数据是以流式数据的形式存在的。流式数据的特点是快速、大量、无序,并且要求快速的响应。国内外各类突发事件频发,新闻网站、社交平台作为人们信息交换最直接、最快速的途径,其中蕴含的信息对于突发事件的识别具有重要价值。然而由于互联网信息资源具有信息异质、异构、分散、重复现象严重的特点,缺少统一的形式化表达,形成各种各样的“信息孤岛”,很难对信息资源进行整合和利用,对特定用户而言,其中大部分信息均为无效信息,特别是一些与生活紧密相关的热点话题以及一些重要的大事件往往会通过网络率先引发、传输和扩散,这些信息往往会对社会公共安全造成重大影响,一方面人们越来越多的通过网络诉求、宣泄情感并且评论时事,另一方面网络也会成为虚假信息传播和扩散的平台,会被一些不法分子利用。如何高效、实时、全方位从网络数据流中捕捉热点话题和事件,快速呈现用户感兴趣的内容,已经成为网络舆情监控以及社会公共安全分析的重要研究内容。如何满足流式数据的处理需求也成为当前研究的一个热点课题。流式数据处理系统中常常要提取出事件,进而针对将来发生在流式数据上的事件做预测分析处理和对事件和主题的表达,以方便有效地获得想要了解的问题,满足相关的应用需求。快速有效的检测事件并进行相关的特征抽取,是提升突发事件把握能力,解析突发事件信息的关键。以数据驱动为主的可计算方法在数据规模变大以及数据本身变得更加复杂后,将面临巨大挑战。可以说,从网络跨媒体数据中快速挖掘出深层知识,并对其自然呈现,突破公共安全领域跨媒体数据处理的瓶颈问题。相应的,海量数据可计算性成为一个值得重视的问题。工业界也对大规模数据计算这一问题投入了大量人力和物力。如何对海量跨媒体数据进行挖掘,获取其蕴含的热点和敏感话题及重大事件,进而高效自然呈现,是当前网络跨媒体数据与人们现实生活紧密关联背景下公共安全面临的挑战。在大数据流式计算环境中,数据流往往是到达后立即被计算并使用,只有极少数的数据才会被持久化地保存下来,大多数数据往往会被直接丢弃。数据的使用往往是一次性的、易失的,即使重放,得到的数据流和之前的数据流往往也是不同的。这就需要系统具有一定的容错能力,要充分地利用好仅有的一次数据计算机会,尽可能全面、准确、有效地从数据流中得出有价值的信息。在大数据流式计算环境中,数据的产生完全由数据源确定,由于不同的数据源在不同时空范围内的状态不统一且发生动态变化,导致数据流的速率呈现出了突发性的特征。前一时刻数据速率和后一时刻数据速率可能会有巨大的差异,这就需要系统具有很好的可伸缩性,能够动态适应不确定流入的数据流,具有很强的系统计算能力和大数据流量动态匹配的能力。一方面,在突发高数据流速的情况下,保证不丢弃数据,或者识别并选择性地丢弃部分不重要的数据;另一方面,在低数据速率的情况下,保证不会太久或过多地占用系统资源。在大数据流式计算环境中,各数据流之间、同一数据流内部各数据元素之间是无序的:一方面,由于各个数据源之间是相互独立的,所处的时空环境也不尽相同,因此无法保证数据流间的各个数据元素的相对顺序;另一方面,即使是同一个数据流,由于时间和环境的动态变化,也无法保证重放数据流和之前数据流中数据元素顺序的一致性.这就需要系统在数据计算过程中具有很好的数据分析和发现规律的能力,不能过多地依赖数据流间的内在逻辑或者数据流内部的内在逻辑或者数据流内部的内在逻辑。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南电子技术研究所(中国电子科技集团公司第十研究所),未经西南电子技术研究所(中国电子科技集团公司第十研究所)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011566187.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top