[发明专利]实时识别突发事件微博数据流的检测系统在审
申请号: | 202011566168.0 | 申请日: | 2020-12-25 |
公开(公告)号: | CN112597309A | 公开(公告)日: | 2021-04-02 |
发明(设计)人: | 庄旭;尹可鑫;甘翼;袁鑫;丛迅超;李贵 | 申请(专利权)人: | 西南电子技术研究所(中国电子科技集团公司第十研究所) |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F16/335;G06F16/31;G06F40/295;G06Q50/00 |
代理公司: | 成飞(集团)公司专利中心 51121 | 代理人: | 郭纯武 |
地址: | 610036 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实时 识别 突发事件 数据流 检测 系统 | ||
1.一种实时识别突发事件微博数据流的检测系统,包括:依次串联的实体抽取模块、旁接了趋势识别模块的实体过滤模块,相似度计算模块、相似度过滤模块、聚类链接模块、聚类定级模块和数据存储模块,构建一个从原始微博数据流到事件检测、识别和存储的全流程系统,其特征在于:实体抽取模块基于RoBERTa-wwm-large-ext模型,并在CLUE学术组织发布的NER数据集上进行训练,用于抽取多种类型的命名实体;使用爬虫技术从各省市县认证的官方微博及各大V账号实时地爬取文本数据,并对爬取的数据进行数据清洗;将清洗后的数据输入到实体抽取模块,利用实体抽取模块实时地抽取数据中所包含的命名实体;趋势识别模块将微博作为突发事件网络舆情的数据来源,抽取微博数据中有的命名实体和地理区域,以实体,地区,计数方式进行存储,利用“地域-实体”二元组计算得到关于不同地域的热词列表;实体过滤模块持续维护地区热词表,对该热词表进行周期性的更新,利用地区热词表过滤掉那些不具有热度的实体;相似度计算模块对实体过滤后剩余的实体进行词频(Frequency)计算,同时建立一个确定窗口内的实体共生矩阵(co-occurrences),依靠词频计数和共生矩阵计算实体相似度,以实体相似度的数值为边,构建实体关系图(Graph);相似度过滤模块滤除实体关系图中相似度小于阈值S的边;实体聚类模块利用Louvain算法计算实体关系图中的社区的模块度,采用分辨率R(Resolution)调整图中社区(Communities)的细粒度,得到相应的聚类集合CT;聚类链接模块将上一时间窗口的聚类集合CT-1与当前时间窗口聚类集合CT-相邻之间聚类看做是二分图最大匹配(Bipartite Matching)问题,对每一个事件窗口内的聚类基本元素(Cluster)和事件进行持续跟踪,找出聚类链接;聚类定级模块对经过聚类链接的聚类结果,依据其所包含的热词数目进行定级;最后,数据存储模块将聚类链接,聚类定级等信息做相应的存储。
2.如权利要求1所述的实时识别突发事件微博数据流的检测系统,其特征在于:趋势识别模块根据实体抽取模型抽取命名实体,同时结合数据清洗阶段得到的地理位置信息,建立一个地区热词表,对地区热词评分的模块度和紧密度评价模型,得到如公式(1)所示的实际表示了某一实体e在某一地区d的出现次数,并且E(d,e)实际表示了某一实体在下一个时间窗口出现的次数的期望值:
将每一个期望评分靠前的实体或称热词存储在内存中方便后续使用,
其中,Ns表示一个较短时间窗口内的计数,Nl表示一个较长时间窗口的计数,d表示地区,e表示某一命名实体。
3.如权利要求1所述的实时识别突发事件微博数据流的检测系统,其特征在于:相似度计算模块判断不同命名实体之间的相似度,采用如下所示的相似度计算公式(2)计算实体X和Y的余弦相似度:
4.如权利要求3所述的实时识别突发事件微博数据流的检测系统,其特征在于:相似度过滤模块对实体间的相似度进行过滤,如果X和Y的两个命名实体之间相似度小于阈值S,则删除实体关系图中连接两实体的边。
5.如权利要求1所述的实时识别突发事件微博数据流的检测系统,其特征在于:实体聚类模块基于社区发现算法Louvain计算图中的区域模块度和紧密度,利用分辨率R调整图中社区的细粒度,模块度由代表节点i,j间连接的权重Aij和与节点i相连的所有边的权重之和ki=∑jAij,以及示表整个网络连接的权重总和的计算得出,用公式(3)所示模块度计算公式计算模块度:
其中,m表示网络连接的权重总和,ki与节点i相连的所有边的权重之和,kj表示与节点j相连的所有边的权重之和,δ(ci,cj)表示节点i,j是否在同一个社区中(相同时取1,不同时取0),ci,cj表示节点i,j的社区编号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南电子技术研究所(中国电子科技集团公司第十研究所),未经西南电子技术研究所(中国电子科技集团公司第十研究所)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011566168.0/1.html,转载请声明来源钻瓜专利网。