[发明专利]面向短文本的群体性事件预警方法和系统有效

申请号：	201410299114.0	申请日：	2014-06-26
公开（公告）号：	CN104091054B	公开（公告）日：	2017-12-05
发明（设计）人：	孙正雅;王桂香;梁倩;郝红卫	申请（专利权）人：	中国科学院自动化研究所
主分类号：	G06F19/00	分类号：	G06F19/00;G06F17/27
代理公司：	中科专利商标代理有限责任公司11021	代理人：	宋焰琴
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	面向文本群体性事件预警方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及信息安全领域，更具体而言，涉及一种面向短文本的群体性事件的预警方法和系统。

背景技术

我国社会正走向群体性事件多发阶段，如相继发生在西藏拉萨、新疆乌鲁木齐、新疆巴楚、云南昆明等地的群体性事件，不仅造成惨痛的人员伤亡，而且带来巨大的经济损失和恶劣的社会影响。为了避免或最大限度地化解群体性事件的发生，建立合理有效的预警监测机制开始受到关注和重视，这就需要收集反映舆情动向的相关信息和数据，及时识别出潜在的群体性矛盾并排除警情，而获取信息是危机预警的前提和源头。

伴随互联网和通信网的日益普及，网络通信和短消息已经成为人们进行信息发布和交流的重要工具，也成为了解舆情的直接渠道。此状况下，利用网络交流平台自身的特点(即信息长度短、结构复杂以及变形词多等特点)，建立起完善的短文本信息反馈网络，提前发现潜在的危险因素，为群体性安全事件的应急管理提供及时、准确、全面的信息就显得迫在眉睫，有着非常重要的现实意义。这其中的关键技术就是如何从海量数据中自动甄别有用信息并进行实时跟踪和预警。

目前有些研究工作根据数据是否包含所关心的敏感词进行预警，敏感词库的制备往往需要人工参与和定时更新，而且这种方法忽视了上下文语境的影响，事实上特定词汇在不同语境下的语义不尽相同，例如“散步”可以是召集群体性事件的敏感词，但是在很多语境下，“散步”仅代表人们休闲或锻炼的一种形式而已。也有研究工作提出自动从数据中提取上下文特征并训练“词袋模型”进行描述和预测，该模型假设特征词之间相互独立，并不考虑词序和句法特征，于是严重影响预警结果的准确性，例如“民众闹事影响社会稳定”，尽管该句中包含敏感词“民众”和“闹事”，但并非蓄意召集非法集会；而且由于一词多义和多词一义现象的存在，使得单纯将词匹配得到的类别信息作为判定敏感事件或者同一事件的做法可能导致信息不一致、冗余等问题。从实际的测试效果也容易看出，其信息甄别、跟踪和预警的准确性、全面性等方面尚存在进一步提升的空间。

发明内容

鉴于以上提出的问题，本发明提出一种面向短文本的结合知识库的群体性事件预警方法和系统，旨在克服现有技术中存在的上述问题。

具体地，根据本发明的一个方面，提供一种面向短文本的群体性事件预警方法，包括以下步骤：

步骤S3：对短文本进行全局结构化处理和在线聚类，并根据每个“聚类簇”内所包含的短文本数目是否超过给定阈值来决定是否进行及时预警。

优选地，在所述步骤S3之前还包括以下步骤：

步骤S1：基于互联网和通信网获取的领域相关语料资源，自动构建面向群体性安全事件的领域知识库，包括领域本体库、事实库、事件库和规则库，并实现其半自动化的知识维护和更新；以及

基于步骤S1构建的领域知识库执行步骤S3。

优选地，所述步骤S1包括以下步骤：

步骤S11：构建领域本体库，库中存放了领域概念的层次化组织形式，而且概念之间具有等价关系以及可能的领域关系约束；

步骤S12：构建领域事实库，库中存放了经过语义消歧以及实体唯一性标识而得到的结构化元组集合；

步骤S13：构建领域事件库，包括领域相关词汇，这些词汇由行为、施事、受事、修饰、结果、时间和地点等类型组成；

步骤S14：构建领域规则库，存放了概念元组之间的等价关系及其成立的概率。