[发明专利]一种基于文体和词表的突发事件信息抽取方法及系统在审
申请号: | 201711343022.8 | 申请日: | 2017-12-14 |
公开(公告)号: | CN107844609A | 公开(公告)日: | 2018-03-27 |
发明(设计)人: | 邱奇志;周三三;刘长发;陈晖;於利艳;於剑 | 申请(专利权)人: | 武汉理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙)42222 | 代理人: | 魏波 |
地址: | 430070 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文体 词表 突发事件 信息 抽取 方法 系统 | ||
1.一种基于文体和词表的突发事件信息抽取方法,其特征在于,包括以下步骤:
步骤1:获取新闻网站内容作为初始新闻语料库;
步骤2:事件识别与分类;
对初始新闻语料库进行预处理,判断新闻报道是否为突发事件,并在此基础上对获取新闻进行分类;
步骤3:信息抽取;
完成突发事件基本属性的抽取,实现突发事件信息结构化。
2.根据权利要求1所述的基于文体和词表的突发事件信息抽取方法,其特征在于:步骤2中,所述对初始新闻语料库进行预处理,包括去除新闻中因文本爬取保存过程中发生的字符乱码,舍弃新闻内容字数少于30个字符的新闻。
3.根据权利要求1所述的基于文体和词表的突发事件信息抽取方法,其特征在于:步骤2中,判断新闻报道是否为突发事件,首先以突发事件类型构建基础词表,基础词表由领域专家构建;利用Google Word2Vec,以基础词表为核心,无监督地生成扩充词表,选取Word2Vec计算出来的词中相关度最高的前10个词构成子关键词;
然后判断输入新闻是否包含基础词表中关键词,若包含则属于该基础词表所属类型,若不包含则统计输入新闻包含扩充词表中子关键词个数,若大于2,则该新闻属于扩充词表所属类型,反之,该新闻不属于突发事件。
4.根据权利要求3所述的基于文体和词表的突发事件信息抽取方法,其特征在于:步骤2中,所述对突发事件分类,包含四类:事故灾害、公共卫生、社会安全、自然灾害。
5.根据权利要求1-4任意一项所述的基于文体和词表的突发事件信息抽取方法,其特征在于:步骤3中,将web新闻时间分为新闻发表时间pt、新闻报道时间rt、事件发生时间et;在突发事件时间基本属性抽取过程中,对于新闻的时间属性抽取,依次提取新闻发表时间pt、新闻报道时间rt、事件发生时间et,若成功提取,则覆盖前一时间。
6.根据权利要求1-4任意一项所述的基于文体和词表的突发事件信息抽取方法,其特征在于:步骤3中,在突发事件基本属性抽取过程中,对于事件摘要属性抽取,采用基于最大边界相关法MMR,分别计算句子在文本中的重要性分值和句子与已被选择成摘要的句子之间的相似度最大值,按照比例相减,取得分最高的句子加入摘要集。
7.根据权利要求1-4任意一项所述的基于文体和词表的突发事件信息抽取方法,其特征在于:步骤3中,在突发事件基本属性抽取过程中,对于突发事件地点属性抽取,根据中国地名,建立各省市详细的地名表,采用树结构存储;在对新闻中地名实体进行识别后,遍历地名结构树,从而得到突发事件完整地点。
8.根据权利要求1-4任意一项所述的基于文体和词表的突发事件信息抽取方法,其特征在于:步骤3中,在突发事件基本属性抽取过程中,对于突发事件伤亡属性抽取,采用文体、词表和规则相结合的方法,首先构建伤亡词表,同时定义相关规则进行突发事件伤亡属性抽取。
9.根据权利要求1-4任意一项所述的基于文体和词表的突发事件信息抽取方法,其特征在于:步骤3中,在突发事件基本属性抽取过程中,对于突发事件的经济损失属性抽取,采用文体、词表和规则相结合的方法,首先构建损失词表识别描述经济损失的句子,然后根据文体特点和规则定义正则抽取经济损失属性。
10.一种基于文体和词表的突发事件信息抽取系统,其特征在于:包括信息获取模块、事件识别与分类模块、信息抽取模块;
所述信息获取模块,用于获取新闻网站内容作为初始新闻语料库;
所述事件识别与分类模块,用于对初始新闻语料库进行预处理,判断新闻报道是否为突发事件,并在此基础上对突发事件分类;
所述信息抽取模块,用于完成突发事件基本属性的抽取,实现突发事件信息结构化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉理工大学,未经武汉理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711343022.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于形成包装的方法和系统
- 下一篇:卷轴部件、膜收纳体以及卷轴部件的制造方法