[发明专利]一种基于自然语言理解的文本中事件的抽取方法有效

申请号：	201811084235.8	申请日：	2018-09-18
公开（公告）号：	CN109446513B	公开（公告）日：	2023-06-20
发明（设计）人：	姜晓夏;吴振锋;葛唯益;杨岩;王羽;王振宇;丁蔚然;罗子娟	申请（专利权）人：	中国电子科技集团公司第二十八研究所
主分类号：	G06F16/25	分类号：	G06F16/25;G06F40/211;G06F40/289;G06F40/30;G06F16/36
代理公司：	江苏圣典律师事务所 32237	代理人：	黄振华
地址：	210007 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于自然语言理解的文本中事件的抽取方法，用于解决在计算社会科学领域，政治事件自动理解和自动量化的难题。本发明可以从海量的非结构化文本中，自动提取出结构化的政治事件，并对事件的发起者、承受者、事件类型、时间、地点等要素进行规范化编码。现有政治事件提取系统如Petrarch、BBN Serif均针对英文进行处理，本发明可弥补中文政治事件自动提取的空白。提取出的事件数据可用于开展安全形势、国家关系等分析和预测应用。
搜索关键词：	一种基于自然语言理解文本事件抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于自然语言理解的文本中事件的抽取方法，其特征在于，包括如下步骤：步骤1，用户给定一篇中文文本作为输入，文本中的字段包含标题、正文、发布时间，其中标题和正文用于进行事件抽取，发布时间用于全文的时间映射；步骤2，对文本进行分句，并对每一句话进行分词、词性标注和实体识别；其中，分词和词性标注作为实体识别中特征提取的基础，而事件的发起者、承受者、地点三类要素将从实体识别的结果中产生；步骤3，对文本全文出现的时间进行抽取，并以步骤1中发布时间作为基准，将不同表达方式的时间映射到同一时间轴，作为候选的事件发生时间；步骤4，对文本进行过滤，过滤标准包括：时间超出范围、不包含实体、匹配停止模式，保留下来的句子被称为事件句；步骤5，对事件句进行句法解析，并基于生成的句法树，通过广度优先遍历获取句子中的动词，将动词按照从根到叶子节点的顺序组织，称为关键动词列表；步骤6，对事件句进行自动语义角色标注，并基于标注的结果，获取每个关键动词所对应的地点LOC和时间TMP角色；步骤7，对关键动词列表中的每个元素，以其作为核心动词，从事件模板库中获取到对应的事件模板列表，按照预定的优先级进行模板匹配和事件要素抽取；步骤8，结合匹配的模板，判断句子是否属于特殊句式，并对结果进行相应的转换；步骤9，对抽取的结果进行拆解和变换，形成一到多个事件，使发起者、承受者、事件发生地形成一一对应的关系；步骤10，参考CAMEO编码规范，利用参与者编码表对发起者和承受者的国家、角色、宗教、职位属性进行编码；步骤11，利用地理信息库对事件发生地的国家、所属行政区、经纬度属性进行编码；步骤12，利用事件评分表对描述事件和平和冲突程度的分值、事件对双边关系的影响分值进行赋值，并将事件划分到具体的类别。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第二十八研究所，未经中国电子科技集团公司第二十八研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811084235.8/，转载请声明来源钻瓜专利网。

上一篇：数据处理方法、装置、终端设备及计算机存储介质
下一篇：新闻实体识别模型的构建方法、装置和计算机设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于自然语言理解的文本中事件的抽取方法有效

专利文献下载