[发明专利]一种中文事件联合推理方法有效
申请号: | 201610333246.X | 申请日: | 2016-05-19 |
公开(公告)号: | CN106055536B | 公开(公告)日: | 2018-08-21 |
发明(设计)人: | 朱少华;李培峰;朱巧明;周国栋;朱晓旭 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N5/04 |
代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 李阳 |
地址: | 215100 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出篇章级别的中文事件联合推理方法和系统,该方法和系统能利用论元抽取中有价值的信息来反过来帮助触发词抽取,减少传统管道模型中的级联错误。在实现方法上,本发明采用机器学习和推理相结合的方法,利用各种语言知识来识别中文事件时序关系。本发明的方法和系统,与现有方法和系统相比,识别性能得到了一定提升。 | ||
搜索关键词: | 一种 中文 事件 联合 推理 方法 系统 | ||
【主权项】:
1.一种中文事件联合推理方法,用于识别从原始文本中抽取事件实例,其特征在于包括步骤:S10、对需要识别事件时序关系的原始文本中每个文档分别调用分词工具、句法分析工具、依存关系分析工具和事件抽取工具进行词语切分、实体识别、句法分析、依存关系分析和事件抽取,得到测试语料事件集合;S20、分别从预先标注了各类信息的标注语料集合和测试语料事件集合中抽取所有触发词抽取和论元抽取的特征信息,得到标注语料特征集合和测试语料特征集合;S30、根据标注语料特征集合中触发词抽取的特征,训练一个最大熵触发词识别模型和一个触发词分类模型,接着根据标注语料特征集合中论元抽取的特征,训练一个最大熵论元识别模型,再利用所述最大熵触发词识别模型识别测试语料特征集合中每个候选触发词,利用触发词分类模型给测试语料特征集合中每个候选触发词进行分类,利用论元识别模型识别测试语料 特征集合中每个候选论元,最后得到事件联合推理第一集合;S40、对事件联合推理第一集合中的所有候选触发词,利用触发词与论元信息推理、论元数量推理和论元同指一致性推理规则进行触发词推理,得到事件联合推理集合;所述步骤S30还包括:S301、把标注语料特征集合中的特征作为输入,调用最大熵分类工具训练得到一个最大熵触发词识别模型和一个触发词分类模型,所述最大熵触发词识别模型包括标注语料特征集合、训练得到的参数和最大熵分类工具;S302、把测试语料特征集合中每个触发词的特征作为输入,调用最大熵触发词识别模型进行触发词识别,得到触发词识别第一集合;S303、在识别后的结果集中设置一个阈值,概率大于等于的候选触发词实例认为可信,小于认为不可信,分别构成可信集合和不可信集合;S304、用训练好的触发词分类模型对可信集合和不可信集合上的所有候选触发词进行触发词分类,即每个候选触发词对应一个事件类型,得到触发词分类集合;S305、把标注语料特征集合中的特征作为输入,调用最大熵分类工具训练得到一个最大熵论元识别模型,所述最大熵论元识别模型包括标注语料特征集合、训练得到的参数和最大熵分类工具;S306、把测试语料特征集合中经过S304中分类得到的事件类型作为论元识别基准系统的输入,得到论元识别测试集;S307、调用训练好的最大熵论元识别模型对论元识别测试集进行论元识别,得到论元识别结果集;所述步骤S40还包括:S401、找出触发词识别第一集合中分类为不可信集合且识别为假触发词的触发词集合及对应的论元集合,其中论元集合为测试语料 特征集合中被最大熵论元识别模型识别为真论元的那部分集合,利用触发词与论元信息推理规则将在最大熵论元识别时识别为假触发词的触发词重新识别出来,得到触发词识别第二集合,其中,触发词与论元信息推理规则如下:通过论元的类型、触发词的词性、触发词与论元的相对位置关系和触发词与论元之间的依存关系路径来推理该触发词是否是真触发词,触发词与论元之间的依存关系路径中有两个相邻的依存关系相同,则去掉其中一个,去掉相邻的重复依存关系后,如果依存路径中的依存关系数量大于N,则该依存路径为NULL;S402、在触发词识别第二集合中设置一个阈值,将集合分为可信集合和不可信集合,找出触发词识别第二集合中分类为不可信集合且识别为假触发词的触发词集合及对应的论元集合,利用论元数量推理规则将在最大熵论元识别时识别为假触发词的触发词重新识别出来,得到触发词识别第三集合,其中,论元数量推理规则如下:通过论元的数量来推理对应的触发词是否是真触发词,在进行论元识别时,一个候选触发词可对应多个候选论元,如果这些候选论元中没有识别为真论元或者识别为真论元的数量很少,则该候选触发词是假触发词的概率很大,反之,如果这些候选论元中有多个候选论元被识别为了真论元,则该候选触发词是真触发词的概率就很大;S403、在触发词识别第三集合中设置一个阈值,将集合分为可信集合和不可信集合,找出触发词识别第三集合中识别为假触发词的触发词集合及对应的论元集合,利用论元同指一致性推理规则将在最大熵论元识别时识别为假触发词的触发词重新识别出来,得到最终的触发词识别集合,其中,论元同指一致性推理规则如下:利用可信集合产生的论元,与不可信集合产生的论元建立联系,作为推理的证据,在同一文档中,有两个候选触发词对应的论元同指,其中一个候选触发词是真触发词,则另一个候选触发词也很有可能是真触发词;S404、用最大熵触发词分类模型对推理出来为真触发词的最终触发词识别集合进行触发词分类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610333246.X/,转载请声明来源钻瓜专利网。
- 上一篇:一种纳米流体传热传质监测装置及方法
- 下一篇:一种税务报告生成方法及装置