[发明专利]一种中文事件事实性识别方法和系统有效

专利信息
申请号: 201611170133.9 申请日: 2016-12-16
公开(公告)号: CN106844448B 公开(公告)日: 2020-05-15
发明(设计)人: 何天雄;李培峰;朱晓旭;朱巧明;周国栋 申请(专利权)人: 苏州大学
主分类号: G06F16/31 分类号: G06F16/31;G06F16/35;G06F16/36
代理公司: 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 代理人: 李阳
地址: 215000 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 中文 事件 事实性 识别 方法 系统
【说明书】:

发明涉及一种中文事件事实性识别方法和系统,利用事件事实性信息和它们之间的联系,采用机器学习和推理相结合的方法来识别中文事件的事实性。本发明的方法和系统,与现有的方法和系统相比,总体的识别性能有所提升,同时,在处理类别的不均衡问题上有更好的效果,尤其在事件数目较少的类别的事实性识别上有明显的性能提升。

技术领域

本发明涉及自然语言处理领域,尤其涉及一种中文事件事实性识别方法和系统。

背景技术

当人们谈论某一事件,表达对事件的观点和想法时,不仅仅传达了事件发生的时间、地点和人物等信息,还包含了对事件的立场和态度。其中态度和立场可分为两类:主观性和确定性,主观性即叙述者对当前事件主观性的看法,如赞成、反对或中立[2]。确定性即叙述者对当前事件真实与否的确定性程度,如一定发生、可能发生或者仍未发生等[3]。这里的确定性,即本文所指的事件事实性。

事件事实性识别就是判定当前事件发生的确定性程度。事件事实性的影响因素很多,事件句中的谓词语义往往隐含了事件叙述者的态度,例如“确实”、“证实”表示确定,“怀疑”、“推断”表示可能。否定词和一些特殊的句法结构如条件和目的从句,也会影响事件事实性的表达。除此之外,事件发生的时态、一些特殊的形容词和副词(可能、必须等)都会对事件的事实性造成影响。

目前有关事件事实性的研究较少,主要集中在英文方面,Diab[7]提出了一个基于机器学习模型的事实性标记方法。为简化模型,只认为事实性由文档作者表达,然后将事实性分为三类:“确定的事实性”(非常有可能会发生)、“不确定的事实性”(有可能会发生)和“不存在”(无法确定是否发生)。为验证他们的想法,建立了小型的语料库并使用YAMCHA序列标签系统,除一些基本特征外还使用了词性标签、词类特征、浅层句法信息等作为特征。Prabhakaran[8]使用了类似的方法,将其分成两个子任务:识别文档的主题和根据主题进行事实性分类,在引入了依存句法关系作为特征的同时使用了基于SVM和CRF模型的标记工具。Velldal[9]在Conan Doyle语料库的基础上,将事实性分为两类:“确定的事实性”和“不确定的事实性”,利用已标注的否定信息用于事实性分类,并将该方法用于辅助否定事件检测任务,使得否定事件检测精度得到提升。Kilicoglu[11]提出了一种基于规则的组合方法用于识别生物医学领域事件的事实性,该方法注重同一覆盖域内事件谓词之间的联系,并对其进行分类。实验通过一系列规则实现事件的确定性和极性的识别,使用GENIA事件语料库,在事件确定性的识别上取得不错的效果,但在极性的识别上稍弱。使用机器学习的方法分别识别克罗地亚语料事件的确定性和极性,考虑到克罗地亚语的特性,对特定的词汇信息进行处理并作为特征来识别极性,而在识别确定性上则着重考虑到某些触发词出现的位置信息,整体上取得了不错的效果。Lee[13]验证了无监督的方法用于事件监测和事实性识别的可行性,通过使用高质量的数据样本和一些简单的模型可以在一定程度上完成事件检测和事实性识别两个任务。

Sauri[5]从语言学的角度设计了一个事实性分析器-De Facto。为验证自己的思想,在TimeBank语料库的基础上,建立了用于事件事实性分析的FactBank语料库[6],FactBank将事件事实性分为七类:“确定发生”、“确定不发生”、“很可能发生”、“很有可能不发生”、“有可能发生”、“有可能不发生”和“不确定”。钱忠[10]提出了一个将事件事实性分析拆解为两步的方法。首先,依据事件事实性相关信息建立最大熵模型将事件分为“确定发生”和“不确定发生”两类,然后根据规则对“确定发生”类别再进行细分。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611170133.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top