[发明专利]一种中文事件事实性识别方法和系统有效
申请号: | 201611170133.9 | 申请日: | 2016-12-16 |
公开(公告)号: | CN106844448B | 公开(公告)日: | 2020-05-15 |
发明(设计)人: | 何天雄;李培峰;朱晓旭;朱巧明;周国栋 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/35;G06F16/36 |
代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 李阳 |
地址: | 215000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 事件 事实性 识别 方法 系统 | ||
1.一种中文事件事实性识别方法,其特征在于:用于识别中文事件的事实性,包括步骤:
S10、从预先标注了各类事实性信息的标注语料库中抽取中文事件的事实性相关信息及其真实事实性构造基本的标注语料集合;从预先标注了各类事实性信息的测试语料库中抽取中文事件的事实性相关信息构造基本的测试语料集合;
S20、在标注语料集合上,针对每个中文事件的事实性相关信息,使用基于规则的方法,进行特征的处理、转化和融合,得到一系列事实性相关特征,再加入事件的真实事实性,构造出标注语料特征集合;
在测试语料集合上,针对每个中文事件的事实性相关信息,使用相同的基于规则的方法,进行特征的处理、转化和融合,得到一系列事实性相关特征,构造出测试语料特征集合;
S30、根据标注语料特征集合中各个事件的特征,训练一个最大熵事件事实性识别模型,再利用最大熵事件事实性识别模型识别测试语料特征集合中事件的事实性;
所述步骤S20的具体过程如下:
S201、事件句特征处理,选取每个事件所属的事件句情态和时态信息作为特征,并以此构造语料特征集合;
在标注语料集合中,选取每个事件所属的事件句的情态和时态信息作为事件句特征,并构造标注语料特征集合;
在测试语料集合中,选取每个事件所属的事件句的情态和时态信息作为事件句特征,并构造测试语料特征集合;
S202、词汇级特征处理,对每个事件的事件源、否定词和程度词进行词性标注,进而选取此三者词性作为词汇级特征,并加入到语料特征集合中;
在标注语料集合中,使用词性标注工具对事件源、否定词和程度词三类词汇信息进行词性标注,选取它们的词性作为特征,若当前事件不存在以上某一词汇,则默认其对应词性特征为“无”,并将此三类信息加入到语料特征集合中;
在测试语料集合中,使用词性标注工具对事件源、否定词和程度词三类词汇信息进行词性标注,选取它们的词性作为特征,若当前事件不存在以上某一词汇,则默认其对应词性特征为“无”,并将此三类信息加入到语料特征集合中;
S203、谓词级别特征处理,对每个事件的事件选择谓词的级别属性进行规则转化,进而获取谓词级别特征,并加入到语料特征集合中;
在标注语料集合中,对每个事件按规则转化其事件选择谓词的级别属性,进而获取谓词级别特征;
在测试语料集合中,对每个事件按规则转化其事件选择谓词的级别属性,进而获取谓词级别特征;
S204、程度词属性特征处理,对每个事件的程度词时态和级别进行特征转化,获取程度词的时态特征和级别特征,并加入到语料特征集合中;
在标注语料集合中,对每个事件的程度词时态和级别按规则进行特征转化,获取程度词的时态特征和级别特征,即程度词属性特征,并加入到语料特征集合中;
在测试语料集合中,对每个事件的程度词时态和级别按规则进行特征转化,获取程度词的时态特征和级别特征,即程度词属性特征,并加入到语料特征集合中;
S205、级别特征处理,对每个事件的事件选择谓词的级别和程度词的级别进行规则转化,进而获取级别特征,并加入到语料特征集合中;
在标注语料集合中,对每个事件的事件选择谓词的级别和程度词的级别按规则进行特征转化,获取级别特征,并加入到语料特征集合中;
在测试语料集合中,对每个事件的事件选择谓词的级别和程度词的级别按规则进行特征转化,获取级别特征,并加入到语料特征集合中;
S206、极性特征处理,依据每个事件的否定词的个数对其进行特征处理,得到极性特征,并加入到语料特征集合中;
在标注语料集合中,对每个事件进行极性特征处理,若否定词个数为偶数,则极性特征为“正”,若为奇数,则极性特征为“负”,继而获取极性特征,并加入到语料特征集合中;
在测试语料集合中,对每个事件进行极性特征处理,若否定词个数为偶数,则极性特征为“正”,若为奇数,则极性特征为“负”,继而获取极性特征,并加入到语料特征集合中;
S207、时态特征处理,依据每个事件的所属事件句时态和其包含时态的程度词,进行规则转化,获取时态特征,并加入到语料特征集合中;
在标注语料集合中,对每个事件的所属事件句时态和包含时态的程度词按照规则进行转化,进而获取时态特征,并加入到语料特征集合中;
在测试语料集合中,对每个事件的所属事件句时态和包含时态的程度词按照规则进行转化,进而获取时态特征,并加入到语料特征集合中;
S208、事实性特征处理,在经过步骤S201~S207后,将获取到的事件级别特征、极性特征和时态特征按照规则进行特征转化,构造出事件事实性特征,并加入到语料特征集合中;
在标注语料集合中,对获取到的事件级别特征、极性特征和时态特征的按照规则进行转化,进而构造出事实性特征,并加入到语料特征集合中;
在测试语料集合中,对获取到的事件级别特征、极性特征和时态特征的按照规则进行转化,进而构造出事实性特征,并加入到语料特征集合中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611170133.9/1.html,转载请声明来源钻瓜专利网。