[发明专利]一种中文事件的抽取方法及系统有效
申请号: | 201210182651.8 | 申请日: | 2012-06-05 |
公开(公告)号: | CN102693219A | 公开(公告)日: | 2012-09-26 |
发明(设计)人: | 李培峰;朱巧明;周国栋;朱晓旭 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 常亮 |
地址: | 215123 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种中文事件抽取方法和系统,该方法包括:将待抽取事件的本文依次进行分句、分词、实体识别、句法和依存关系分析;根据词的内部结构,将符合抽取条件的词标记为候选触发词;根据概率、词性和词内部结构将符合过滤条件的触发词过滤掉;利用最大熵识别模型抽取触发词,并获取每个触发词的可信度;依据每个触发词的可信度,将触发词分成一致性处理训练集合和一致性处理测试集合,利用最大熵分类器从一致性处理测试集合中抽取触发词;利用最大熵分类模型对触发词进行分类,得到事件集合。本发明提供的方法和系统从中文本身的特点出发,通过综合考虑和分析中文词的内部结构和中文词在篇章中语义的一致性,提高了中文事件抽取的性能。 | ||
搜索关键词: | 一种 中文 事件 抽取 方法 系统 | ||
【主权项】:
一种中文事件抽取方法,其特征在于,包括:A:将待抽取事件的本文依次进行分句、分词、实体识别、句法和依存关系分析,得到第二句子集合;B:根据中文标记语料库的训练集合以及词的内部结构,将所述第二句子集合中的每个句子中符合抽取条件的词标记为候选触发词,将每个候选触发词以及该候选触发词所在的句子组成一个候选项,所有的候选项组成候选触发词集合;C:根据概率、词性和词内部结构将所述候选触发词集合中符合过滤条件的候选触发词过滤掉,得到过滤后的候选触发词集合;D:利用最大熵识别模型从所述过滤后的候选触发词集合中抽取触发词,并获取每个触发词的可信度,得到带有可信度的触发词第一集合;E:依据所述触发词第一集合中每个触发词的可信度,将所述触发词第一集合中的触发词分成一致性处理训练集合和一致性处理测试集合,利用最大熵分类器从所述一致性处理测试集合中抽取触发词并将从所述一致性处理测试集合中抽取的触发词加入所述一致性处理训练集合中,得到触发词第二集合;F:利用最大熵分类模型对所述触发词第二集合中的触发词进行分类,得到包含事件类别的触发词第三集合,根据所述触发词第三集合中的触发词标记所述第一句子集合中包含利用所述最大熵分类模型所识别类别的事件,得到事件集合。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210182651.8/,转载请声明来源钻瓜专利网。