[发明专利]中文事件触发词的扩展方法及系统有效
申请号: | 201210321193.1 | 申请日: | 2012-09-03 |
公开(公告)号: | CN102831236A | 公开(公告)日: | 2012-12-19 |
发明(设计)人: | 李培峰;朱巧明;朱晓旭 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 常亮 |
地址: | 215123 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例公开了一种中文事件触发词的扩展方法及系统,本方法利用已知触发词形态结构,结合义原相似度来扩展未知触发词,这样待抽取事件的触发词就包括已知触发词以及扩展的未知触发词,这样在抽取事件实例时,不仅可以抽取已知触发词对应的事件实例,还可以抽取扩展的未知触发词对应的事件实例。进一步的,在抽取事件时,能够识别出更多的事件实例,提高事件抽取系统的召回率。 | ||
搜索关键词: | 中文 事件 触发 扩展 方法 系统 | ||
【主权项】:
一种中文事件触发词的扩展方法,其特征在于,包括:A、从语料库中获取由一个或两个语素组成的已知触发词以及所述已知触发词对应的事件类型,形成已知触发词集合,所述语料库包括已知触发词以及与所述已知触发词对应的事件类型;B、将所述已知触发词集合中的每一已知触发词以语素为单位进行切分,形成切分已知触发词集合;C、将所述切分已知触发词集合中每一语素进行词性标注,形成带词性切分已知触发词集合;D、获取所述已知触发词集合中每一已知触发词的所有义原,形成已知触发词义原集合,所述已知触发词义原集合包括:已知触发词、该已知触发词对应的事件类型以及该已知触发词的所有义原;E、确定出所述已知触发词义原集合中具有唯一义原的已知触发词,形成已知触发词唯一义原集合,所述已知触发词唯一义原集合包括:已知触发词、该已知触发词对应的事件类型以及该已知触发词的唯一义原;F、在所述已知触发词义原集合中的一已知触发词对应的义原为多个时,分别计算所述已知触发词的每一义原与所述已知触发词唯一义原集合中与该已知触发词具有相同事件类型的每一已知触发词的唯一义原的相似度,将与所述唯一义原相似度最高的义原作为具有多个义原的已知触发词的唯一义原,并将该已知触发词、该已知触发词对应的事件类型以及该已知触发词的唯一义原存储于所述已知触发词唯一义原集合中;G、根据预设的形态结构和带词性切分已知触发词集合中每一语素的词性,确定所述已知触发词集合中每一触发词的形态结构,形成已知触发词形态结构集合;H、根据触发词的形态结构以及所述已知触发词唯一义原集合,确定所述已知触发词形态结构集合中每一已知触发词的基本语素,形成基本语素集合;J、确定所述待抽取事件的文本中包括所述基本语素集合中任一基本语素的词,形成第一未知触发词集合;K、将所述第一未知触发词集合中不满足预设条件的词删除,形成扩展未知触发词集合。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210321193.1/,转载请声明来源钻瓜专利网。
- 上一篇:用于双边沿触发器的可测试性设计方法
- 下一篇:一种电视机支撑底座