[发明专利]中文事件触发词的扩展方法及系统有效
申请号: | 201210321193.1 | 申请日: | 2012-09-03 |
公开(公告)号: | CN102831236A | 公开(公告)日: | 2012-12-19 |
发明(设计)人: | 李培峰;朱巧明;朱晓旭 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 常亮 |
地址: | 215123 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文 事件 触发 扩展 方法 系统 | ||
技术领域
本发明涉及一种中文事件触发词的扩展方法及系统。
背景技术
事件是指在真实世界中已经/可能/将要发生的事情,一般包括时间、地点和人物。由于表达方式不同,每一特定的事件可能不止有一个事件实例。事件是信息表示的一种形式,可以从文本中抽取人们感兴趣的事件实例。
从文本中抽取出相应的事件实例通常是通过识别事件的触发词来实现,所以触发词是识别事件实例的关键。由于语言表达的多样性,不可能找出某一事件的所有触发词,只能预先知道待抽取事件的一部分触发词,称这部分触发词为已知触发词,这样如果发现某一句子包含已知的触发词,那么可以将该句子作为待抽取事件的一候选事件实例,而那些未知触发词对应的事件实例就无法抽取。
综上,现有技术中的事件实例抽取方法只能抽取与已知触发词对应的事件实例。
发明内容
有鉴于此,本发明提供了一种中文事件触发词的扩展方法及系统,以克服现有技术中事件实例抽取方法只能抽取与已知触发词对应的事件实例的问题。
为实现上述目的,本发明提供如下技术方案:
一种中文事件触发词的扩展方法,包括:
A、从语料库中获取由一个或两个语素组成的已知触发词以及所述已知触发词对应的事件类型,形成已知触发词集合,所述语料库包括已知触发词以及与所述已知触发词对应的事件类型;
B、将所述已知触发词集合中的每一已知触发词以语素为单位进行切分,形成切分已知触发词集合;
C、将所述切分已知触发词集合中每一语素进行词性标注,形成带词性切分已知触发词集合;
D、获取所述已知触发词集合中每一已知触发词的所有义原,形成已知触发词义原集合,所述已知触发词义原集合包括:已知触发词、该已知触发词对应的事件类型以及该已知触发词的所有义原;
E、确定出所述已知触发词义原集合中具有唯一义原的已知触发词,形成已知触发词唯一义原集合,所述已知触发词唯一义原集合包括:已知触发词、该已知触发词对应的事件类型以及该已知触发词的唯一义原;
F、在所述已知触发词义原集合中的一已知触发词对应的义原为多个时,分别计算所述已知触发词的每一义原与所述已知触发词唯一义原集合中与该已知触发词具有相同事件类型的每一已知触发词的唯一义原的相似度,将与所述唯一义原相似度最高的义原作为具有多个义原的已知触发词的唯一义原,并将该已知触发词、该已知触发词对应的事件类型以及该已知触发词的唯一义原存储于所述已知触发词唯一义原集合中;
G、根据预设的形态结构和带词性切分已知触发词集合中每一语素的词性,确定所述已知触发词集合中每一触发词的形态结构,形成已知触发词形态结构集合;
H、根据触发词的形态结构以及所述已知触发词唯一义原集合,确定所述已知触发词形态结构集合中每一已知触发词的基本语素,形成基本语素集合;
J、确定所述待抽取事件的文本中包括所述基本语素集合中任一基本语素的词,形成第一未知触发词集合;
K、将所述第一未知触发词集合中不满足预设条件的词删除,形成扩展未知触发词集合。
其中,所述每一义原为S1,所述已知触发词唯一义原集合中与该已知触发词具有相同事件类型的每一已知触发词的唯一义原为S2,所述计算每一义原与所述已知触发词唯一义原集合中与该已知触发词具有相同事件类型的每一已知触发词的唯一义原的相似度具体包括:
通过相似度计算函数Sim(S1,S2)=α/(α+d)计算每一义原S1与唯一义原S2的相似度,其中,α为预设可调参数,d为每一义原S1与唯一义原S2的路径距离。
其中,所述触发词的形态结构包括:
单语素结构、同位结构、谓宾结构、修饰结构以及谓辅结构,其中:所述单语素结构是指已知触发词是名词或动词的语素,所述同位结构是指已知触发词的第一语素与第二语素均为动词,所述修饰结构是指已知触发词第一语素修饰第二语素,所述谓宾结构是指已知触发词的第一语素与第二语素是谓语和宾语的关系,已知触发词由所述第一语素与所述第二语素组成,且所述第一语素位于所述第二语素之前。
其中,步骤H具体包括:
H1、当所述已知触发词形态结构是单语素结构时,确定所述已知触发词为所述已知触发词的基本语素;
H2、当所述已知触发词形态结构是谓辅结构时,确定所述已知触发词的第一语素为所述已知触发词的基本语素;
H3、当所述已知触发词形态结构是谓宾结构时,确定所述已知触发词的第二语素为所述已知触发词的基本语素;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210321193.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于双边沿触发器的可测试性设计方法
- 下一篇:一种电视机支撑底座