[发明专利]一种基于双语语义映射的事件短语学习方法及装置有效
申请号: | 201710303450.1 | 申请日: | 2017-05-02 |
公开(公告)号: | CN107168950B | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 熊德意;李方圆 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
地址: | 215123 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 双语 语义 映射 事件 短语 学习方法 装置 | ||
本发明公开了一种基于双语语义映射的事件短语学习方法及装置,该方法包括:获取学习到的动宾结构的事件短语,提取出事件短语中包含的动词结构及名词结构;利用包含有多个paraphrase对的数据集确定出与每个动词结构及名词结构对应的paraphrase对集合及其中每一个paraphrase对的质量分数,从每个动词结构及名词结构对应的paraphrase对集合中获取转述词;确定质量分数大于分数阈值的paraphrase对对应转述词为对应动词结构或名词结构的替换词,将同一事件短语中包含的动词结构、名词结构及对应替换词重新组成扩展短语,并利用事件短语及对应扩展短语实现事件短语学习。提升了事件识别性能。
技术领域
本发明涉及自然语言处理技术领域,更具体地说,涉及一种基于双语语义映射的事件短语学习方法及装置。
背景技术
事件识别(Event Recognition)是信息抽取(Information Extraction,IE)领域中一个非常重要的研究方向,也是自然语言处理(natural languageprocessing,NLP)任务的一项基础工作,主要是为了通过识别文档中的事件,从而判断文档是否与某一特定类型的事件相关。
目前事件识别方法主要分为两类,一类是基于监督机器学习的方法,依赖于大量的人工标注数据,获取较好抽取效果的同时,耗时耗力,并且可移植性较差。另一类是基于半监督学习的自举(bootstrapping)方法,该方法能够解决监督机器学习的方法中存在的上述缺点,但是抽取的效果高度依赖于初始种子的质量和迭代过程中的条件约束,并且在自举迭代的后期,错误增长非常的快速;为了克服上述缺陷,取得较高的事件抽取准确率,对自举方法做了严格的句法结构限制,在此限制之下,会导致很多描述需要识别出的特定类型事件的事件短语无法学习到,进而导致事件识别性能较差。
综上所述,如何提供一种事件识别性能较好的事件短语学习技术方案,是目前本领域技术人员亟待解决的问题。
发明内容
本发明的目的是提供一种基于双语语义映射的事件短语学习方法及装置,以提升事件识别性能。
为了实现上述目的,本发明提供如下技术方案:
一种基于双语语义映射的事件短语学习方法,包括:
获取学习到的动宾结构的事件短语,并提取出所述事件短语中包含的动词结构及名词结构;
利用预先获取的包含有多个paraphrase对的数据集确定出与每个动词结构及名词结构对应的paraphrase对集合及每个动词结构及名词结构对应的paraphrase对集合中每一个paraphrase对的质量分数,从每个动词结构及名词结构对应的paraphrase对集合中获取具有相同词性的转述词;
确定所述质量分数大于分数阈值的paraphrase对对应转述词为对应动词结构或名词结构的替换词,将同一事件短语中包含的动词结构、名词结构及对应替换词重新组成扩展短语,并利用所述事件短语及对应扩展短语实现事件短语学习。
优选的,利用所述扩展短语实现事件短语学习之前,还包括:
确定每个扩展短语在预先获取的语料集中出现的频率,并将该频率小于频率阈值的扩展短语删除。
优选的,将同一事件短语中包含的动词结构、名词结构及对应替换词组成扩展短语,包括:
将同一事件短语中包含的动词结构与该事件短语中包含的名词结构的各替换词分别组成扩展短语,并将同一事件短语中包含的名词结构与该事件短语中包含的动词结构的各替换词分别组成扩展短语。
优选的,利用所述扩展短语实现事件短语学习之前,还包括:
将与事件短语相同的扩展短语删除。
一种基于双语语义映射的事件短语学习装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710303450.1/2.html,转载请声明来源钻瓜专利网。