[发明专利]一种语言模板构建方法及装置在审

专利信息
申请号: 201711206648.4 申请日: 2017-11-27
公开(公告)号: CN107766332A 公开(公告)日: 2018-03-06
发明(设计)人: 汉斯·乌思克尔特;亚历山德拉·加布里斯萨克;徐飞玉;李宏;塞巴斯蒂安·克劳泽 申请(专利权)人: 北京深知无限人工智能科技有限公司
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 北京集佳知识产权代理有限公司11227 代理人: 王宝筠
地址: 100176 北京市大兴区经济*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 语言 模板 构建 方法 装置
【说明书】:

技术领域

本申请涉及大数据领域,尤其涉及一种语言模板构建方法及装置。

背景技术

随着大数据的不断发展,如何采用自然语言处理和数据挖掘相关技术从海量信息中帮助用户获取有价值的信息,是当代计算机研究技术迫切的需求,因此关系抽取(Relation Extraction)技术应运而生。关系抽取(Relation Extraction)是的主要目的是从自然语言文本中抽取特定的关系,如亲属关系、收购关系等,以及具有这种关系的实体,例如人、物体、公司等。

关系抽取方法大致包括如下步骤:首先对目标关系(target relation)进行定义,即目标关系中由哪些关系论元(relation argument)构成。然后利用训练语料进行学习,得到表达目标关系的多个语言模板(pattern),语言模板用于总结关系论元之间的语法规律。最后,利用语言模板来在待处理文本中抽取出具有目标关系的文本。由此可见,语言模板的好坏直接影响到目标关系抽取的准确性和召回率。

目前常见的构建语言模板的方法基于语法依存图(dependency graph for sentence),语法依存图反映一句话中基于语法构造的各个词或词组之间的语法关系,例如主语、谓语、宾语等等。当构建出语法依存图之后,根据语法依存图学习得到语言模板。然而,仅基于语法依存图得到的语言模板无法体现出语义信息,所以抽取出来的目标关系的准确率较低。

发明内容

为了解决现有技术中存在的技术问题,本申请实施例提供了一种语言模板构建方法及装置,实现提高目标关系抽取准确率的目的。

本申请实施例提供了一种语言模板构建方法,所述方法包括:

获取训练文本,并基于所述训练文本构建语法依存图,所述语法依存图包括所述训练文本中各顶点和各个顶点之间的语法关系,所述各顶点包括所述训练文本中的词和/或词组;

从所述语法依存图的各顶点中确定与关系论元匹配的第一顶点以及确定与目标关系在语义上匹配的第二顶点;

从所述语法依存图中抽取出至少一个第一语法子图,形成第一语法子图集合,所述第一语法子图为包含有所述第一顶点和所述第二顶点及其之间的语法关系的最小语法子图;

根据所述第一语法子图集合中的第一语法子图,学习生成第一语言模板集合,所述第一语言模板集合中包括至少一个第一语言模板。

可选的,所述根据所述第一语法子图集合中的第一语法子图,学习生成第一语言模板集合包括:

根据第一预设规则对所述第一语法子图集合中的至少一个第一语法子图进行筛选和/或优化,得到由至少一个第二语法子图形成的第二语法子图集合;

根据所述第二语法子图集合中的第二语法子图,学习生成第一语言模板集合;和/或,

所述方法还包括:

按照第二预设规则对所述第一语言模板集合中的第一语言模板进行筛选,得到第二语言模板集合,所述第二语言模板集合中包括至少一个所述第一语言模板。

可选的,所述第一预设规则至少包括以下其中一种:

在所述第二语法子图中,包含所述第一顶点的最小语法子图之内的第二顶点的数目大于或等于第一预设数目;

在所述第二语法子图中,包含所述第一顶点的最小语法子图之内的第二顶点的数目小于或等于第二预设数目;

在所述第二语法子图中,包含所述第一顶点的最小语法子图之外的第二顶点的数目大于或等于第三预设数目;

在所述第二语法子图中,包含所述第一顶点的最小语法子图之外的第二顶点的数目小于或等于第四预设数目;

在所述第二语法子图中,包含的第二顶点的数目大于或等于第五预设数目;

在所述第二语法子图中,包含的第二顶点的数目小于或等于第六预设数目;

在所述第二语法子图中,包含的有含义的第二顶点的数目大于或等于第七预设数目;

在所述第二语法子图中,包含的有含义的第二顶点的数目小于或等于第八预设数目;

在所述第二语法子图中,包含的所述第二顶点与所述第一顶点之间的路径长度均大于或等于第一预设路径长度;

在所述第二语法子图中,包含的所述第二顶点与第一顶点之间的路径长度均小于或等于第二预设路径长度;

在所述第二语法子图中,包含的每个第二顶点的语义相关度大于或等于预设相关度。

可选的,所述第二预设规则至少包括以下任意一种:

所述第一语言模板中的顶点的词性至少包括第一预设词性;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京深知无限人工智能科技有限公司,未经北京深知无限人工智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711206648.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top