[发明专利]弱监督实体关系抽取方法及其装置和电子设备有效
申请号: | 201711113364.0 | 申请日: | 2017-11-13 |
公开(公告)号: | CN107958025B | 公开(公告)日: | 2021-12-28 |
发明(设计)人: | 徐硕;王政;杨兴兵;赵桂荣 | 申请(专利权)人: | 北京工业大学;北京睿泰数字科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/33 |
代理公司: | 北京市立方律师事务所 11330 | 代理人: | 张筱宁 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 监督 实体 关系 抽取 方法 及其 装置 电子设备 | ||
本发明提供一种弱监督实体关系抽取方法及其装置和电子设备,本发明提供的技术方案中,通过在文档合集中获取多组已组合的候选实体对,候选实体对中包含具有实体关系的两个实体;分别抽取各组候选实体对相应的多元语法特征;根据多元语法特征,生成各组候选实体对相应的状态变量和特征向量;根据各组候选实体对分别对应的多元语法特征、状态变量和特征向量来训练预设的实体关系抽取模型,以抽取各组候选实体对中的实体关系对应的关系类型,本发明有效应用多元语法特征,并有机地集成到预设的实体关系抽取模型中,更全面地综合了语言的复杂性和表达的多样性,使得实体关系的识别更为准确,有效提升了弱监督学习实体关系抽取的效果。
技术领域
本发明涉及数据挖掘、机器学习、信息抽取与分析领域,具体而言,本发明涉及一种弱监督实体关系抽取方法及其装置和电子设备。
背景技术
以互联网技术为代表的现代通讯技术的普及与发展前所未有地方便了人类知识的交流,而不断增长的数据量恰恰证明了这一点。正如第一次工业革命使用煤炭驱动蒸汽机,第二次工业革命使用电力和石油驱动电灯、电话、汽车和飞机一样,如何充分利用大数据驱动生产、生活方式的改变,是新时代所赋予的重要使命。早在1996年,由美国军方背景支持的MTU会议就意识到了数据的能量,提出要通过多种手段提升人类利用数据的能力,并对这一目标给出了具体而详细的阐述,实体关系抽取就是其中的一项基本任务。
实体关系的精准抽取对许多大数据智能应用系统的成功构建大有裨益,包括机器翻译、检索系统、个人智能助理等。传统上,许多商业或者学术项目首先通过全面、高质量的标注数据训练实体关系抽取器,然后再通过实体关系抽取器从未标注数据中抽取实体关系,这种被称为监督实体关系抽取方法以高昂的人力、物力和财力成本为代价,而数据增长的速度决定了人们可以付出的成本远远满足不了实际真实需求。另一种方式是弱监督实体关系抽取方法,可进一步细分为半监督、远程监督和无监督实体关系抽取方法,它尝试利用较少的标注数据,以较低的成本自动从海量信息中识别实体关系,以应对大数据时代的挑战。
具体来说,弱监督实体关系的抽取效果取决于具体模型对于相似语义特征的聚类效果。而实体关系的种类比较丰富,二元关系如Person-Org关系和Org-Address关系,多元关系如“A由B和C等组成”,不同的语义关系表达不同的含义,由于自然语言表达的复杂性和多样性,具有相同语义关系的实体对通常出现在特征类似的背景中,例如CEO-of关系的实例可能和如下特征有关:chief executive officer、CEO、senior corporate officer等,大大增加了识别难度。目前多数抽取方法普遍是基于一个文本,忽略其词序、语法和句法,将其仅仅看做是一个词集合,或者说是词的一个组合,文本中每个词的出现都是独立的,不依赖于其他词是否出现。虽然这种被称作“词袋假设”的思路被许多模型和方法所继承,但这种假设并不符合实际情形,使得实体关系的抽取效果并不理想。
发明内容
本发明的目的旨在至少能解决上述的技术缺陷之一,特别是实体关系难以正确抽取的技术缺陷。
本发明提供了一种弱监督实体关系抽取方法,包括:
在文档合集中获取多组已组合的候选实体对,所述候选实体对中包含具有实体关系的两个实体;
分别抽取各组候选实体对相应的多元语法特征;
根据所述多元语法特征,生成各组候选实体对相应的状态变量和特征向量;
根据各组候选实体对分别对应的多元语法特征、状态变量和特征向量来训练预设的实体关系抽取模型,以抽取各组候选实体对中的实体关系对应的关系类型。
进一步地,所述根据各组候选实体对分别对应的多元语法特征、状态变量和特征向量来训练预设的实体关系抽取模型的步骤,包括:
根据各组候选实体对中的两个实体、各组候选实体对分别对应的元语法特征、状态变量和特征向量来训练预设的实体关系抽取模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学;北京睿泰数字科技有限公司,未经北京工业大学;北京睿泰数字科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711113364.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:会话合并方法、装置和计算机设备
- 下一篇:一种商品信息处理方法及装置