[发明专利]实体识别和关系抽取方法、装置、电子设备及存储介质有效
申请号: | 202111504146.6 | 申请日: | 2021-12-10 |
公开(公告)号: | CN113901827B | 公开(公告)日: | 2022-03-18 |
发明(设计)人: | 李征仁;张晓航;杜瑜;韩华伟 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 毛宏宝 |
地址: | 100876 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 识别 关系 抽取 方法 装置 电子设备 存储 介质 | ||
本申请提供一种实体识别和关系抽取方法、装置、电子设备及存储介质,该方法包括:构建包含领域名词的实体数据集合;将实体数据集合确定为训练集语料库,对预训练BERT模型进行掩蔽训练,得到领域语言模型;通过领域语言模型识别出,待处理领域文本数据中各个标记词语的头部实体和尾部实体,并抽取出它们之间的关系。本申请实施例提供的实体识别和关系抽取方法自动构建包含领域名词的实体数据集合,需要少量的人工标注工作,提升了该领域实体识别和关系抽取的效率。同时,根据自动构建包含领域名词的实体数据集合训练领域语言模型,使得通过领域语言模型能够精准地在各个领域中完成实体识别与关系抽取任务。
技术领域
本申请涉及自然语言处理和知识抽取技术领域,尤其涉及一种实体识别和关系抽取方法、装置、电子设备及存储介质。
背景技术
在实体识别和关系抽取任务中,最常的方法是自然语言处理模型结合人工标注方法,即人工通过BIOES标记方法进行数据标记,再通过自然语言处理模型对人工标注的数据进行训练,学习语句中单词之间关系的信息,从而实现实体识别和关系抽取任务。
因此,需要事先充分理解对应领域行业的知识体系,对所有可能存在的实体间关系进行合理的分类,此外,还需要通过BIOES标记人工方法对样本语料的实体和关系进行正确的标注,人工标注的训练集数据越丰富,后面模型训练的效果越好。
综上分析可知,传统方法需要通过人工标注工作获取训练数据,因此需要耗费大量的人力和时间成本,降低了实体识别和关系抽取任务的效率。同时,由于领域文本存在的特殊性,对工作人员的专业水平和仔细程度要求也较高,人工标注数据过程中存在人为主观因素,从而使得数据标注存在不准确性,降低了实体识别和关系抽取任务的准确性。
发明内容
本申请提供一种实体识别与关系抽取方法、装置、电子设备及存储介质,旨在解决现有技术中存在的问题缺陷。
第一方面,本申请提供一种实体识别与关系抽取方法,包括:
构建包含领域名词的实体数据集合;
将所述实体数据集合确定为训练集语料库,对预训练BERT模型进行掩蔽训练,得到领域语言模型;
通过所述领域语言模型识别出,待处理领域文本数据中各个标记词语的头部实体和尾部实体,以及抽取各个所述标记词语的头部实体和尾部实体之间的实体关系。
在一个实施例中,所述通过所述领域语言模型识别出,待处理领域文本数据中各个标记词语的头部实体和尾部实体,以及抽取各个所述标记词语的头部实体和尾部实体之间的实体关系,包括:
通过所述领域语言模型识别出,各个所述标记词语中的头部实体和尾部实体;
计算各个所述标记词语,与其对应的头部实体和尾部实体之间的注意力权重;
基于各个所述标记词语与其头部实体和尾部实体的注意力权重,抽取出各个头部实体和尾部实体之间的关系。
所述基于各个所述标记词语与其头部实体和尾部实体的注意力权重,抽取出各个头部实体和尾部实体之间的关系,包括:
将各个所述标记词语与其头部实体和尾部实体的注意力权重进行归一化,得到各个所述标记词语与其头部实体之间的第一归一化关联程度,以及各个所述标记词语与其尾部实体之间的第二归一化关联程度;
根据各个所述标记词语的第一归一化关联程度和第二归一化关联程度,计算各个所述标记词语,与其对应的头部实体和尾部实体之间的联合关联程度;
根据各个所述标记词语的联合关联程度,确定头部实体和尾部实体之间的最终关系。
所述根据各个所述标记词语的联合关联程度,确定头部实体和尾部实体之间的最终关系,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111504146.6/2.html,转载请声明来源钻瓜专利网。