[发明专利]实体识别和关系抽取方法、装置、电子设备及存储介质有效

专利信息
申请号: 202111504146.6 申请日: 2021-12-10
公开(公告)号: CN113901827B 公开(公告)日: 2022-03-18
发明(设计)人: 李征仁;张晓航;杜瑜;韩华伟 申请(专利权)人: 北京邮电大学
主分类号: G06F40/295 分类号: G06F40/295
代理公司: 北京路浩知识产权代理有限公司 11002 代理人: 毛宏宝
地址: 100876 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 实体 识别 关系 抽取 方法 装置 电子设备 存储 介质
【权利要求书】:

1.一种实体识别和关系抽取方法,其特征在于,包括:

构建包含领域名词的实体数据集合;

将所述实体数据集合确定为训练集语料库,对预训练BERT模型进行掩蔽训练,得到领域语言模型,其中,所述领域语言模型为煤矿领域Coal-BERT模型;

通过所述领域语言模型识别出,待处理领域文本数据中各个标记词语的头部实体和尾部实体,以及抽取各个所述标记词语的头部实体和尾部实体之间的实体关系;

其中,所述通过所述领域语言模型识别出,待处理领域文本数据中各个标记词语的头部实体和尾部实体,以及抽取各个所述标记词语的头部实体和尾部实体之间的实体关系,包括:

通过所述煤矿领域Coal-BERT模型识别出,各个所述标记词语中的头部实体和尾部实体,并将各个所述标记词语中的头部实体和尾部实体生成HRT结构,其中,所述HRT结构为:头部实体-实体关系-尾部实体;

通过Attention计算机制和所述HRT结构计算各个所述标记词语与其对应的头部实体和尾部实体之间的注意力权重,所述注意力权重为各个所述标记词语中与其头部实体和尾部实体有关系的词的权重;

将各个所述标记词语与其头部实体和尾部实体的注意力权重进行归一化,得到各个所述标记词语与其头部实体之间的第一归一化关联程度Corh-e(wi),以及各个所述标记词语与其尾部实体之间的第二归一化关联程度Cort-e(wi),其中,wi为标记词语,i为标记词语的数量;

将第一归一化关联程度Corh-e(wi)和第二归一化关联程度Cort-e(wi)相乘,再将乘积结果取对数,得到各个标记词语,与其对应的头部实体和尾部实体之间的联合关联程度R(wi),其中,所述联合关联程度的表达式为R(wi)=-log{Corh-e(wi)* Cort-e(wi)};

根据预设公式Rword=arg min R(wi)和各个所述标记词语的联合关联程度R(wi),确定各个所述标记词语中头部实体和尾部实体之间关系最紧密的关系词语,所述Rword为关系最紧密的关系词语;

根据各个所述标记词语的关系词语,得到各个所述标记词语中头部实体和尾部实体之间的最终关系。

2.根据权利要求1所述的实体识别和关系抽取方法,其特征在于,所述计算各个所述标记词语,与其对应的头部实体和尾部实体之间的注意力权重,包括:

确定各个所述标记词语经过所述领域语言模型抽取后,得到的加权关联程度;

确定所述领域语言模型中transformer层的第一数量,以及各个transformer层中head的第二数量;

结合预设计算公式,并基于各个所述标记词语的加权关联程度,以及所述第一数量和所述第二数量,计算各个所述标记词语,与其对应的头部实体和尾部实体之间的注意力权重。

3.根据权利要求1所述的实体识别和关系抽取方法,其特征在于,所述构建包含领域名词的实体数据集合,包括:

通过预设切词工具对原始文本数据进行切割,得到各个待处理实体数据;

将各个所述待处理实体数据与领域名词集合进行融合,构建所述包含领域名词的实体数据集合。

4.根据权利要求1至3任一项所述的实体识别和关系抽取方法,其特征在于,所述通过所述领域语言模型识别出,待处理领域文本数据中各个标记词语的头部实体和尾部实体,以及抽取各个所述标记词语的头部实体和尾部实体之间的实体关系之后,还包括:

根据各个标记词语中头部实体和尾部实体的实体关系,及其对应的头部实体和尾部实体,构建各个所述标记词语的实体三元组。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111504146.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top