[发明专利]实体识别和关系抽取方法、装置、电子设备及存储介质有效

申请号：	202111504146.6	申请日：	2021-12-10
公开（公告）号：	CN113901827B	公开（公告）日：	2022-03-18
发明（设计）人：	李征仁;张晓航;杜瑜;韩华伟	申请（专利权）人：	北京邮电大学
主分类号：	G06F40/295	分类号：	G06F40/295
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	毛宏宝
地址：	100876 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	实体识别关系抽取方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种实体识别和关系抽取方法，其特征在于，包括：

构建包含领域名词的实体数据集合；

将所述实体数据集合确定为训练集语料库，对预训练BERT模型进行掩蔽训练，得到领域语言模型，其中，所述领域语言模型为煤矿领域Coal-BERT模型；

通过所述领域语言模型识别出，待处理领域文本数据中各个标记词语的头部实体和尾部实体，以及抽取各个所述标记词语的头部实体和尾部实体之间的实体关系；

其中，所述通过所述领域语言模型识别出，待处理领域文本数据中各个标记词语的头部实体和尾部实体，以及抽取各个所述标记词语的头部实体和尾部实体之间的实体关系，包括：

通过所述煤矿领域Coal-BERT模型识别出，各个所述标记词语中的头部实体和尾部实体，并将各个所述标记词语中的头部实体和尾部实体生成HRT结构，其中，所述HRT结构为：头部实体-实体关系-尾部实体；

通过Attention计算机制和所述HRT结构计算各个所述标记词语与其对应的头部实体和尾部实体之间的注意力权重，所述注意力权重为各个所述标记词语中与其头部实体和尾部实体有关系的词的权重；

将各个所述标记词语与其头部实体和尾部实体的注意力权重进行归一化，得到各个所述标记词语与其头部实体之间的第一归一化关联程度Cor_h-e(w_i)，以及各个所述标记词语与其尾部实体之间的第二归一化关联程度Cor_t-e(w_i)，其中，w_i为标记词语，i为标记词语的数量；

将第一归一化关联程度Cor_h-e(w_i)和第二归一化关联程度Cor_t-e(w_i)相乘，再将乘积结果取对数，得到各个标记词语，与其对应的头部实体和尾部实体之间的联合关联程度R(w_i)，其中，所述联合关联程度的表达式为R(w_i)=-log{Cor_h-e(w_i)* Cor_t-e(w_i)}；

根据预设公式R_word=arg min R(w_i)和各个所述标记词语的联合关联程度R(w_i)，确定各个所述标记词语中头部实体和尾部实体之间关系最紧密的关系词语，所述R_word为关系最紧密的关系词语；

根据各个所述标记词语的关系词语，得到各个所述标记词语中头部实体和尾部实体之间的最终关系。

2.根据权利要求1所述的实体识别和关系抽取方法，其特征在于，所述计算各个所述标记词语，与其对应的头部实体和尾部实体之间的注意力权重，包括：

确定各个所述标记词语经过所述领域语言模型抽取后，得到的加权关联程度；

确定所述领域语言模型中transformer层的第一数量，以及各个transformer层中head的第二数量；

结合预设计算公式，并基于各个所述标记词语的加权关联程度，以及所述第一数量和所述第二数量，计算各个所述标记词语，与其对应的头部实体和尾部实体之间的注意力权重。

3.根据权利要求1所述的实体识别和关系抽取方法，其特征在于，所述构建包含领域名词的实体数据集合，包括：

通过预设切词工具对原始文本数据进行切割，得到各个待处理实体数据；

将各个所述待处理实体数据与领域名词集合进行融合，构建所述包含领域名词的实体数据集合。

4.根据权利要求1至3任一项所述的实体识别和关系抽取方法，其特征在于，所述通过所述领域语言模型识别出，待处理领域文本数据中各个标记词语的头部实体和尾部实体，以及抽取各个所述标记词语的头部实体和尾部实体之间的实体关系之后，还包括：

根据各个标记词语中头部实体和尾部实体的实体关系，及其对应的头部实体和尾部实体，构建各个所述标记词语的实体三元组。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。