[发明专利]一种基于跨度表示的实体抽取方法在审

申请号：	202110703349.1	申请日：	2021-06-24
公开（公告）号：	CN113420560A	公开（公告）日：	2021-09-21
发明（设计）人：	毛佳豪;傅啸;康文涛;周春珂	申请（专利权）人：	杭州电子科技大学
主分类号：	G06F40/295	分类号：	G06F40/295;G06F16/215;G06F16/35;G06F16/36;G06F40/30;G06K9/62;G06N3/04;G06N3/08
代理公司：	杭州君度专利代理事务所(特殊普通合伙) 33240	代理人：	朱月芬
地址：	310018 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于跨度表示实体抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于跨度表示的实体抽取方法，首先获取互联网语料库，并将其整理得到文本，实体格式的数据集；然后对训练集数据进行预处理，采集训练样本；再构建实体抽取模型；最后通过训练集训练实体抽取模型，使用训练好的实体抽取模型完成预测。本发明方法加强了模型对语义的理解，提升了准确率。将位置信息进行二次添加，防止在训练过程中位置信息丢失，从而无法正确理解语义，导致准确率下降；在span的头尾引入不同的残差连接，进一步增强了文本信息的表示能力，有利于改善抽取效果。

技术领域

本发明属于信息抽取(information extraction)中的实体抽取领域，主要提出了一种基于跨度表示的实体抽取方法。

背景技术

实体抽取，即在自然语言中识别实体指称的边界和类别，也称为命名实体识别，其主要任务是识别文本中具有意义的实体，比如人名、地名、机构名等。

在实体抽取中，由于出现在文本不同位置的字或词所携带的语义信息存在差异，因此，BERT模型会对不同位置的字或词附加一个不同的向量以作区分，并将位置向量与其他向量相加作为输入再进行训练。但是在训练过程中，位置信息可能会丢失导致抽取准确率降低。

发明内容：

针对现有技术中存在的不足，本发明提供了一种基于跨度表示的实体抽取方法。

本发明的核心改进点在于提出了一种基于跨度表示的实体抽取模型，通过改变模型的构建中的span表示方法，在span中加入文本长度以及二次加入词的位置信息，提增强模型在复杂语境下的识别实体的能力，并提升了抽取的准确率。

一种基于跨度表示的实体抽取方法，步骤如下：

步骤1：获取互联网语料库，并将其整理得到文本，实体格式的数据集。

步骤2：对训练集数据进行预处理。

步骤3：采集训练样本。