[发明专利]一种基于跨度表示的实体抽取方法在审

专利信息
申请号: 202110703349.1 申请日: 2021-06-24
公开(公告)号: CN113420560A 公开(公告)日: 2021-09-21
发明(设计)人: 毛佳豪;傅啸;康文涛;周春珂 申请(专利权)人: 杭州电子科技大学
主分类号: G06F40/295 分类号: G06F40/295;G06F16/215;G06F16/35;G06F16/36;G06F40/30;G06K9/62;G06N3/04;G06N3/08
代理公司: 杭州君度专利代理事务所(特殊普通合伙) 33240 代理人: 朱月芬
地址: 310018 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 跨度 表示 实体 抽取 方法
【说明书】:

发明公开了一种基于跨度表示的实体抽取方法,首先获取互联网语料库,并将其整理得到文本,实体格式的数据集;然后对训练集数据进行预处理,采集训练样本;再构建实体抽取模型;最后通过训练集训练实体抽取模型,使用训练好的实体抽取模型完成预测。本发明方法加强了模型对语义的理解,提升了准确率。将位置信息进行二次添加,防止在训练过程中位置信息丢失,从而无法正确理解语义,导致准确率下降;在span的头尾引入不同的残差连接,进一步增强了文本信息的表示能力,有利于改善抽取效果。

技术领域

本发明属于信息抽取(information extraction)中的实体抽取领域,主要提出了一种基于跨度表示的实体抽取方法。

背景技术

实体抽取,即在自然语言中识别实体指称的边界和类别,也称为命名实体识别,其主要任务是识别文本中具有意义的实体,比如人名、地名、机构名等。

在实体抽取中,由于出现在文本不同位置的字或词所携带的语义信息存在差异,因此,BERT模型会对不同位置的字或词附加一个不同的向量以作区分,并将位置向量与其他向量相加作为输入再进行训练。但是在训练过程中,位置信息可能会丢失导致抽取准确率降低。

发明内容:

针对现有技术中存在的不足,本发明提供了一种基于跨度表示的实体抽取方法。

本发明的核心改进点在于提出了一种基于跨度表示的实体抽取模型,通过改变模型的构建中的span表示方法,在span中加入文本长度以及二次加入词的位置信息,提增强模型在复杂语境下的识别实体的能力,并提升了抽取的准确率。

一种基于跨度表示的实体抽取方法,步骤如下:

步骤1:获取互联网语料库,并将其整理得到文本,实体格式的数据集。

步骤2:对训练集数据进行预处理。

步骤3:采集训练样本。

步骤4:构建实体抽取模型。

步骤5:通过训练集训练实体抽取模型。

步骤6:模型预测。

对步骤1中获得的训练集数据,通过梯度下降算法,求得步骤4-4中损失函数的最小化来训练模型。

步骤1具体方法如下:

所述的互联网语料库采用现有公开的数据库,首先定义实体类别,具体参考行业内对于实体类型定义的规则规范。然后进行实体关系标注:对于存在实体的文本,从中得到命名实体及其对应位置。根据定义的实体类型,采用人工标注的方法,对互联网语料库中的命名实体进行标注,生成数据集。

最后将数据集中的所有文本数据拆分成两部分,其中85%作为训练集,15%作为测试集,分别用于模型的训练和测试。

步骤2具体步骤如下:

2-1、数据清洗,删除训练集文本中的非法字符、空格、换行符等。

2-2、以字为粒度将数据清洗后的文本进行分割,构建字典。构建的字典D={d1,d2,…,dt},其中t为字典的总长度,dz表示字典中第z个字。

2-3、构建实体类型字典。构建的实体类型字典L={l0,l1,l2,…,lp},其中p为实体类型数,l0表示非实体类型,le表示第e个实体类型。

步骤3具体方法如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110703349.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top