[发明专利]一种基于跨度表示的实体抽取方法在审
申请号: | 202110703349.1 | 申请日: | 2021-06-24 |
公开(公告)号: | CN113420560A | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 毛佳豪;傅啸;康文涛;周春珂 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/215;G06F16/35;G06F16/36;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 跨度 表示 实体 抽取 方法 | ||
本发明公开了一种基于跨度表示的实体抽取方法,首先获取互联网语料库,并将其整理得到文本,实体格式的数据集;然后对训练集数据进行预处理,采集训练样本;再构建实体抽取模型;最后通过训练集训练实体抽取模型,使用训练好的实体抽取模型完成预测。本发明方法加强了模型对语义的理解,提升了准确率。将位置信息进行二次添加,防止在训练过程中位置信息丢失,从而无法正确理解语义,导致准确率下降;在span的头尾引入不同的残差连接,进一步增强了文本信息的表示能力,有利于改善抽取效果。
技术领域
本发明属于信息抽取(information extraction)中的实体抽取领域,主要提出了一种基于跨度表示的实体抽取方法。
背景技术
实体抽取,即在自然语言中识别实体指称的边界和类别,也称为命名实体识别,其主要任务是识别文本中具有意义的实体,比如人名、地名、机构名等。
在实体抽取中,由于出现在文本不同位置的字或词所携带的语义信息存在差异,因此,BERT模型会对不同位置的字或词附加一个不同的向量以作区分,并将位置向量与其他向量相加作为输入再进行训练。但是在训练过程中,位置信息可能会丢失导致抽取准确率降低。
发明内容:
针对现有技术中存在的不足,本发明提供了一种基于跨度表示的实体抽取方法。
本发明的核心改进点在于提出了一种基于跨度表示的实体抽取模型,通过改变模型的构建中的span表示方法,在span中加入文本长度以及二次加入词的位置信息,提增强模型在复杂语境下的识别实体的能力,并提升了抽取的准确率。
一种基于跨度表示的实体抽取方法,步骤如下:
步骤1:获取互联网语料库,并将其整理得到文本,实体格式的数据集。
步骤2:对训练集数据进行预处理。
步骤3:采集训练样本。
步骤4:构建实体抽取模型。
步骤5:通过训练集训练实体抽取模型。
步骤6:模型预测。
对步骤1中获得的训练集数据,通过梯度下降算法,求得步骤4-4中损失函数的最小化来训练模型。
步骤1具体方法如下:
所述的互联网语料库采用现有公开的数据库,首先定义实体类别,具体参考行业内对于实体类型定义的规则规范。然后进行实体关系标注:对于存在实体的文本,从中得到命名实体及其对应位置。根据定义的实体类型,采用人工标注的方法,对互联网语料库中的命名实体进行标注,生成数据集。
最后将数据集中的所有文本数据拆分成两部分,其中85%作为训练集,15%作为测试集,分别用于模型的训练和测试。
步骤2具体步骤如下:
2-1、数据清洗,删除训练集文本中的非法字符、空格、换行符等。
2-2、以字为粒度将数据清洗后的文本进行分割,构建字典。构建的字典D={d1,d2,…,dt},其中t为字典的总长度,dz表示字典中第z个字。
2-3、构建实体类型字典。构建的实体类型字典L={l0,l1,l2,…,lp},其中p为实体类型数,l0表示非实体类型,le表示第e个实体类型。
步骤3具体方法如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110703349.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种防眼镜起雾的口罩
- 下一篇:一种自动对接系统及方法