[发明专利]一种科技文本命名实体识别方法在审

专利信息
申请号: 202011244352.3 申请日: 2020-11-10
公开(公告)号: CN112395879A 公开(公告)日: 2021-02-23
发明(设计)人: 李国徽;潘鹏;周思远;徐志鹏;邱启弘;钟芳郅;袁凌 申请(专利权)人: 华中科技大学
主分类号: G06F40/295 分类号: G06F40/295;G06N3/04
代理公司: 华中科技大学专利中心 42201 代理人: 尹丽媛;李智
地址: 430074 湖北*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 科技 文本 命名 实体 识别 方法
【说明书】:

发明属于文本关键信息抽取领域,具体为一种科技文本命名实体识别方法,包括:采用实体识别标注模型对目标领域科技文本进行实体识别标注;其中该模型训练方法为:将目标领域的标注样本和源领域的部分样本输入源领域标注模型,分别得到目标领域和源领域的深层特征向量,计算该两个向量间的MMD;基于MMD调整源领域标注模型参数;采用新的源领域标注模型为目标领域每个未标注样本预测伪标签,将目标领域的标注样本和带伪标签的样本按比例混合并输入新的源领域标注模型,再次计算MMD,重复上述直至MMD最小,得到实体识别标注模型。本发明是面向多领域、多范围文本的基于迁移学习的命名实体识别,有效解决深度学习对特定领域少量数据学习能力不足的问题。

技术领域

本发明属于文本关键信息抽取技术领域,更具体地,涉及一种科技文本命名实体识别方法。

背景技术

随着科技的发展,海、陆、空、网及科技、电子、材料、生物、能源等多领域多范围的数据量迅猛增长。在海量信息的分析处理过程中,关键信息抽取发挥着至关重要的作用。它指从一段文本中抽取特定的信息,形成结构化的数据并存入一个数据库供用户查询和使用,具体地,包括命名实体识别与关系抽取。

现有的实体识别方法,存在以下缺陷:基于词典规则的方法建立完整字典规则的周期长,需要专家干预,移植性差;基于机器学习方法对特征的选择要求比较高,需要人工抽取文本特征;基于深度学习的方法需要大规模的手工实体标注,难以适应多领域多范围要求,难以处理长下文有效信息较少、实体词长较长的复杂实体。如“跨站脚本攻击”,只能识别出“脚本攻击”而无法将实体识别完整。因此,研究一种提高复杂实体识别效果、减少手工干预标注的高准确率的实体识别方法对多领域多范围科技信息处理有重要意义。

发明内容

本发明提供一种科技文本命名实体识别方法,用以解决现有实体识别中采用深度学习而对特定领域少量数据学习能力不足的技术问题。

本发明解决上述技术问题的技术方案如下:一种科技文本命名实体识别方法,包括:采用实体识别标注模型,对目标领域的科技文本进行实体识别标注;

其中,所述实体识别标注模型经过以下训练方法得到,包括:

采用由源领域训练集训练得到的源领域标注模型,将所述目标领域的标注样本和所述训练集中的部分样本输入所述源领域标注模型,分别得到目标领域和源领域的深层特征向量,计算该两个深层特征向量之间的MMD;

基于所述MMD调整所述源领域标注模型参数;并采用新的源领域标注模型为所述目标领域的每个未标注样本预测伪标签,将所述目标领域的标注样本和带有伪标签的样本按比例混合并输入新的源领域标注模型,以再次计算MMD,重复上述过程,直至MMD和分类损失最小,得到所述实体识别标注模型。

本发明的有益效果是:本发明是面向多领域、多范围文本的基于迁移学习的命名实体识别,利用小规模标注语料对新领域数据进行实体识别。以源领域标注模型为基础,运用迁移学习的方式,以领域特征自适应为主体,伪标签学习作为辅助,构成目标领域的新的样本集,用于源领域和目标领域的样本集之间对应的MMD计算,以MMD最小为目标,优化模型参数,减小模型特征在既有知识领域与新知识领域的差异,将模型从已知知识领域迁移到新知识领域中,使模型能够适应新领域的命名实体识别任务,有效解决了深度学习对特定领域少量数据学习能力不足的问题。

上述技术方案的基础上,本发明还可以做如下改进。

进一步,在所述预测伪标签之后,所述训练方法还包括:

挑选优质的带有伪标签的样本用于与所述目标领域的标注样本按比例混合,所述挑选方法为:

计算每个预测概率向量中最大的两个概率值的差值,挑选差值较大的样本用于与所述目标领域的标注样本按比例混合,其中,所述预测概率向量为所述源领域标注模型对每个未标注样本的输出概率向量,所述伪标签由所述输出概率向量确定。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011244352.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top