[发明专利]一种基于伪样本重放的增量式命名实体识别方法在审
申请号: | 202210150846.8 | 申请日: | 2022-02-18 |
公开(公告)号: | CN114510943A | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 夏宇;李素建 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京万象新悦知识产权代理有限公司 11360 | 代理人: | 贾晓玲 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 样本 重放 增量 命名 实体 识别 方法 | ||
本发明公布了一种基于伪样本重放的增量式命名实体识别方法,是知识图谱构建技术的基础,属于自然语言处理中的信息抽取技术领域。本发明在学习阶段,给定了一个只包含新实体类型的训练集,将旧模型作为教师,训练新的学生模型时,在常规的交叉熵损失上增加了知识蒸馏损失;在复习阶段,生成关于旧类型的伪样本作为复习材料,通过在复习材料上进一步蒸馏,来温故旧知识,并将其和新知识整合起来。本发明使用旧类型的伪样本为复习材料提供新类型的监督信号,使用教师提供旧类型的监督信号,有了上述新旧类型的监督信号后,本发明可以使用此监督信号来约束新学生模型在复习材料上的输出。
技术领域
本发明提供一种增量式命名实体识别技术,具体设计一种基于伪样本重放的命名实体识别方法,是知识图谱构建技术的基础,属于自然语言处理中的信息抽取技术领域。
背景技术
传统的命名实体识别[1]是指从无结构化文本中抽取指定类别的实体(比如,人名、地名、机构名),是信息抽取的重要步骤之一。传统方法局限于抽取预定义类别的实体,然而在现实中,待抽取的实体类别往往会随着需求动态扩增,比如,在对话系统中时不时会遇到新的意图,新的实体类型会随之引入,这就要求模型能够识别一个动态扩增的实体类型集合。为了适配上述场景,一个简单的方法是给所有见过的实体类型标注一个数据集,并用它来训练一个新的模型,然而这个方法对标注的需求过大,且耗费的计算资源过多,在实体类型特别多的场景下,甚至是不可行的。于是Monaikul等人[2]提出了一个对于标注需求和计算资源要求较低的设置,每次只需提供一个标注了新的实体类型的数据集,并利用旧模型中关于旧类型实体的知识来训练新的模型。
这种学习范式又被称为持续学习(终生学习,增量式学习),更具体地来说,属于类别增量式持续学习。然而,持续学习技术离实际应用仍然有一定的差距,其中最大的挑战就是灾难性遗忘问题[3],灾难性遗忘指的是,学习新任务时模型在旧任务上的表现大幅下降。灾难性遗忘问题产生的原因是:和人类不同的是,神经网络是通过参数来存储任务知识,当它学习新实体类型时,不可避免地会更新到旧任务相关的参数,于是造成了旧任务表现的下降。除了灾难性遗忘问题,类别增量式持续学习还面临着类别混淆问题[4],类别混淆问题指的是,模型不能很好地区分不同类别,此问题产生的原因是:不同类别的样本出现在了不同的任务中,模型每次训练时只见到了部分类别,没有同时对所有类别进行建模。
由于缺乏统一的基准数据集来衡量持续学习场景下的命名实体识别,相关工作的设置较为混乱,最适合实际应用场景的是Monaikul等人[2]提出的设置,Monaikul等人将现有的传统场景下的命名实体识别数据集转化成了类别增量式的设置:假设在第k步,目标是学习一个新的实体类型集合提供的训练数据集中只需要标注出属于的实体,其他旧类型的实体并不需要标注出来。为了学习新类型并且不忘记旧类型,Monaikul将旧模型作为教师,训练新的学生模型时,在常规的交叉熵损失上增加了知识蒸馏损失[5],知识蒸馏损失的目的是用教师模型的输出来约束学生模型在旧类型上的输出,以防学生模型忘记旧类型。尽管上述方法取得了初步的成功,然而它具有下述缺陷:这种基于蒸馏的方法依赖训练数据集中旧类型实体的数量,若中不具有旧类型实体,教师模型就难以将旧知识蒸馏进学生模型。
发明内容
为了解决灾难性遗忘和类别混淆问题,本发明提出了一个两阶段的训练框架Learn-and-Review(LR),它受启发于人类的学习过程,在常规的“学习阶段”之后引入了一个“复习阶段”。
本发明提供的技术方案如下:
参考图1,本发明提供的一种基于伪样本重放的的命名实体识别方法,其特征在于,包括学习阶段和复习阶段,在学习阶段,给定一个只包含新实体类型的训练集,将旧模型作为教师,训练新的学生模型时,在常规的交叉熵损失上增加知识蒸馏损失;在复习阶段,生成关于旧类型的伪样本作为复习材料,通过在复习材料上进一步蒸馏,来温故旧知识,并将其和新知识整合起来;具体包括如下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210150846.8/2.html,转载请声明来源钻瓜专利网。