[发明专利]一种基于知识蒸馏和PU学习的实体抽取采样方法在审
申请号: | 202110704680.5 | 申请日: | 2021-06-24 |
公开(公告)号: | CN113420548A | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 康文涛;傅啸;毛佳豪;周春珂;邱雨菲 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F16/35;G06F40/237;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 蒸馏 pu 学习 实体 抽取 采样 方法 | ||
本发明公开了一种基于知识蒸馏和PU学习的实体抽取采样方法,首先获取互联网语料库,经并将其整理得到文本,实体格式的数据集;然后对训练集数据进行预处理,构建教师网络,生成训练集的候选实体集D1;再构建PU学习分类器,生成训练集的候选实体集D2;构建学生网络训练样本集;最后进行学生网络模型训练,使用训练好的学生网络模型进行预测。本发明通过知识蒸馏,将多个模型的知识压缩到单一神经网络的训练采样过程中,并辅以PU学习分类器,保证了知识的准确性。在实体数据漏标严重的情况下,本发明能够有效减少样本集中的噪音数据,降低漏标实体数据对抽取结果的影响,改善抽取效果。
技术领域
本发明属于信息抽取(information extraction)中的实体关系抽取领域,主要提出了一种基于神经网络的实体抽取模型训练的采样方法。
背景技术
实体抽取,即在自然语言中识别实体指称的边界和类别,也称为命名实体识别,其主要任务是识别文本中具有意义的实体,比如人名、地名、机构名等。跨度表示是实体抽取的一种标注方法,通过列举文本中可能出现的跨度片段,构建片段表示并进行分类,以达到实现识别出序列中所有的实体的目的。在实体数据漏标严重的情况下,若所有未标注的跨度片段均被当成负样本进行训练,则会引入大量的噪音数据,对模型的训练造成干扰,进而影响模型表现。
知识蒸馏,即把一个大模型或多个模型集成(教师网络)中的知识迁移到一个轻量化的小模型(学生网络)上。知识蒸馏利用性能更好的大模型的信息,监督指导小模型的训练过程,可有效降低计算和存储开销,同时依然具有较高的准确性。
PU学习是半监督学习的一个重要研究方向,主要通过一部分正例样本和大量未标注样本学习得到一个二元分类器。在实体数据漏标严重的情况下,可令已标注的实体词构成正样本,其余的跨度片段构成未标记样本用于PU学习,进而得到一个更加精确的实体词的数据分布。
发明内容
本发明旨在解决实体数据漏标严重情况下训练样本数据噪音过大的问题。本发明的核心改进点在于提出了一种基于跨度表示的实体抽取模型训练的采样策略。本发明先通过集成模型预测得到训练集中潜在的漏标实体集,后使用PU分类器对所得的漏标实体进行进一步筛选,防止其被采集成为负样本参与训练,影响模型训练效果。
一种基于知识蒸馏和PU学习的实体抽取采样方法,步骤如下:
步骤1:获取互联网语料库,经并将其整理得到文本,实体格式的数据集。
步骤2:对训练集数据进行预处理。
步骤3:构建教师网络,生成训练集的候选实体集D1。
步骤4:构建PU学习分类器,生成训练集的候选实体集D2。
步骤5:构建学生网络训练样本集;
步骤6:学生网络模型训练。
步骤7:学生网络模型预测。
步骤1具体步骤如下:
1-1所述的互联网语料库采用现有公开的数据库。
1-2构建数据集。具体实施步骤如下:
1-2-1定义实体类别。具体可以参考行业内对于实体类型定义的规则规范。
1-2-2实体关系标注。对于存在实体的文本,可从中得到命名实体及其对应位置。根据步骤1-2-1定义的实体类型,采用人工标注的方法,对互联网语料中的命名实体进行标注,生成数据集。
1-2-3数据集拆分。将所有文本数据拆分成两部分,其中85%作为训练集,15%作为测试集,分别用于模型的训练和测试。
步骤2具体步骤如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110704680.5/2.html,转载请声明来源钻瓜专利网。