[发明专利]一种基于知识蒸馏和PU学习的实体抽取采样方法在审
申请号: | 202110704680.5 | 申请日: | 2021-06-24 |
公开(公告)号: | CN113420548A | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 康文涛;傅啸;毛佳豪;周春珂;邱雨菲 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F16/35;G06F40/237;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 蒸馏 pu 学习 实体 抽取 采样 方法 | ||
1.一种基于知识蒸馏和PU学习的实体抽取采样方法,其特征在于,步骤如下:
步骤1:获取互联网语料库,经并将其整理得到文本,实体格式的数据集;
步骤2:对训练集数据进行预处理;
步骤3:构建教师网络,生成训练集的候选实体集D1;
步骤4:构建PU学习分类器,生成训练集的候选实体集D2;
步骤5:构建学生网络训练样本集;
步骤6:学生网络模型训练;
步骤7:学生网络模型预测。
2.根据权利要求1所述的一种基于知识蒸馏和PU学习的实体抽取采样方法,其特征在于,步骤1具体步骤如下:
1-1所述的互联网语料库采用现有公开的数据库;
1-2构建数据集;具体实施步骤如下:
1-2-1定义实体类别;具体可以参考行业内对于实体类型定义的规则规范;
1-2-2实体关系标注;对于存在实体的文本,可从中得到命名实体及其对应位置;根据步骤1-2-1定义的实体类型,采用人工标注的方法,对互联网语料中的命名实体进行标注,生成数据集;
1-2-3数据集拆分;将所有文本数据拆分成两部分,其中85%作为训练集,15%作为测试集,分别用于模型的训练和测试。
3.根据权利要求2所述的一种基于知识蒸馏和PU学习的实体抽取采样方法,其特征在于,步骤2具体步骤如下:
所述的预处理包括对所得数据集进行清洗和结构化整理,以便后续用于模型的输入;具体实施步骤如下:
2-1数据清洗,删除文本中的非法字符、空格、换行符;
2-2以字为粒度将文本分割,构建字典;构建的字典D={d1,d2,...,dz};其中z为字典的总长度,di表示字典中第i个字;
2-3构建实体类型字典;
构建的实体类型字典L={l0,l1,l2,...,lp};其中p为实体类型数,l0表示非实体类型,li表示第i个实体类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110704680.5/1.html,转载请声明来源钻瓜专利网。