[发明专利]一种基于分布校准的小样本实体关系抽取方法在审
| 申请号: | 202111613756.X | 申请日: | 2021-12-27 |
| 公开(公告)号: | CN114328921A | 公开(公告)日: | 2022-04-12 |
| 发明(设计)人: | 全哲;彭阳;乐雨泉 | 申请(专利权)人: | 湖南大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06F40/289;G06K9/62;G06N20/00 |
| 代理公司: | 湖南岑信知识产权代理事务所(普通合伙) 43275 | 代理人: | 谷萍 |
| 地址: | 410000 湖*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 分布 校准 样本 实体 关系 抽取 方法 | ||
1.一种基于分布校准的小样本实体关系抽取方法,其特征在于,该方法包括如下步骤:
步骤一、提供一包含多个关系类别的数据集,并将该数据集按类别划分出训练集和测试集,其中,训练集包含的类别多于测试集包含的类别,每个类别包含多个样本;
步骤二、将训练集作为基类,测试集作为新类,使用BERT模型将基类和新类中各类别所包含的样本进行向量化,提取样本的特征向量,从而将训练集转化为基类特征向量集,将测试集转化为新类特征向量集;
步骤三、通过公式(1)和(2)分别计算来自基类中的类别i的特征平均值μi和特征协方差矩阵∑i,从而得出基类特征向量集的分布统计量;
其中,xj是基类中的类别i的第j个样本的特征向量,j为大于0的自然数;ni是类别i中的样本总数;
步骤四、使用基于Episode的元任务训练策略训练分类器,每轮从新类特征向量集选取N个类别,从每个类别中分别抽取K个样本作为支持集,抽取Q个样本作为查询集,其中,N、K、Q均为大于0的自然数;
步骤五、通过Tukey幂阶变换将步骤四获得的支持集和查询集的特征向量通过公式(3)进行映射,得到特征向量
其中,λ是一个超参数,用于调整如何校准统计分布量;
步骤六、通过公式(4)和(5)判断基类中所有类别包含的特征平均值和新类的支持集包含的特征向量的相似度,基于该相似度选择出基类中所有类别包含的特征平均值和新类的支持集包含的特征向量最相似的前k个类别;
其中,为特征向量与基类中所有类别包含的特征平均值计算距离的输入距离集,topk(·)为从输入距离集中选择最近的k个元素的运算符;为存储距离特征向量的前k个最近的基类的类别;为支持集中的一个特征向量;Cb为基类特征向量集;
步骤七、基于步骤六中选择的前k个类别的特征平均值μ′和特征协方差矩阵∑′,通过公式(6)和(7)校准支持集包含的特征向量的分布统计量;
其中,∝是一个超参数,决定从分布统计量中采样的特征向量的分散程度;
步骤八、通过公式(8)和(9)从支持集中的类别y的一组通过步骤七校准后的分布统计量中采样θ个带有标签y的特征向量扩充训练数据;
其中,μ′K,∑′K分别是类别y中第K个特征向量校准后的特征平均值和特征协方差矩阵;K为支持集中每个类别的样本数量;
步骤九、将步骤八采样得到的特征向量与新类支持集中的特征向量共同作为分类器的训练数据,通过最小化采样得到的样本和支持集的样本的交叉熵损失来训练分类器;
步骤十、使用通过步骤九训练后的分类器对新类查询集的样本进行预测。
2.根据权利要求1所述的一种基于分布校准的小样本实体关系抽取方法,其特征在于:在步骤一中,所述数据集为包含80个关系类别的大规模人工标注数据集FewRel。
3.根据权利要求2所述的一种基于分布校准的小样本实体关系抽取方法,其特征在于:所述训练集包含64个类别,所述测试集包含16个类别。
4.根据权利要求2或3所述的一种基于分布校准的小样本实体关系抽取方法,其特征在于:在步骤一中,训练集包含的样本数量大于测试集包含的样本数量。
5.根据权利要求4所述的一种基于分布校准的小样本实体关系抽取方法,其特征在于:在步骤一中,每个类别包含700个样本。
6.根据权利要求1所述的一种基于分布校准的小样本实体关系抽取方法,其特征在于:在步骤五中,λ设置为1时,可以恢复原始特征。
7.根据权利要求1所述的一种基于分布校准的小样本实体关系抽取方法,其特征在于:在步骤六中,判断相似度的距离度量函数使用支持集的特征向量和基类特征平均值μi之间的欧式距离,距离越近,则相似度越高。
8.根据权利要求7所述的一种基于分布校准的小样本实体关系抽取方法,其特征在于:在步骤九中,通过公式(10)训练分类器:
其中,yT表示支持集的所有类别,表示特征向量通过Turkey变换转换而来的支持集,分类器由θ参数化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111613756.X/1.html,转载请声明来源钻瓜专利网。





