[发明专利]用于小样本意图识别的完型填空式的数据增强方法在审
申请号: | 202211071426.7 | 申请日: | 2022-09-02 |
公开(公告)号: | CN115455144A | 公开(公告)日: | 2022-12-09 |
发明(设计)人: | 陈洪辉;张鑫;蔡飞;江苗;郑建明;宋城宇;邵太华;郭昱普;王梦如 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/211;G06F40/30;G06N3/08 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 曾志鹏 |
地址: | 410003 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 样本 意图 识别 填空 数据 增强 方法 | ||
1.用于小样本意图识别的完型填空式的数据增强方法,其特征是,包括:基于预训练语言模型构建完型填空式的数据增强任务用于意图识别,先采用无监督学习方法使得数据增强的结果在语义上与原始输入句子相似,然后再基于度量分类采用有监督的对比学习方法,使得同一类别的意图样本在嵌入空间中更接近彼此,不同类别的意图样本更远离彼此,对比学习方法包括原型层面的对比学习和实例层面的对比学习。
2.如权利要求1所述的用于小样本意图识别的完型填空式的数据增强方法,其特征是,所述无监督学习方法包括:以预训练语言模型作为特征提取器,采用标记来掩盖设定比例的输入词,根据输入句子的上下文的语义来预测这些被掩盖的标记;特征提取器通过加入两个特殊标记后,将完型填空式的意图识别任务中的句子编码为隐藏层向量表示,两个特殊标记分别表示完型填空式的意图识别任务中句子的开始和结束,该过程通过以下公式表示:
其中,F(·)为特征提取器,T为完型填空式模板,[MASK]为被掩盖的单词的标记,Pat(T,x)为数据增强模式,x是输入句子,表示隐藏层向量,[CLS]和[SEP]分别表示开始和结束;
将隐藏层向量视为被掩盖的单词[MASK]的表示,将看作是根据模式Pat(T,x))生成的句子表示,其在语义上与输入句子x是相似的,所有输入样本上重复公式(1)得到相应的数据增强结果。
3.如权利要求2所述的用于小样本意图识别的完型填空式的数据增强方法,其特征是,通过损失函数对预训练语言模型进行约束,用于削弱与输入句子的语义不匹配的向量,最终获得恰当的数据增强结果。
4.如权利要求3所述的用于小样本意图识别的完型填空式的数据增强方法,其特征是,在不引入任何外部知识和标签的情况下,将输入句子x送入预训练语言模型中,获得其低维向量表示,将其表述为:
其中,隐藏层向量表示为整个句子x,通过以下损失函数:
用于缩小和之间的距离。
5.如权利要求4所述的用于小样本意图识别的完型填空式的数据增强方法,其特征是,完成无监督的完型填空式数据增强之后,采用基于度量的原型网络作为分类器来检验数据增强的效果。
6.如权利要求5所述的用于小样本意图识别的完型填空式的数据增强方法,其特征是,首先计算出同一类别下的样本的平均表示,并以此作为该类别的原型:
其中,ci表示类别i的原型表示,Ki表示在当前元任务T下的支持数据集中类别i的样本数量,为类别i中第k个句子的表示;通过这种原型表示,同一类别的样本到其中心的平均距离最短;同样地,基于通过原型计算公式(4),得到增强的原型c′i。
7.如权利要求6所述的用于小样本意图识别的完型填空式的数据增强方法,其特征是,为了使最终的原型更全面地覆盖其类别的共同特征,对输入样本的原型和数据增强的结果原型进行了加权,公式如下:
其中,α是一个加权系数,以控制来自原始输入数据和增强数据的相应贡献;
给定一个分数函数s(·,·),原型网络通过计算查询嵌入向量和原型之间的相似度的softmax分布来预测查询实例的标签公式如下所示:
其中,y是预测标签,是当前元任务的查询集中的查询实例,j是真实标签,表示基于j类别的初始和增强数据的最终原型,选择余弦相似度作为s(·,·);学习通过最小化负对数概率:
来进行。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211071426.7/1.html,转载请声明来源钻瓜专利网。