[发明专利]一种小样本槽值提取方法、装置、设备及存储介质在审
申请号: | 202310259317.6 | 申请日: | 2023-03-17 |
公开(公告)号: | CN116362242A | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 周喜;杨奉毅;杨雅婷;马博;董瑞;艾比布拉·阿塔伍拉 | 申请(专利权)人: | 中国科学院新疆理化技术研究所 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F40/30;G06F18/214 |
代理公司: | 乌鲁木齐中科新兴专利事务所(普通合伙) 65106 | 代理人: | 张莉 |
地址: | 830011 新疆维吾尔*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 样本 提取 方法 装置 设备 存储 介质 | ||
本发明公开了一种小样本槽值提取方法、装置、设备及存储介质,该方法获取槽值提取数据集,对数据集进行处理,构建小样本槽值提取数据集;利用辅助集上的全部数据,训练基础领域上的槽值提取模型,获得历史信息编码器;将生成的历史信息特征向量、元知识特征向量和词性信息特征向量进行融合,获取单词的增强特征向量,进一步得到目标槽位的原型向量表示;计算查询集中每个句子的发射分数与转移分数,计算出每个单词所属槽位的概率,提取出句子中的槽值。本发明充分迁移了相似领域中的大量知识,降低了模型对历史信息的遗忘程度,有效适应了小样本场景下的槽值提取任务,提高了小样本槽值提取的准确率。
技术领域
本发明涉及信息技术领域中的自然语言处理领域,尤其涉及槽值提取、小样本学习等技术领域。具体地,本发明提供一种小样本槽值提取方法、装置、设备及存储介质。
背景技术
槽值提取(Slot Tagging)是人机对话系统中的一项关键任务,其目的是识别用户语句中的槽值。近些年来,随着深度学习技术的快速发展,槽值提取任务也取得了巨大的进步,研究人员提出了一系列有效的算法,这些算法通常需要大量数据作支撑。然而,在对话系统开发的初始阶段,目标领域的对话文本往往难以收集,通常仅有少量的数据样例支撑。在这种情况下,由于目标任务的训练数据有限,以数据驱动的方法在这种任务上会出现较为严重的过拟合现象,这就需要模型具有从少量样本中学习归纳的能力。为了解决训练样本不足的问题,受人类快速学习新事物能力的启发,研究人员提出了小样本学习算法,希望利用领域外的知识和少量的标注数据去学习一个能够对未知类别具有良好判别能力的模型。通常,小样本学习方法采用了元学习的训练策略,这需要大量其他任务或领域的数据辅助。它的基本思想是在训练时模拟测试时小样本的情况,使得所有训练任务都是小样本的形式,这些训练任务称之为元任务。因此,模型在训练时每次都要学习一个新的元任务,经过大量的训练后,这个模型就能够很好的处理一个新的小样本任务。这种传统的小样本学习模型旨在最小化多个不同元任务的损失,而不是关注每个元任务中的特定标签。
在现有的小样本槽值提取方法中存在以下问题:
1)在实际的槽值提取任务中,多个领域之间通常包含重叠的标签,这种现象的普遍存在导致了实际任务的标签空间与传统小样本任务的设定出现了偏差,进而导致了模型对历史信息的遗忘;
2)词性作为一种跨领域的通用语言特征,在小样本情形下可以发挥一定的引导作用,现有模型并没有考虑到这一点;
为解决上述常规小样本槽值提取方法中存在的问题,本发明提供了一种小样本槽值提取方法、装置、设备及存储介质。本发明提出一种基于领域迁移和词性迁移的元任务构建策略,并且提出了一种两阶段的模型训练框架来实现元任务的训练,新的元任务能够充分迁移相似领域中的大量知识,降低了模型对历史信息的遗忘程度,可以有效提高目标领域在小样本场景下的槽值提取准确率。
发明内容
本发明目的在于,提供了一种小样本槽值提取方法、装置、设备及存储介质。该方法获取槽值提取数据集,对数据集进行处理,构建小样本槽值提取数据集;利用辅助集上的全部数据,训练基础领域上的槽值提取模型,获得历史信息编码器;提取支持集和查询集上单词的语义信息,分别使用历史信息编码器、元知识编码器及词性信息编码器编码获得单词的历史信息特征向量、元知识特征向量及词性信息特征向量;将生成的历史信息特征向量、元知识特征向量和词性信息特征向量进行融合,获取单词的增强特征向量,进一步得到目标槽位的原型向量表示;计算查询集中每个句子的发射分数与转移分数,利用发射分数与转移分数,计算出每个单词所属槽位的概率,提取出句子中的槽值。本发明充分迁移了相似领域中的大量知识,降低了模型对历史信息的遗忘程度,有效适应了小样本场景下的槽值提取任务,提高了小样本槽值提取的准确率。
本发明所述的一种小样本槽值提取方法,按下列步骤进行:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院新疆理化技术研究所,未经中国科学院新疆理化技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310259317.6/2.html,转载请声明来源钻瓜专利网。