[发明专利]一种小样本槽值提取方法、装置、设备及存储介质在审
申请号: | 202310259317.6 | 申请日: | 2023-03-17 |
公开(公告)号: | CN116362242A | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 周喜;杨奉毅;杨雅婷;马博;董瑞;艾比布拉·阿塔伍拉 | 申请(专利权)人: | 中国科学院新疆理化技术研究所 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F40/30;G06F18/214 |
代理公司: | 乌鲁木齐中科新兴专利事务所(普通合伙) 65106 | 代理人: | 张莉 |
地址: | 830011 新疆维吾尔*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 样本 提取 方法 装置 设备 存储 介质 | ||
1.一种小样本槽值提取方法,其特征在于按下列步骤进行:
a、获取槽值提取数据集,对数据集进行处理,构建小样本槽值提取数据集,其中构建小样本槽值提取数据集是将整个数据集划分为训练集、验证集和测试集;训练集、验证集和测试集中的句子分别属于不同的领域;在训练、验证和测试时会构建多组不同的领域迁移元任务,每个领域迁移元任务包含支持集、查询集和辅助集;辅助集由当前目标领域对应的基础领域中的全部数据组成;基础领域是训练集中与目标领域最相似的领域;
b、利用步骤a中辅助集上的全部数据,采用独立的BERT语言模型作为历史信息编码器,将单词编码为特征向量,使用条件随机场框架训练基础领域上的槽值提取模型,训练完成后保存历史信息编码器,冻结当前参数;
c、提取步骤a中的支持集和查询集上单词的语义信息,使用步骤b中的历史信息编码器编码获得单词的历史信息特征向量,使用元知识编码器编码获得单词的元知识特征向量,使用词性信息编码器获得单词的词性信息特征向量;
d、将步骤c生成的历史信息特征向量、元知识特征向量和词性信息特征向量进行融合,获取单词的增强特征向量,将支持集上每个槽位对应的所有单词增强特征向量进行平均,得到的平均向量作为该槽位的原型向量表示;
e、采用条件随机场框架,计算查询集中每个句子的发射分数与转移分数,利用发射分数与转移分数,计算出每个单词所属槽位的概率,提取出句子中的槽值。
2.根据权利要求1所述的小样本槽值提取方法,其特征在于,步骤c中历史信息编码器为步骤b中训练完成的BERT语言模型,元知识编码器和词性信息编码器均为独立的BERT语言模型。
3.一种如权利要求1-2所述方法对应的小样本槽值提取装置,其特征在于,该装置是由小样本槽值提取数据集构建模块、基础领域槽值提取模块、语义编码器模块、特征融合模块和条件随机场模块组成,其中:
小样本槽值提取数据集构建模块:获取槽值提取数据集,对数据集进行处理,构建小样本槽值提取数据集,具体包括数据集切分单元,用于将整个数据集划分为训练集、验证集和测试集;领域迁移元任务构建单元,用于在训练和测试时会构建多组不同的领域迁移元任务,包括支持集,查询集和辅助集;
基础领域槽值提取模块:利用辅助集上的全部数据,训练基础领域上的槽值提取模型,具体包括基础领域编码单元,将使用独立的BERT语言模型,将单词编码为特征向量;基础领域条件随机场单元,计算发射分数与转移分数,确定句子中每个单词所属的槽位;
语义编码器模块:提取支持集和查询集上单词的语义信息,将单词编码为三个不同的高维特征向量,分别是历史信息特征向量,元知识特征向量和词性信息特征向量,具体包括历史信息编码单元,使用训练后的基础领域槽值提取模块上的基础领域编码单元,将单词编码为历史信息特征向量;元知识编码单元,使用独立的BERT语言模型,将单词编码为元知识特征向量;词性信息编码单元,使用独立的BERT语言模型,将单词编码为词性信息特征向量;
特征融合模块:将生成的历史信息特征向量、元知识特征向量和词性信息特征向量进行融合,获取单词的增强特征向量,进一步得到目标槽位的原型向量表示,具体包括任务适应单元,确定历史信息特征向量与元知识特征向量的权重,将二者进行融合,得到任务适应特征向量;词性适应单元,确定词性信息特征向量与元知识特征向量的权重,将二者进行融合,得到词性适应特征向量;增强特征生成单元,将任务适应特征向量与词性适应特征向量进行平均,得到增强特征向量;原型向量生成单元,用于将支持集上每个槽位对应的所有单词增强特征向量进行平均,得到的平均向量作为该槽位的原型向量表示;
条件随机场模块:计算查询集中每个句子的发射分数与转移分数,确定句子中每个单词所属的槽位,具体包括发射分数计算单元,计算单词增强特征向量与槽位原型之间的相似度,得到单词的发射分数;转移分数计算单元,通过训练得到槽位之间的转移分数;槽值提取单元,利用发射分数与转移分数,计算出每个单词所属槽位的概率,提取出句子中的槽值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院新疆理化技术研究所,未经中国科学院新疆理化技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310259317.6/1.html,转载请声明来源钻瓜专利网。