[发明专利]一种小样本槽值提取方法、装置、设备及存储介质在审

专利信息
申请号: 202310259317.6 申请日: 2023-03-17
公开(公告)号: CN116362242A 公开(公告)日: 2023-06-30
发明(设计)人: 周喜;杨奉毅;杨雅婷;马博;董瑞;艾比布拉·阿塔伍拉 申请(专利权)人: 中国科学院新疆理化技术研究所
主分类号: G06F40/289 分类号: G06F40/289;G06F40/216;G06F40/30;G06F18/214
代理公司: 乌鲁木齐中科新兴专利事务所(普通合伙) 65106 代理人: 张莉
地址: 830011 新疆维吾尔*** 国省代码: 新疆;65
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 样本 提取 方法 装置 设备 存储 介质
【权利要求书】:

1.一种小样本槽值提取方法,其特征在于按下列步骤进行:

a、获取槽值提取数据集,对数据集进行处理,构建小样本槽值提取数据集,其中构建小样本槽值提取数据集是将整个数据集划分为训练集、验证集和测试集;训练集、验证集和测试集中的句子分别属于不同的领域;在训练、验证和测试时会构建多组不同的领域迁移元任务,每个领域迁移元任务包含支持集、查询集和辅助集;辅助集由当前目标领域对应的基础领域中的全部数据组成;基础领域是训练集中与目标领域最相似的领域;

b、利用步骤a中辅助集上的全部数据,采用独立的BERT语言模型作为历史信息编码器,将单词编码为特征向量,使用条件随机场框架训练基础领域上的槽值提取模型,训练完成后保存历史信息编码器,冻结当前参数;

c、提取步骤a中的支持集和查询集上单词的语义信息,使用步骤b中的历史信息编码器编码获得单词的历史信息特征向量,使用元知识编码器编码获得单词的元知识特征向量,使用词性信息编码器获得单词的词性信息特征向量;

d、将步骤c生成的历史信息特征向量、元知识特征向量和词性信息特征向量进行融合,获取单词的增强特征向量,将支持集上每个槽位对应的所有单词增强特征向量进行平均,得到的平均向量作为该槽位的原型向量表示;

e、采用条件随机场框架,计算查询集中每个句子的发射分数与转移分数,利用发射分数与转移分数,计算出每个单词所属槽位的概率,提取出句子中的槽值。

2.根据权利要求1所述的小样本槽值提取方法,其特征在于,步骤c中历史信息编码器为步骤b中训练完成的BERT语言模型,元知识编码器和词性信息编码器均为独立的BERT语言模型。

3.一种如权利要求1-2所述方法对应的小样本槽值提取装置,其特征在于,该装置是由小样本槽值提取数据集构建模块、基础领域槽值提取模块、语义编码器模块、特征融合模块和条件随机场模块组成,其中:

小样本槽值提取数据集构建模块:获取槽值提取数据集,对数据集进行处理,构建小样本槽值提取数据集,具体包括数据集切分单元,用于将整个数据集划分为训练集、验证集和测试集;领域迁移元任务构建单元,用于在训练和测试时会构建多组不同的领域迁移元任务,包括支持集,查询集和辅助集;

基础领域槽值提取模块:利用辅助集上的全部数据,训练基础领域上的槽值提取模型,具体包括基础领域编码单元,将使用独立的BERT语言模型,将单词编码为特征向量;基础领域条件随机场单元,计算发射分数与转移分数,确定句子中每个单词所属的槽位;

语义编码器模块:提取支持集和查询集上单词的语义信息,将单词编码为三个不同的高维特征向量,分别是历史信息特征向量,元知识特征向量和词性信息特征向量,具体包括历史信息编码单元,使用训练后的基础领域槽值提取模块上的基础领域编码单元,将单词编码为历史信息特征向量;元知识编码单元,使用独立的BERT语言模型,将单词编码为元知识特征向量;词性信息编码单元,使用独立的BERT语言模型,将单词编码为词性信息特征向量;

特征融合模块:将生成的历史信息特征向量、元知识特征向量和词性信息特征向量进行融合,获取单词的增强特征向量,进一步得到目标槽位的原型向量表示,具体包括任务适应单元,确定历史信息特征向量与元知识特征向量的权重,将二者进行融合,得到任务适应特征向量;词性适应单元,确定词性信息特征向量与元知识特征向量的权重,将二者进行融合,得到词性适应特征向量;增强特征生成单元,将任务适应特征向量与词性适应特征向量进行平均,得到增强特征向量;原型向量生成单元,用于将支持集上每个槽位对应的所有单词增强特征向量进行平均,得到的平均向量作为该槽位的原型向量表示;

条件随机场模块:计算查询集中每个句子的发射分数与转移分数,确定句子中每个单词所属的槽位,具体包括发射分数计算单元,计算单词增强特征向量与槽位原型之间的相似度,得到单词的发射分数;转移分数计算单元,通过训练得到槽位之间的转移分数;槽值提取单元,利用发射分数与转移分数,计算出每个单词所属槽位的概率,提取出句子中的槽值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院新疆理化技术研究所,未经中国科学院新疆理化技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310259317.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top