[发明专利]一种语义分析模型生成方法、语义分析方法、装置及设备在审
申请号: | 202110786562.3 | 申请日: | 2021-07-12 |
公开(公告)号: | CN113468869A | 公开(公告)日: | 2021-10-01 |
发明(设计)人: | 韦希林;张靖怡;李健;吴培昊;马泽君 | 申请(专利权)人: | 北京有竹居网络技术有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/30;G06F16/33;G06F16/34;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京信远达知识产权代理有限公司 11304 | 代理人: | 冯柳伟 |
地址: | 101299 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语义 分析 模型 生成 方法 装置 设备 | ||
1.一种语义分析模型生成方法,其特征在于,所述方法包括:
获取第一待训练数据集和第二待训练数据集,所述第一待训练数据集包括多个第一待训练数据,所述第二待训练数据集包括多个第二待训练数据,所述多个第一待训练数据对应的多个分类与所述多个第二待训练数据对应的多个分类相同,所述分类用于表示所述第一待训练数据或所述第二待训练数据的语义;
将所述第一待训练数据集输入原型网络,利用所述原型网络中的编码器获得每个分类对应的原型向量;
针对任一第二待训练数据,将该第二待训练数据输入所述原型网络,获得所述第二待训练数据与各分类的原型向量之间的距离;
根据所述第二待训练数据与各分类的原型向量之间的距离以及所述第二待训练数据对应的分类标签对所述原型网络进行训练,获得语义分析模型。
2.根据权利要求1所述的方法,其特征在于,所述将所述第一待训练数据集输入原型网络,利用所述原型网络的编码器获得每个分类对应的原型向量,包括:
利用所述编码器对所述第一待训练数据集中的各个所述第一待训练数据进行编码,获得第一编码向量集合,所述第一编码向量集合中包括多个第一编码向量;
针对任一分类,根据将该分类对应的多个第一编码向量获得所述分类对应的原型向量。
3.根据权利要求2所述的方法,其特征在于,所述针对任一分类,根据该分类对应的多个第一编码向量获得所述分类对应的原型向量,包括:
将所述分类对应的多个第一编码向量的均值作为所述分类对应的原型向量。
4.根据权利要求2所述的方法,其特征在于,所述针对任一分类,根据该分类对应的多个第一编码向量获得所述分类对应的原型向量,包括:
将所述分类对应的多个第一编码向量以及各第一编码向量对应的权重进行加权求和获得所述分类对应的原型向量。
5.根据权利要求4所述的方法,其特征在于,所述第一编码向量对应的权重是基于注意力机制确定的。
6.根据权利要求1所述的方法,其特征在于,所述根据所述第二待训练数据与各分类的原型向量之间的距离以及所述第二待训练数据对应的分类标签对原型网络进行训练,获得语义分析模型,包括:
根据所述第二待训练数据与各分类的原型向量之间的距离确定所述第二待训练数据属于所述分类标签所指示的分类的概率;
根据所述概率构建损失函数和所述原型网络的准确率,以提高所述准确率和最小化所述损失函数为目标对所述原型网络进行训练,获得语义分析模型。
7.根据权利要求1所述的方法,其特征在于,所述编码器是以类别相似的样本在嵌入空间中的编码表示得越近、类别相异的样本在嵌入空间中的编码表示越远为目标预先训练生成的。
8.根据权利要求1所述的方法,其特征在于,所述编码器为BERT模型。
9.一种语义分析方法,其特征在于,所述方法包括:
获取待处理数据;
将所述待处理数据输入语义分析模型,获得所述待处理数据对应的编码向量与各分类的原型向量之间的距离,所述语义分析模型是根据权利要求1-8所述的语义分析模型生成方法训练获得的;
将与所述待处理数据距离最小的原型向量对应的分类确定为所述待处理数据对应的分类;
根据所述待处理数据对应的分类获取所述待处理数据的语义。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京有竹居网络技术有限公司,未经北京有竹居网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110786562.3/1.html,转载请声明来源钻瓜专利网。