[发明专利]意图识别的方法、装置、设备和介质在审
申请号: | 202210262775.0 | 申请日: | 2022-03-17 |
公开(公告)号: | CN114706943A | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 汪硕芃;张林箭;宋有伟;张聪;吕唐杰;范长杰;胡志鹏 | 申请(专利权)人: | 网易(杭州)网络有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F16/35;G06F40/289;G06F40/30 |
代理公司: | 北京元合联合知识产权代理事务所(特殊普通合伙) 11653 | 代理人: | 李非非 |
地址: | 310056 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 意图 识别 方法 装置 设备 介质 | ||
1.一种意图识别的方法,其特征在于,该方法包括:
获取训练样本集合,所述训练样本集合包括多个训练样本,每个所述训练样本为抽象化意图的字符组合,所述训练样本至少包括有序排列的关注字符;
在去重后的所述训练样本集合的总字符数量大于或等于第一阈值时,根据字符出现次数对每个所述训练样本进行压缩处理,得到压缩样本集合;
将所述压缩样本集合输入到预先构建的掩码语言模型进行训练,输出得到意图识别结果,所述掩码语言模型用于将输入的压缩样本填充到待训练的语言提示模板中预设位置后进行训练。
2.根据权利要求1所述的方法,其特征在于,所述根据字符出现次数对每个所述训练样本进行压缩处理,得到压缩样本集合,包括:
获取与所述训练样本集合对应的字频列表,所述字频列表包括所述训练样本集合包含的关注字符和每个所述关注字符在所述训练样本集合中的出现次数;
对所述训练样本集合中的每个所述训练样本分别进行字符去重处理,得到去重样本集合,所述去重样本集合包括多个去重样本,所述去重样本与所述训练样本一一对应;
根据所述字频列表对所述去重样本集合中的每个所述去重样本分别进行压缩处理,得到所述压缩样本集合,其中,所述压缩样本集合包括多个压缩样本,所述压缩样本与所述去重样本一一对应。
3.根据权利要求2所述的方法,其特征在于,所述对所述训练样本集合中的每个所述训练样本进行字符去重处理,得到去重样本集合,包括:
针对每个训练样本,在确定所述训练样本包含非关注字符时,用预设字符对所述非关注字符进行替换,得到与所述训练样本对应的替换样本;
对与所述训练样本对应的替换样本进行字符去重处理,得到与所述替换样本对应的去重样本;
将与所述替换样本对应的去重样本添加至所述去重样本集合中;
在确定所述训练样本不包含非关注字符时,对所述训练样本进行字符去重处理,得到与所述训练样本对应的去重样本;
将与所述训练样本对应的去重样本添加至所述去重样本集合中。
4.根据权利要求2所述的方法,其特征在于,所述根据所述字频列表对所述去重样本集合中的每个所述去重样本分别进行压缩处理,得到所述压缩样本集合,包括:
针对每个所述去重样本,确定所述去重样本的字符长度;
在所述字符长度大于或等于第二阈值时,根据所述字频列表对所述去重样本进行筛选,得到与所述去重样本对应的筛选样本;
对与所述去重样本对应的筛选样本进行压缩处理,得到与所述筛选样本对应的压缩样本;
将与所述筛选样本对应的压缩样本添加至所述压缩样本集合中。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
针对每个所述去重样本,在所述字符长度小于第二阈值时,将所述去重样本确定为压缩样本。
6.根据权利要求4所述的方法,其特征在于,所述根据所述字频列表对所述去重样本进行筛选,得到与所述去重样本对应的筛选样本,包括:
按照所述字频列表的排列顺序,从所述字频列表的首个关注字符开始,确定候选字符集合,所述候选字符集合包括连续的第一阈值个数的关注字符,其中,所述字频列表是按照关注字符在所述训练样本集合中出现次数从高到低的顺序进行排序的;
根据所述候选字符集合对所述去重样本包含的关注字符进行筛选,得到与所述去重样本对应的筛选样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易(杭州)网络有限公司,未经网易(杭州)网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210262775.0/1.html,转载请声明来源钻瓜专利网。