[发明专利]意图识别的方法、装置、设备和介质在审
申请号: | 202210262775.0 | 申请日: | 2022-03-17 |
公开(公告)号: | CN114706943A | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 汪硕芃;张林箭;宋有伟;张聪;吕唐杰;范长杰;胡志鹏 | 申请(专利权)人: | 网易(杭州)网络有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F16/35;G06F40/289;G06F40/30 |
代理公司: | 北京元合联合知识产权代理事务所(特殊普通合伙) 11653 | 代理人: | 李非非 |
地址: | 310056 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 意图 识别 方法 装置 设备 介质 | ||
本申请公开了一种意图识别的方法、装置、设备和介质,该方法包括:获取训练样本集合,该训练样本集合包括多个训练样本,每个训练样本为抽象化意图的字符组合,训练样本至少包括有序排列的关注字符;在去重后训练样本集合的总字符数量大于或等于第一阈值时,根据字符出现次数对每个训练样本进行压缩处理,得到压缩样本集合;将压缩样本集合输入到预先构建的掩码语言模型进行训练,输出得到意图识别结果,该掩码语言模型用于将输入的压缩样本填充到待训练的语言提示模板中预设位置后进行训练。本申请提供的实施例通过对训练样本进行统一的预处理改造,有效地提升了掩码语言模型的收敛速度。
技术领域
本发明涉及自然语言处理技术领域,特别是指一种意图识别的方法、装置、设备和介质。
背景技术
意图识别是指对用户的搜索需求进行分类识别。意图识别应用的领域涉及搜索引擎、对话系统,智能物联网、机器人等。在这些应用领域中,用户输入的搜索信息可能存在不规范,输入方式多样化,甚至采用的是非标准的自然语言等问题。因此,通常对于意图识别模型的训练需要大量的样本学习。
在对话系统中,意图识别任务可以认为是一个典型的文本分类任务。其在给定用户输入的情况下,判断用户输入是否属于预设的意图类别。对用户输入的文本进行分类,需要大量的训练数据才能达到比较好的效果。但是,当对话系统创建新对话任务时,并没有大量标准数据,每个意图往往只有几个或者十几个样本,面对这种情形,利用少量样本构建意图分类模型成为自然语言处理技术发展的新方向。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种意图识别的方法、装置、设备和介质,来解决现有的语言模型的预训练过程收敛速度较慢,预测效果较差等问题。
第一方面,本发明实施例提供了一种意图识别的方法,该方法包括:
获取训练样本集合,该训练样本集合包括多个训练样本,每个训练样本为抽象化意图的字符组合,该训练样本至少包括有序排列的关注字符;
在去重后的训练样本集合的总字符数量大于或等于第一阈值时,根据字符出现次数对每个训练样本进行压缩处理,得到压缩样本集合;
将压缩样本集合输入到预先构建的掩码语言模型进行训练,输出得到意图识别结果,该掩码语言模型用于将输入的压缩样本填充到待训练的语言提示模板中预设位置后进行训练。
可选地,根据字符出现次数对每个训练样本进行压缩处理,得到压缩样本集合,包括:获取与训练样本集合对应的字频列表,字频列表包括训练样本集合包含的关注字符和每个关注字符在所述训练样本集合中的出现次数;对训练样本集合中的每个训练样本分别进行字符去重处理,得到去重样本集合,去重样本集合包括多个去重样本,去重样本与训练样本一一对应;根据字频列表对去重样本集合中的每个去重样本分别进行压缩处理,得到压缩样本集合,其中,压缩样本集合包括多个压缩样本,压缩样本与去重样本一一对应。
可选地,对训练样本集合中的每个训练样本进行字符去重处理,得到去重样本集合,包括:针对每个训练样本,在确定训练样本包含非关注字符时,用预设字符对非关注字符进行替换,得到与训练样本对应的替换样本;对与训练样本对应的替换样本进行字符去重处理,得到与替换样本对应的去重样本;将与替换样本对应的去重样本添加至去重样本集合中;在确定训练样本不包含非关注字符时,对训练样本进行字符去重处理,得到与训练样本对应的去重样本;将与训练样本对应的去重样本添加至去重样本集合中。
可选地,根据字频列表对去重样本集合中的每个去重样本分别进行压缩处理,得到压缩样本集合,包括:针对每个去重样本,确定去重样本的字符长度;在字符长度大于或等于第二阈值时,根据字频列表对去重样本进行筛选,得到与去重样本对应的筛选样本;对与去重样本对应的筛选样本进行压缩处理,得到与筛选样本对应的压缩样本;将与筛选样本对应的压缩样本添加至压缩样本集合中。
可选地,该方法还包括:针对每个去重样本,在字符长度小于第二阈值时,将去重样本确定为压缩样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易(杭州)网络有限公司,未经网易(杭州)网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210262775.0/2.html,转载请声明来源钻瓜专利网。