[发明专利]场景化意图识别方法、装置、计算机设备、存储介质在审
申请号: | 202211212005.1 | 申请日: | 2022-09-30 |
公开(公告)号: | CN115578118A | 公开(公告)日: | 2023-01-06 |
发明(设计)人: | 张昊幸;宋沅昱;张梦娜 | 申请(专利权)人: | 上海浦东发展银行股份有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06Q40/02;G06N20/20;G06N5/00 |
代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 谢曲曲 |
地址: | 200001 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 场景 意图 识别 方法 装置 计算机 设备 存储 介质 | ||
1.一种场景化意图识别方法,其特征在于,所述方法包括:
获取多个场景下的待处理用户数据;
对各个场景下的所述待处理用户数据进行对应场景的数据预处理,得到多个场景下的待预测用户数据;
将多个场景下的所述待预测用户数据分别至对应的场景化意图识别模型,得到多个场景下的意图概率值;
将多个场景下的所述意图概率值进行比较,得到目标意图。
2.根据权利要求1所述的方法,其特征在于,所述场景化意图识别模型是预先训练得到的;其中所述场景化意图识别模型的训练过程,包括:
获取多个场景下的样本数据;多个场景下的所述样本数据携带对应的标签数据;
将每一场景下的所述样本数据进行数据预处理分类,得到多个训练样本数据;
对多个所述训练样本数据进行特征筛选,得到多个所述训练样本数据对应的增强特征;
将每一训练样本数据对应的所述增强数据输入至多个初始模型进行训练,得到各个所述初始模型的预测意图概率;
根据各个所述初始模型的预测意图概率以及标签数据,调整各个所述初始模型的模型参数,直至训练完成得到多个初始场景化意图识别模型;
将各个所述初始场景化意图识别模型的指标进行比较,得到各个场景下对应的所述场景化意图识别模型。
3.根据权利要求2所述的方法,其特征在于,所述获取多个场景下的样本数据,包括:
确定用户群以及时间窗口;
根据所述用户群以及所述时间窗口,得到初始样本数据;
将初始样本数据进行场景划分,得到多个场景下的所述样本数据。
4.根据权利要求2所述的方法,其特征在于,所述对多个所述训练样本数据进行特征筛选,得到多个所述训练样本数据对应的增强特征,包括:
根据所述训练样本数据,得到所述训练样本数据对应的阴影数据;
将所述样本训练数据以及所述阴影数据进行拼接,得到拼接数据;
将所述拼接数据输入至数据增强模型中,得到各个数据的重要指标;
根据置信阈值对所述重要指标进行筛选,得到所述增强特征。
5.根据权利要求2所述的方法,其特征在于,所述将每一场景下的样本数据进行数据预处理分类之前,还包括:
对多个场景下的所述样本数据进行预处理;所述预处理包括数据清洗、数据分箱以及过采样中的至少一种。
6.根据权利要求5所述的方法,其特征在于,所述数据清洗包括缺失值填充、数据去重、内容清洗、格式清洗以及异常值处理中的至少一种;
其中,所述异常值处理的处理过程包括:
获取划分数据;
根据所述划分数据得到划分指标,并根据所述划分指标对所述样本数据进行异常值处理。
7.根据权利要求5所述的方法,其特征在于,所述数据分箱的过程,包括:
根据所述样本数据中的正样本以及负样本进行计算,得到证据权重;
根据所述证据权重得到相对熵,并基于所述相对熵进行数据分箱。
8.根据权利要求5所述的方法,其特征在于,所述过采样的过程,包括:
对所述样本数据进行分析,得到第一样本数据;
根据所述第一样本数据进行合成,得到新增数据;
所述根据所述第一样本数据进行合成,得到新增数据,包括:
在所述第一样本数据中选取样本特征;
计算所述样本特征与所述第一样本数据的欧式距离,并根据所述欧式距离得到近邻样本数据;
根据所述近邻样本数据合成所述新增数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海浦东发展银行股份有限公司,未经上海浦东发展银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211212005.1/1.html,转载请声明来源钻瓜专利网。