[发明专利]意图分类模型的训练方法、分类方法、系统、设备和介质有效
申请号: | 201811333427.8 | 申请日: | 2018-11-09 |
公开(公告)号: | CN109492104B | 公开(公告)日: | 2023-01-31 |
发明(设计)人: | 杨俊 | 申请(专利权)人: | 北京汇钧科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36 |
代理公司: | 上海弼兴律师事务所 31283 | 代理人: | 薛琦;罗朗 |
地址: | 100176 北京市大兴区北京经济*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 意图 分类 模型 训练 方法 系统 设备 介质 | ||
1.一种意图分类模型的训练方法,其特征在于,所述训练方法包括:
获取多组原始数据,每组原始数据包括用户的输入内容以及所述用户的行为数据;
标注每组原始数据中输入内容的意图类别;
根据所述多组原始数据以及所述多组原始数据中输入内容的意图类别构造多组训练数据;
根据所述多组训练数据训练所述意图分类模型,所述意图分类模型用于根据原始数据生成所述原始数据中输入内容的意图类别;
所述行为数据包括实时行为数据和历史行为数据;
所述实时行为数据包括用户在输入内容之前访问过的URL;
所述历史行为数据包括用户个人信息、用户订单数据、用户画像中的至少一个;
所述构造多组训练数据的步骤包括:
对于每组原始数据,将行为数据输入决策树;
所述决策树输出所述行为数据的组合特征;
将所述组合特征转换成组合特征向量;
利用所述组合特征向量构造训练数据;
其中,根据所述决策树组合所述行为数据,基于所述决策树中根节点到所有叶节点之间经过的节点构成一个所述组合特征;
所述组合特征包括若干特征,所述若干特征对应的信息增益均大于设定阈值且数量可自定义设置。
2.如权利要求1所述的意图分类模型的训练方法,其特征在于,所述将所述组合特征转换成组合特征向量的步骤包括:
利用one-hot转换所述组合特征,得到组合特征向量。
3.如权利要求1所述的意图分类模型的训练方法,其特征在于,构造训练数据的步骤包括:
对于每组原始数据,对输入内容进行命名实体识别,得到若干实体;
将所述若干实体转换成实体特征向量;
对行为数据进行清洗,得到行为特征;
将所述行为特征转换成行为特征向量;
利用所述实体特征向量和所述行为特征向量构造训练数据。
4.如权利要求3所述的意图分类模型的训练方法,其特征在于,所述将所述行为特征转换成行为特征向量的步骤包括:
利用word2vec转换经清洗的实时行为数据,得到行为特征向量;
利用one-hot转换经清洗的历史行为数据,得到行为特征向量;
和/或,所述将所述若干实体转换成实体特征向量的步骤包括:
利用word2vec转换所述若干实体,得到实体特征向量。
5.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-4中任一项所述的意图分类模型的训练方法。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述的意图分类模型的训练方法的步骤。
7.一种意图分类方法,其特征在于,所述意图分类方法包括:
利用如权利要求1-4中任一项所述的意图分类模型的训练方法训练意图分类模型;
获取用户的输入内容;
对所述输入内容进行命名实体识别,得到若干实体;
将所述若干实体转换成实体特征向量;
获取所述用户的行为数据;
对所述行为数据进行清洗,得到行为特征;
将所述行为特征转换成行为特征向量;
将所述实体特征向量和所述行为特征向量输入所述意图分类模型;
输出所述输入内容的意图类别。
8.如权利要求7所述的意图分类方法,其特征在于,在所述获取所述用户的行为数据的步骤之后,所述意图分类方法还包括:
将所述行为数据输入决策树;
所述决策树输出所述行为数据的组合特征;
将所述组合特征转换成组合特征向量;
将所述组合特征向量同所述实体特征向量、所述行为特征向量一起输入意图分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京汇钧科技有限公司,未经北京汇钧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811333427.8/1.html,转载请声明来源钻瓜专利网。