[发明专利]一种训练标记预测模型的方法及系统有效

专利信息
申请号: 202010078148.2 申请日: 2020-01-23
公开(公告)号: CN111274377B 公开(公告)日: 2023-06-02
发明(设计)人: 方军鹏 申请(专利权)人: 支付宝(杭州)信息技术有限公司
主分类号: G06F16/332 分类号: G06F16/332;G06F16/35;G06F18/241;G06Q30/01;G06N20/00
代理公司: 成都七星天知识产权代理有限公司 51253 代理人: 杨永梅
地址: 310000 浙江省杭州市*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 训练 标记 预测 模型 方法 系统
【权利要求书】:

1.一种训练标记预测模型的方法,包括:

获取多个样本,所述多个样本合计包含M个不同标记,M为1的整数;所述多个样本为用户问题文本,所述标记为所述用户问题文本对应的内容类型;

分别从所述多个样本中每个样本的至少一个候选标记中除去所述每个样本的噪声标记,得到所述多个样本的优化样本集;其中,所述噪声标记不属于所述每个样本对应的用户问题文本的真实内容类型;

分别从同一个所述样本的真实标记集和无关标记集中任选一个标记,生成至少一个标记对(x,y);所述真实标记集由所述至少一个候选标记中除所述噪声标记以外的标记组成;所述无关标记集由所述M个标记中除所述候选标记以外的标记组成;

从所述优化样本集中选取训练二分类器的正负样本,训练得到的目标二分类器用于预测所述标记对(x,y)的第一标记x和第二标记y;

将P个所述目标二分类器组成标记预测模型,P为生成的不同的所述标记对的个数,所述标记预测模型为针对所述智能客服数据的分类模型。

2.如权利要求1所述的方法,所述方法还包括:

从所述多个样本中每个样本的真实标记集中取一个标记t与至少一个虚拟标记v配对,生成Q个不同的虚拟标记对(t,v);

从所述优化样本集中选取用于训练二分类器的正负样本,训练得到的第一二分类器用于预测所述虚拟标记对(t,v)中的标记t和所述虚拟标记v;

将P个所述目标二分类器和Q个所述第一二分类器组成所述标记预测模型。

3.如权利要求1或2所述的方法,所述方法还包括:

将待预测样本输入所述标记预测模型,得到至少一个分类结果;

确定所述至少一个分类结果中不同预测标记各自的数量,将满足预设条件的预测标记作为所述待预测样本的标记。

4.如权利要求3所述的方法,所述预设条件包括:

将所述数量大于第一阈值的预测标记作为所述待预测样本的标记,所述第一阈值为所述虚拟标记的数量。

5.如权利要求3所述的方法,所述确定所述至少一个分类结果中不同预测标记各自的数量包括:

确定所述目标二分类器或第一二分类器的权重,所述权重与训练样本量正相关;

求和输出为同一个预测标记的目标二分类器或第一二分类器的权重,得到不同预测标记各自的数量。

6.如权利要求1所述的方法,确定所述样本的所述噪声标记包括:

初始化所述样本包含所述M个不同标记中任一标记的概率,并基于初始化后的结果构建初始置信度矩阵;

基于映射矩阵迭代更新所述初始置信度矩阵,得到第一置信度矩阵;其中,所述映射矩阵用于从所述多个样本的特征空间映射至所述多个样本的标记空间;

将权重向量与所述第一置信度矩阵相乘,得到所述样本的优化置信度向量;所述权重向量中元素代表由所述样本与所述样本邻近的样本的相似度占比确定的权重;

将所述优化置信度向量中不满足预设条件的置信度对应的候选标记确定为所述样本的所述噪声标记。

7.如权利要求6所述的方法,基于流形学习算法确定所述映射矩阵。

8.如权利要求6所述的方法,基于所述映射矩阵迭代更新所述初始置信度矩阵,得到第一置信度矩阵包括:

将所述映射矩阵的转置与所述映射矩阵的乘积与迭代(t-1)次得到的中间置信度矩阵相乘,将相乘后的结果与所述初始置信度矩阵分别和各自的比重相乘后再求和,得到迭代t次得到的中间置信度,t为大于等于1的整数;

直到迭代得到的中间置信度矩阵满足预设条件,迭代结束,并将迭代结束后得到的置信度矩阵作为第一置信度矩阵。

9.如权利要求6所述的方法,所述初始化所述样本包含所述M个不同标记中任一标记的概率包括:

当所述M个不同标记中任一标记为所述样本的候选标记时,将所述概率初始化为1/N,N为所述样本包含的候选标记的个数;候选标记表示所述样本存在所述标记;

当所述M个不同标记中任一标记不为所述样本的候选标记时,将所述概率初始化为0。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010078148.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top