[发明专利]一种训练样本有效性检测方法及装置在审

专利信息
申请号: 201910022265.4 申请日: 2019-01-10
公开(公告)号: CN109902157A 公开(公告)日: 2019-06-18
发明(设计)人: 许开河;杜尧鑫;王少军 申请(专利权)人: 平安科技(深圳)有限公司
主分类号: G06F16/332 分类号: G06F16/332;G06F16/35
代理公司: 北京汇思诚业知识产权代理有限公司 11444 代理人: 冯晓平
地址: 518000 广东省深圳市福田区福*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 标注 有效性检测 交叉验证 训练样本 预设 分类模型 预设标准 训练集 样本集 人工智能技术 关联 训练分类 输出
【说明书】:

发明实施例提供了一种训练样本有效性检测方法及装置,本发明涉及人工智能技术领域,方法包括:获取多个扩展问,其中,每个扩展问与对应的一个预设标准问关联;将多个扩展问随机分为预设份数的样本集,并根据预设比例将预设份数的样本集分为训练集和交叉验证集;利用训练集训练分类模型;采用交叉验证方法,并利用分类模型对交叉验证集中的多个扩展问标注,直至所有的扩展问标注完成;获取分类模型输出的所有的扩展问的标注结果;根据标注结果得到异常扩展问,异常扩展问的标注结果与所关联的预设标准问不同。本发明实施例提供的技术方案能够解决现有技术中训练样本有效性检测效率低的问题。

【技术领域】

本发明涉及人工智能技术领域,尤其涉及一种训练样本有效性检测方法及装置。

【背景技术】

目前,客服机器人发展趋于成熟,根据所需要实现的业务场景,需要大量的训练语料对基于机器学习智能应答模型进行训练,然而,现实中训练语料往往质量参差不齐,不好的语料会导致应答模型的回答效果产生负面影响,因此如何提高训练样本的有效性检测效率成为目前亟待解决的问题。

【发明内容】

有鉴于此,本发明实施例提供了一种训练样本有效性检测方法、装置和计算机设备,用以解决现有技术中训练样本的有效性检测效率低的问题。

为了实现上述目的,根据本发明的一个方面,提供了一种训练样本有效性检测方法,所述方法包括:

步骤S101,获取多个扩展问,其中,每个所述扩展问与对应的一个预设标准问关联;

步骤S102,将多个所述扩展问随机分为预设份数的样本集,并根据预设比例将所述预设份数的样本集分为训练集和交叉验证集;

步骤S103,利用所述训练集训练分类模型;

步骤S104,采用交叉验证方法,并利用所述分类模型对所述交叉验证集中的多个扩展问标注,直至所有的所述扩展问标注完成;

步骤S105,获取所述分类模型输出的所有的所述扩展问的标注结果;

步骤S106,根据所述标注结果得到异常扩展问,所述异常扩展问的标注结果与所关联的预设标准问不同。

进一步地,在所述步骤S105之后,所述方法还包括:

重复操作M次的所述步骤S102至所述步骤S104,其中,M为大于1的自然数,每次重复操作前对所述分类模型进行初始化;获取所述分类模型的输出的所有的所述扩展问的M次标注结果;当所述扩展问的标注结果与所述预设标准问相同时,所述扩展问的当次计分为第一预设分值;或,当所述扩展问的标注结果与所述预设标准问不同时,所述扩展问的当次计分为第二预设分值;计算各个所述扩展问的第一累计得分;筛选出所述第一累计得分小于第一预设阈值的所述扩展问;将筛选出的扩展问作为所述异常扩展问,并输出。

进一步地,在所述获取所述分类模型的输出的所有的所述扩展问的M次标注结果之后,所述方法还包括:

当所述标注结果与所述预设标准问相同时,由所述标注结果与所述预设标准问所组成的标准问对的当次计分为所述第一预设分值;或,当所述标注结果与所述预设标准问不同时,所述标准问对的当次计分为所述第二预设分值;计算各个所述标准问对的第二累计得分;筛选出所述第二累计得分小于第二预设阈值的所述标准问对;将筛选出的标准问对作为易混淆标准问对,并输出。

进一步地,在所述步骤S105之后,所述方法还包括:

获取实质相同的多个扩展问的标注结果,所述实质相同的多个扩展问的语义相似度大于预设值;统计所述实质相同的多个扩展问的标注结果;将重复次数最多的标注结果作为所述实质相同的多个扩展问对应的正确预设标准问;将所述标注结果与所述正确预设标准问不同的扩展问确认为所述异常扩展问。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910022265.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top