[发明专利]优化模型的评价方法、装置、存储介质及计算机设备在审
申请号: | 201910329328.0 | 申请日: | 2019-04-23 |
公开(公告)号: | CN110210294A | 公开(公告)日: | 2019-09-06 |
发明(设计)人: | 许洋;刘鹏;王健宗 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 深圳市立智方成知识产权代理事务所(普通合伙) 44468 | 代理人: | 王增鑫 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 优化模型 样本数据 测试集 标注 计算机设备 标注信息 存储介质 错误样本 优化测试 样本集 数据处理技术 抓取 标准测试 用户上传 原始模型 申请 抽取 发送 生产 | ||
本申请涉及数据处理技术领域,尤其涉及一种优化模型的评价方法、装置、存储介质及计算机设备。其中,优化模型的评价方法,包括:抓取实际生产中产生的识别数据,将识别数据输入优化模型,获得样本数据;将所述样本数据发送至标注用户进行标注;获取标注用户上传的标注信息,根据标注信息将样本数据划分为正确样本集和错误样本集;按照设定比例抽取所述正确样本集和错误样本集中的样本数据形成测试集预选数据;将测试集预选数据的样本数据添加到原始模型对应的标准测试集中形成优化测试集,并根据所述优化测试集对所述优化模型进行评价。本申请提供的方案,利用扩充后的测试集进行优化模型的评价,提高了优化模型的评价结果的准确性。
技术领域
本申请涉及数据处理技术领域,具体而言,本申请涉及一种优化模型的评价方法、装置、存储介质及计算机设备。
背景技术
模型训练过程中需要用到大量的测试集,该测试集为初始测试集,当模型更新优化后,尤其是针对更新速度较快的领域,测试样本对应的输出结果有可能已经出现更新,精度不满足优化模型的需求,甚至出现与之前相反的结果,导致初始测试集不能用于优化模型的效果评估,需要重新收集测试样本集。
现有技术往往基于现有的若干样本衍生大量测试样本,该种方式收集到的测试样本容易出现覆盖不全面的问题,容易导致训练出的模型在实际应用时,例如图像识别模型在识别含有不常见文本的图片数据或者少数民族文字时,可能模型训练时缺少这方面的测试数据,导致识别模型在此类数据上的识别效果很差,利用该种不全面的测试集进行模型评价时,容易导致评价结果存在较大误差。
发明内容
本申请提供了一种优化模型的评价方法、装置、计算机可读存储介质及计算机设备,利用扩充后的测试集进行优化模型的评价,提高优化模型的评价结果的准确性。
本申请实施例首先提供了一种优化模型的评价方法,包括:
抓取实际生产中产生的识别数据,将所述识别数据输入优化模型,获得样本数据;其中,所述样本数据包括识别数据以及对应的输出信息;
将所述样本数据发送至标注用户进行标注;其中,所述标注用户对所述样本数据标注正确标注信息或错误标注信息;
获取标注用户上传的标注信息,并根据标注信息将样本数据划分为正确样本集和错误样本集;
按照设定比例抽取所述正确样本集和错误样本集中的样本数据形成测试集预选数据;
将所述测试集预选数据的样本数据添加到原始模型对应的标准测试集中形成优化测试集,并根据所述优化测试集对所述优化模型进行评价。
在一种实施例中,所述将所述样本数据发送至标注用户进行标注的步骤之前,还包括:
建立标注用户集,分别将所述样本数据发送给标注用户集中的标注用户,以便所述标注用户对所述样本数据进行正确性标注。
在一种实施例中,若样本数据的标注信息为错误标注信息,所述获取标注用户上传的标注数据的步骤,包括:
获取该样本数据的错误标注信息以及标注用户输入的该识别数据对应的正确输出信息。
在一种实施例中,所述按照设定比例抽取所述正确样本集和错误样本集中的样本数据形成测试集预选数据的步骤之后,还包括:
对错误样本集中的样本数据进行错误类型分类;
统计所述错误样本集中的错误类型及每种错误类型的出错频率;
按照所述出错频率确定每种错误类型的抽取比例。
在一种实施例中,所述按照所述出错频率确定每种错误类型的抽取比例的步骤,包括:
根据所述出错频率对各错误类型进行排序;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910329328.0/2.html,转载请声明来源钻瓜专利网。