[发明专利]测试数据的扩充方法、装置、设备及计算机可读存储介质在审
申请号: | 202110691032.0 | 申请日: | 2021-06-22 |
公开(公告)号: | CN113535549A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 范超超;于超敏;王思睿 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G06F11/36 | 分类号: | G06F11/36;G06K9/62;G06N3/08 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 何倚雯 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 测试数据 扩充 方法 装置 设备 计算机 可读 存储 介质 | ||
本申请公开了一种测试数据的扩充方法、装置、设备及计算机可读存储介质,其中,所述测试数据的扩充方法包括:获取原始数据集;其中,所述原始数据集包括至少一种业务类别的测试数据;利用第一分类模型对所述原始数据集进行业务分类,得到每个业务类别所对应的原始数据子集;针对各所述业务类别,利用所述业务类别的数据扩充策略对所述业务类别的原始数据子集进行数据扩充,得到所述业务类别的第一扩充数据子集;将各所述业务类别的第一扩充数据子集进行合并,得到扩充数据集。上述方案,能够有效的提高数据采集的效率和质量。
技术领域
本申请涉及智能交互技术领域,特别是涉及一种测试数据的扩充方法、电子设备、计算机可读存储介质。
背景技术
目前智能语言交互引擎应用广泛,涵盖智能客服、辅助营销、导航和外呼等各个业务和相关项目。目前各项目前期数据的获取方式比较单一,均由客户侧提供的少量数据样例,然后由研发测试按照一定的比例进行分配用于优化和测试。研测内部有时候也会进行人工的数据扩充,但是不同项目需求不一样,业务数据的特点和类型也存在差异,扩充困难且费时。
目前现有的数据获取方式及人工扩充方式有很多不足之处。首先客户侧提供的数据量极少,远远达不到研测的数据需求,造成研发优化不足,测试覆盖面不全,导致很多问题暴露不够全面,引擎的场景泛化性不足等。其次根据少量数据进行人工扩充需要依据不同的业务数据类型,去手动选择扩充方式,也很浪费人力。
发明内容
本申请提供一种测试数据的扩充方法、电子设备、计算机可读存储介质,能够有效的提高数据采集的效率和质量。
为了解决上述问题,本申请第一方面提供了一种测试数据的扩充方法,所述扩充方法包括:获取原始数据集;其中,所述原始数据集包括至少一种业务类别的测试数据;利用第一分类模型对所述原始数据集进行业务分类,得到每个业务类别所对应的原始数据子集;针对各所述业务类别,利用所述业务类别的数据扩充策略对所述业务类别的原始数据子集进行数据扩充,得到所述业务类别的第一扩充数据子集;将各所述业务类别的第一扩充数据子集进行合并,得到扩充数据集。
为了解决上述问题,本申请第二方面提供了一种测试数据的扩充装置,所述测试数据的扩充装置包括:数据获取模块,所述数据获取模块用于获取原始数据集;其中,所述原始数据集包括至少一种业务类别的测试数据;数据分类模块,所述数据分类模块用于利用第一分类模型对所述原始数据集进行业务分类,得到每个业务类别所对应的原始数据子集;数据扩充模块,所述数据扩充模块用于针对各所述业务类别,利用所述业务类别的数据扩充策略对所述业务类别的原始数据子集进行数据扩充,得到所述业务类别的第一扩充数据子集;数据合并模块,所述数据合并模块用于将各所述业务类别的第一扩充数据子集进行合并,得到扩充数据集。
为了解决上述问题,本申请第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,所述处理器用于执行所述存储器中存储的程序指令,以实现上述第一方面的测试数据的扩充方法。
为了解决上述问题,本申请第四方面提供了一种计算机可读存储介质,其上存储有程序指令,所述程序指令被处理器执行时实现上述第一方面的测试数据的扩充方法。
本发明的有益效果是:区别于现有技术的情况,本申请通过获取原始数据集,原始数据集包括至少一种业务类别的测试数据,然后利用第一分类模型对原始数据集进行业务分类,得到每个业务类别所对应的原始数据子集,于是针对各业务类别,利用业务类别的数据扩充策略对业务类别的原始数据子集进行数据扩充,得到业务类别的第一扩充数据子集,然后将各业务类别的第一扩充数据子集进行合并,得到扩充数据集。因此只需要输入少量的测试数据,就可以对输入的每条测试数据进行业务类别判定,分类出不同的业务类别后,基于设置的需要的扩充量,可以结合相应业务类别的预设数据扩充策略进行自动化的测试数据扩充建设,可以有效的提高测试数据采集的质量且大大提升了测试数据采集的效率,进而可以提升被测试引擎的泛化性和可靠性。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110691032.0/2.html,转载请声明来源钻瓜专利网。