[发明专利]数据处理方法、装置、计算机设备和存储介质在审
申请号: | 202110396801.4 | 申请日: | 2021-04-13 |
公开(公告)号: | CN113705072A | 公开(公告)日: | 2021-11-26 |
发明(设计)人: | 吴鸣;李志颖;张文浩;谭景锋;赵大鹏;王硕;刘晨;丁钰婷 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06K9/62;G06Q10/04;G06Q10/06;G06N20/00 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;杜维 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 计算机 设备 存储 介质 | ||
本申请公开了一种数据处理方法、装置、计算机设备和存储介质,该方法包括:获取模型训练场景下的样本数据集;样本数据集中包含M个样本数据,M为正整数;获取待分析的N种特征类型,并分别获取每种特征类型下每个样本数据的特征值;N为正整数;根据每种特征类型下每个样本数据的特征值,生成样本数据集在每种特征类型下的训练指标信息,该训练指标信息用于辅助从N种特征类型中确定与模型训练场景相适配的特征类型。采用本申请,可提高所确定的与模型训练场景相适配的特征类型的准确性。
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置、计算机设备和存储介质。
背景技术
随着计算机网络的不断发展,人工智能(Artificial Intelligence,AI)的相关技术已经渗透到了生活的方方面面,例如,通过人工智能相关的机器学习技术训练模型,从而通过训练得到的模型可以对数据进行区分预测。
现有技术中,在对模型进行训练时,通常是由用户预先根据经验选择适用于进行模型训练的一种或者多种数据特征类型,进而通过样本数据在该选定的数据特征类型下的特征即可完成对模型的训练。
由于通常用户根据经验来选择用于进行模型训练的数据特征类型时,可以任意选择与所训练的模型相关联的数据特征类型,因此很大可能用户所选取的用于进行模型训练的数据特征类型并不准确。
发明内容
本申请提供了一种数据处理方法、装置、计算机设备和存储介质,可提高所确定的与模型训练场景相适配的特征类型的准确性。
本申请一方面提供了一种数据处理方法,该方法包括:
获取模型训练场景下的样本数据集;样本数据集中包含M个样本数据,M 为正整数;
获取待分析的N种特征类型,并分别获取每种特征类型下每个样本数据的特征值;N为正整数;
根据每种特征类型下每个样本数据的特征值,生成样本数据集在每种特征类型下的训练指标信息,该训练指标信息用于辅助从N种特征类型中确定与模型训练场景相适配的特征类型。
本申请一方面提供了一种数据处理装置,该装置包括:
样本获取模块,用于获取模型训练场景下的样本数据集;样本数据集中包含M个样本数据,M为正整数;
特征获取模块,用于获取待分析的N种特征类型,并分别获取每种特征类型下每个样本数据的特征值;N为正整数;
指标生成模块,用于根据每种特征类型下每个样本数据的特征值,生成样本数据集在每种特征类型下的训练指标信息,该训练指标信息用于辅助从N种特征类型中确定与模型训练场景相适配的特征类型。
可选的,N种特征类型包括第i种特征类型,i为小于或等于N的正整数;第i种特征类型具有t种目标特征值,t为正整数;
指标生成模块根据每种特征类型下每个样本数据的特征值,生成样本数据集在每种特征类型下的训练指标信息的方式,包括:
根据第i种特征类型下每个样本数据的特征值,确定t种目标特征值中每种目标特征值对应的特征值频数;
根据每种目标特征值对应的特征值频数,生成样本数据集在第i种特征类型下的训练指标信息。
可选的,M个样本数据包括负样本数据和正样本数据;N种特征类型包括第j种特征类型,j为小于或等于N的正整数;
指标生成模块根据每种特征类型下每个样本数据的特征值,生成样本数据集在每种特征类型下的训练指标信息的方式,包括:
根据第j种特征类型下每个样本数据的特征值,对M个样本数据进行划分,得到第j种特征类型对应的K1个样本数据分箱;K1为小于或等于M的正整数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110396801.4/2.html,转载请声明来源钻瓜专利网。