[发明专利]一种信息处理方法、装置及计算机可读存储介质在审
申请号: | 202210028643.1 | 申请日: | 2022-01-11 |
公开(公告)号: | CN114416642A | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 罗洋;蒋杰;于洋 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/11 | 分类号: | G06F16/11;G06F16/16;G06F16/172 |
代理公司: | 深圳市智圈知识产权代理事务所(普通合伙) 44351 | 代理人: | 苗燕 |
地址: | 518064 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 信息处理 方法 装置 计算机 可读 存储 介质 | ||
本申请实施例公开了一种信息处理方法、装置及计算机可读存储介质,本申请实施例通过获取第一预设格式的第一待处理文件;解析第一待处理文件,将第一待处理文件转化为第二预设格式的第二待处理文件;读取第二待处理文件中每一训练样本信息的特征维度数目以及对应的特征信息,并将每一训练样本信息存储至第一预设内存装置;将第一预设内存装置中的每一训练样本信息读取至图形处理器中进行处理。以此,通过在训练样本信息增设特征维度数目,通过特征维度数据可以快速确定对应的特征信息,只需要两次的读取操作就可以将每一训练样本信息存储至第一预设内存装置,进而转存至图形处理器进行处理,减少信息计算和读取,极大的提升了信息处理的效率。
技术领域
本申请涉及信息处理技术领域,具体涉及一种信息处理方法、装置及计算机可读存储介质。
背景技术
目前的广告营销系统,一般采用训练好的深度学习模型预测用户是否有产品使用需求,以便在训练好的深度学习模型预测出用户有产品使用需求的情况下,向有产品使用需求的用户投放广告。
例如,以广告营销类的深度学习模型采用HugeCTR框架进行训练说明,该HugeCTR框架为GPU分布式训练框架,它主要针对的是推荐点击通过率(Click-Through-Rate,CTR)场景,支持大规模稀疏训练数据的分布式训练与评估。
在对现有技术的研究和实践过程中,本申请的发明人发现,现有技术中,在面对海量的训练数据以及海量的特征数量时,需要经过多次的输入/输出(Input/Output,I/O)操作,会导致计算资源的浪费,信息处理的效率较低。
发明内容
本申请实施例提供一种信息处理方法、装置及计算机可读存储介质,可以提升信息处理的效率。
为解决上述技术问题,本申请实施例提供以下技术方案:
一种信息处理方法,包括:
获取第一预设格式的第一待处理文件;
解析所述第一待处理文件,将所述第一待处理文件转化为第二预设格式的第二待处理文件,所述第二待处理文件中包含多个训练样本信息,所述训练样本信息由基于特征维度统计生成的特征维度数目和对应的特征信息组成;
读取所述第二待处理文件中每一训练样本信息的特征维度数目以及对应的特征信息,并将每一训练样本信息存储至第一预设内存装置;
将所述第一预设内存装置中的每一训练样本信息读取至图形处理器中进行处理。
一种信息处理装置,包括:
获取单元,用于获取第一预设格式的第一待处理文件;
解析单元,用于解析所述第一待处理文件,将所述第一待处理文件转化为第二预设格式的第二待处理文件,所述第二待处理文件中包含多个训练样本信息,所述训练样本信息由基于特征维度统计生成的特征维度数目和对应的特征信息组成;
存储单元,用于读取所述第二待处理文件中每一训练样本信息的特征维度数目以及对应的特征信息,并将每一训练样本信息存储至第一预设内存装置;
读取单元,用于将所述第一预设内存装置中的每一训练样本信息读取至图形处理器中进行处理。
在一些实施例中,所述存储单元,用于:
读取所述第二待处理文件中每一训练样本信息的特征维度数目;
根据所述特征维度数目确定读取数据量;
基于所述读取数据量读取所述特征维度数目对应的特征信息,并将每一训练样本信息存储至第一预设内存装置。在一些实施例中,所述读取单元,包括:
随机子单元,用于将所述第一预设内存装置中的每一训练样本信息进行随机化处理;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210028643.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种栅格地图视觉指引线生成方法及装置
- 下一篇:一种信息检测方法、装置及设备