[发明专利]特征提取方法、装置、计算机设备及存储介质有效
申请号: | 202110187328.9 | 申请日: | 2021-02-18 |
公开(公告)号: | CN112561084B | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 洪立涛;陶淳;苏函晶;韩宝昌;黄薇屹 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 祝亚男 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征 提取 方法 装置 计算机 设备 存储 介质 | ||
本申请实施例公开了一种特征提取方法、装置、计算机设备及存储介质,属于计算机技术领域。该方法包括:获取数据配置文件,获取特征提取框架,基于数据配置文件调用特征提取框架,执行如下步骤:根据至少两个第一数据表之间的关联关系类型和匹配关系,确定每个关联关系类型匹配的算子,调用算子,对至少两个第一数据表进行特征提取,得到多个对象的特征信息。本申请实施例提供的方法,提供了一种通用的特征提取框架,通过该特征提取框架,自动提取数据配置文件中包含的多个对象的特征信息,无需开发人员再针对网络模型开发的特征提取代码,减少了开发特征提取代码耗费的时间,从而提高了特征提取效率,实现了对数据配置文件的数据计算。
技术领域
本申请实施例涉及计算机技术领域,特别涉及一种特征提取方法、装置、计算机设备及存储介质。
背景技术
随着计算机技术的发展,网络模型的应用越来越广泛。通常需要利用样本数据的特征信息对网络模型进行训练,而特征信息的准确与否对网络模型的训练效果有很大的影响。
通常在训练网络模型之前,需要开发人员编写特征提取代码,运行该特征提取代码来获取样本数据的特征信息,之后才能利用特征信息对网络模型进行训练。
但是,网络模型的不同或者样本数据的不同,都会导致进行特征提取时采用的算子不同,这就要求开发人员必须根据实际需求编码不同的特征提取代码,会耗费较多时间,影响特征提取效率。
发明内容
本申请实施例提供了一种特征提取方法、装置、计算机设备及存储介质,能够提高特征提取效率。所述技术方案包括如下内容。
一方面,提供了一种特征提取方法,所述方法包括:
获取数据配置文件,所述数据配置文件中包括多个数据表以及所述多个数据表之间的关联关系类型,所述多个数据表包括至少两个第一数据表,每个第一数据表中包括多个对象对应的对象数据;
获取特征提取框架,所述特征提取框架中包括用于进行特征提取的多个算子以及关联关系类型与算子之间的匹配关系;
基于所述数据配置文件调用所述特征提取框架,执行如下步骤:
根据所述至少两个第一数据表之间的关联关系类型和所述匹配关系,确定每个关联关系类型匹配的算子;
调用所述算子,对所述至少两个第一数据表进行特征提取,得到所述多个对象的特征信息。
在一种可能实现方式中,所述响应于所述多个对象数据中的目标对象数据对应的数目所属的数量级大于其他对象数据对应的数目所属的数量级,对所述目标对象数据及所述目标对象数据对应存储的其他维度的对象数据进行分片处理,得到多个分片数据集合,包括:
响应于所述目标对象数据对应的数目所属的数量级大于其他对象数据对应的数目所属的数量级,为每个目标对象数据分配一个随机值;
将所述每个目标对象数据与对应的随机值进行拼接,得到多个参考对象数据;
按照所述多个参考对象数据中相同的参考对象数据,分别将相同的参考对象数据以及对应存储的其他维度的对象数据构成一个分片数据集合。
在另一种可能实现方式中,所述调用所述目标算子,对所述第三数据表中所述任一对象在所述其他维度上聚合后的对象数据进行处理,得到所述更新对象数据,包括:
调用所述目标算子,并行对聚合后的多个分片数据集合进行处理,得到所述更新对象数据。
在另一种可能实现方式中,所述调用所述算子,对所述至少两个第一数据表进行特征提取,得到所述多个对象的特征信息之后,所述方法还包括:
根据所述多个对象的特征信息,对网络模型进行训练。
另一方面,提供了一种特征提取装置,所述装置包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110187328.9/2.html,转载请声明来源钻瓜专利网。