[发明专利]数据处理方法、装置及计算机设备在审
| 申请号: | 202111108679.2 | 申请日: | 2021-09-22 |
| 公开(公告)号: | CN113836411A | 公开(公告)日: | 2021-12-24 |
| 发明(设计)人: | 卢晓威;何其真;钟礼刚 | 申请(专利权)人: | 上海哔哩哔哩科技有限公司 |
| 主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06K9/62 |
| 代理公司: | 北京英特普罗知识产权代理有限公司 11015 | 代理人: | 邓小玲;王勇 |
| 地址: | 200433 上海市*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据处理 方法 装置 计算机 设备 | ||
本申请公开了一种数据处理方法、装置及计算机设备,该方法包括:对第一存储单元中的用户行为数据进行处理,得到对应的第一在线用户行为数据集,其中,所述第一存储单元存储当前时间段用户行为数据;将所述第一在线用户行为数据集与预设的第二存储单元中的第二在线用户行为数据集进行合并,得到第三在线用户行为数据集,所述第二在线用户行为数据集为当前时间段的前一时间段产生的;对所述第三在线用户行为数据集的每一条用户行为数据进行特征提取,得到对应的在线用户特征数据集;基于所述在线用户特征数据集对模型进行训练。本申请还提供一种计算机可读存储介质。本申请能够有效保障在线训练数据的数量和新鲜度,提升了模型在线训练效率。
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据处理方法、装置及计算机设备。
背景技术
随着互联网技术的发展,越来越多的用户选择在网上浏览、挑选或者购买自己需要的商品。各个电商平台在向用户提供丰富多样的商品的同时,也会不同程度地采用各种形式的推荐技术向用户进行商品推荐。其中,为了达到向用户及时推荐各种有用信息又尽量避免推荐无用信息的目的,通常会采集众多用户点击或浏览商品广告的用户行为数据,从而训练出能够预估出不同的用户对于推荐数据的点击概率的点击率预估模型。
一般而言,由于用户的喜好会随时间而变化,因此,根据历史用户行为数据,即离线用户行为数据进行训练得到的点击率预估模型,能够预估出的用户对于推荐数据的点击率,往往准确度并不精确。然而,现有技术中,对于历史用户行为数据与实时用户行为数据的存储方式不一样,因此,并不能有效利用历史用户行为数据和实时用户行为数据同时进行模型训练;也就是说,能用于在线训练模型的训练数据单一,导致训练出的在线模型精确度不高。
发明内容
本申请提出一种数据处理方法、装置及计算机设备,能够解决上述的训练数据单一,训练出的在线模型精确度不高的问题。
首先,为实现上述目的,本申请提供一种数据处理方法,所述方法包括:
对第一存储单元中的用户行为数据进行处理,得到对应的第一在线用户行为数据集,其中,所述第一存储单元存储当前时间段用户行为数据;将所述第一在线用户行为数据集与预设的第二存储单元中的第二在线用户行为数据集进行合并,得到第三在线用户行为数据集,其中,所述第二在线用户行为数据集为当前时间段的前一时间段产生的在线用户行为数据集;对所述第三在线用户行为数据集的每一条用户行为数据进行特征提取,得到对应的在线用户特征数据集;基于所述在线用户特征数据集对模型进行训练。
在一个例子中,所述对第一存储单元中的用户行为数据进行处理,得到对应的第一在线用户行为数据集,包括:从所述第一存储单元中拉取每一条所述初始用户行为数据;依次对每一条所述初始用户行为数据标记上消息编码;将已标记消息编码的初始用户行为数据进行有效字段提取,得到对应的用户行为数据,记录到第一在线用户行为数据集。
在一个例子中,所述有效字段包括用户ID,用户身份信息,行为数据产生时间和推荐数据中的至少一项。
在一个例子中,所述对第一存储单元中的用户行为数据进行处理,还包括:将所述第一存储单元中的相同用户端产生的初始用户行为数据分配到Flink计算引擎中的同一个计算节点执行数据处理。
在一个例子中,将所述第一在线用户行为数据集与预设的第二存储单元中的第二在线用户行为数据集进行合并,得到第三在线用户行为数据集,包括:将第一在线用户行为数据集和第二在线用户行为数据集的所有用户行为数据进行去重操作,并根据产生时间进行先后排序;对于产生时间小于预设时间阈值的过期用户行为数据进行清除,得到所述第三在线用户行为数据;将所述第三在线用户行为数据替换存储到所述第二存储单元。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海哔哩哔哩科技有限公司,未经上海哔哩哔哩科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111108679.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种地面标线修补装置
- 下一篇:基于虚拟礼物的直播互动方法、装置及计算机设备





