[发明专利]标签更新方法、装置、集群及存储介质在审
申请号: | 202010185389.7 | 申请日: | 2020-03-17 |
公开(公告)号: | CN111381854A | 公开(公告)日: | 2020-07-07 |
发明(设计)人: | 李科 | 申请(专利权)人: | 深圳市前海随手数据服务有限公司 |
主分类号: | G06F8/65 | 分类号: | G06F8/65 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆;潘登 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标签 更新 方法 装置 集群 存储 介质 | ||
本发明公开了一种标签更新方法、装置、集群及存储介质。标签更新方法,包括:接收服务器发送的第一打标规则;读取待处理数据和对应的第二标签,所述第二标签为所述待处理数据基于第二打标规则定义的第二标签;根据所述第一打标规则对所述待处理数据进行打标,以获得所述待处理数据基于所述第一打标规则定义的第一标签;合并所述待处理数据对应的所述第一标签和所述第二标签以获得目标标签。解决了标签更新的问题,达到了根据用户定义打标规则进行标签更新,避免了每次标签更新都需要针对标签更新规则改动标签更新程序,降低标签更新的程序开发和维护成本的效果。
技术领域
本发明实施例涉及基于标签更新技术,尤其涉及一种标签更新方法、装置、集群及存储介质。
背景技术
在大数据时代,要迅速从海量的数据中挖掘出数据的价值是一件很有挑战的事情,越来越多的企业会通过离线处理的方式对数据进行处理,通过数据特征以及对数据聚合统计等方式打上各种各样的标签,从而方便算法模型去支撑上层应用实现精准营销等功能。现有的打标签通常通过编写MapReduce程序对数据进行处理以输出结果文件,新标签打标过程需要改动标签计算程序来适应新标签的打标处理,开发维护成本较大。
发明内容
本发明提供一种标签更新方法、装置、集群及存储介质,以实现每次标签更新都需要针对标签更新规则改动标签更新程序,降低标签更新的程序开发和维护成本。
第一方面,本发明实施例提供了一种标签更新方法,包括:
接收服务器发送的第一打标规则;
读取待处理数据和对应的第二标签,所述第二标签为所述待处理数据基于第二打标规则定义的第二标签;
根据所述第一打标规则对所述待处理数据进行打标,以获得所述待处理数据基于所述第一打标规则定义的第一标签;
合并所述待处理数据对应的所述第一标签和所述第二标签以获得目标标签。
可选的,所述合并所述待处理数据对应的所述第一标签和所述第二标签以获得目标标签还包括:
比较待处理数据对应的第一标签和第二标签以获得所述第一标签的第一差异标签和第二标签的第二差异标签,所述第一差异标签与所述第二差异标签完全不同;
将第一差异标签写入第二标签中并删除所述第二标签中的所述第二差异标签以获得目标标签。
可选的,所述接收服务器发送的目标打标规则之前,还包括:
接收所述服务器通过发送的标签计算程序;
根据所述标签计算程序进行配置。
可选的,所述接收所述服务器通过发送的标签计算程序还包括:
接收所述服务器通过Livy Session发送的标签计算程序。
可选的,所述根据所述标签计算程序进行配置包括:
根据所述标签计算程序启用Spark job;
维护所述Spark job的Spark Session;
所述接收服务器发送的第一打标规则还包括:通过所述Spark Session接收所述服务器发送的所述第一打标规则。
可选的,所述获取待处理数据和对应的第二标签还包括:
通过Spark Sql从Hive中读取所述待处理数据和对应的第二标签。
可选的,所述服务器为Livy服务器。
第二方面,本发明实施例还提供了一种标签更新装置,包括:
接收模块,用于接收服务器发送的第一打标规则;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市前海随手数据服务有限公司,未经深圳市前海随手数据服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010185389.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多任务统一管理的方法、设备及介质
- 下一篇:多媒体文件播放方法及电子设备