[发明专利]数据处理方法及数据处理装置有效
申请号: | 201710199170.0 | 申请日: | 2017-03-29 |
公开(公告)号: | CN107038224B | 公开(公告)日: | 2022-09-30 |
发明(设计)人: | 刘德志;帅攀;周上;刘飚;杨帆;林莹莹;谷晓峰;费强;陈宁国;邓建威 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/2457 | 分类号: | G06F16/2457;G06F16/2458;G06Q30/02 |
代理公司: | 深圳翼盛智成知识产权事务所(普通合伙) 44300 | 代理人: | 黄威 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 | ||
本发明公开了一种数据处理方法及数据处理装置,包括:接收数据包提取指令,所述数据包提取指令中包括至少两组用户标签、和所述用户标签之间的关系操作;根据每一用户标签从数据列表中筛选出对应的标签文件,所述标签文件包括所述用户标签对应的用户号码;将所述标签文件中的用户号码分成多个号码段;根据所述关系操作,对同一号码段中的用户号码进行操作,以生成命中数据包。本发明通过对标签文件建立索引文件,并对索引文件进行关系操作,进而降低操作的时间复杂度,并支持多线程或多进程共同执行,更进一步加快处理速度。
技术领域
本发明属于数据处理领域,尤其涉及一种数据处理方法及数据处理装置。
背景技术
随着大数据时代的来临,各类型的数据呈井喷式增长,这为数据分析行业带来了前所未有的机遇和挑战。其中以广告行业为例,海量号码提取,即如何利用海量数据来选择目标用户群,并将广告信息推送至目标用户群对应的联系号码(也称为),已成为热门研究方向之一。
关于海量号码提取,目前主要的解决方案是采用分布式框架来实现。常见的比如Hadoop(大数据框架)和Spark(大数据框架),通过结构化查询语言(Structured QueryLanguage,SQL)或映射规约(Map Reduce,MR)来实现。
然而,由于Hadoop和Spark自身的设计问题,在处理海量数据时,具有执行速度较慢的弊端。
发明内容
本发明的目的在于提供一种数据处理方法及数据处理装置,旨在提高海量号码提取时的处理速度。
为解决上述技术问题,本发明实施例提供以下技术方案:
一种数据处理方法,包括:
接收数据包提取指令,所述数据包提取指令中包括至少两组用户标签、和所述用户标签之间的关系操作;
根据每一用户标签从数据列表中筛选出对应的标签文件,所述标签文件包括所述用户标签对应的用户号码;
将所述标签文件中的用户号码分成多个号码段;以及
根据所述关系操作,对同一号码段中的用户号码进行操作,以生成命中数据包。
为解决上述技术问题,本发明实施例还提供以下技术方案:
一种数据处理装置,包括:
接收模块,用于接收数据包提取指令,所述数据包提取指令中包括至少两组用户标签、和所述用户标签之间的关系操作;
标签模块,用于根据每一用户标签从数据列表中筛选出对应的标签文件,所述标签文件包括所述用户标签对应的用户号码;
索引模块,用于将所述标签文件中的用户号码分成多个号码段;以及
关系模块,用于根据所述关系操作,对同一号码段中的用户号码进行操作,以生成命中数据包。
本发明实施例,首先接收数据包提取指令,其中包括至少两组用户标签、和用户标签之间的关系操作;然后根据每一用户标签生成对应的标签文件,其中包括用户标签对应的用户号码;再将所述标签文件中的用户号码分成多个号码段;最后对同一号码段中的用户号码执行所述关系操作,以生成命中数据包。即,本发明通过对标签文件建立索引文件,并对索引文件进行关系操作,进而降低操作的时间复杂度,并支持多线程或多进程共同执行,更进一步加快处理速度。
附图说明
下面结合附图,通过对本发明的具体实施方式详细描述,将使本发明的技术方案及其它有益效果显而易见。
图1是本发明实施例提供的数据处理方法及处理装置的工作原理示意图;
图2是本发明实施例提供的数据处理方法的流程示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710199170.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于辅助装配和拆卸汽车前端模块的工具
- 下一篇:一种“门”字型电杆起吊架