[发明专利]信息处理方法及系统在审
申请号: | 202010695547.3 | 申请日: | 2020-07-20 |
公开(公告)号: | CN111737264A | 公开(公告)日: | 2020-10-02 |
发明(设计)人: | 郭子聪;王电轻;黄魏楠 | 申请(专利权)人: | 智者四海(北京)技术有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2455 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 何明伦 |
地址: | 100000 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息处理 方法 系统 | ||
本公开提供了一种信息处理方法,用于查询具有数值型标签的元素,所述数值型标签的数值具有至少一个数位,每个数位具有位值,所述方法包括:针对每个数位创建与该数位上的位值大小相关联的多个集合;根据所述多个集合中的每个集合创建位图索引;接收关于所述数值型标签的查询请求;使用所述位图索引执行所述查询请求,产生查询结果。本公开还提供了一种信息处理系统。
技术领域
本公开涉及信息技术领域,特别涉及一种信息处理方法、系统、电子设备及计算机可读介质。
背景技术
目前,随着互联网技术的普及和高速发展,互联网购物、互联网招聘、互联网社交、互联网问答等都离不开人群画像系统,该系统被广泛应用于推荐商品、新闻、服务等业务领域,是互联网公司高度数据精细化运营的重要技术基础。
人群画像系统中,最重要的数据基础就是用户标签,用户标签的准确性,高度影响了人群画像系统最终的可用性,而对于用户的部分信息,例如年龄、行为数据等,在特定情况下,有非常细粒度的查询要求。
人群画像系统分析和存储用户ID、用户标签、标签的值,依靠各种维度的标签信息,能深刻的刻画和抽象出一个用户的全部特征。为了能提取到具有相同标签信息的用户群,以发现同一类用户群的需求,人群画像系统需要具备支持即时查询的能力,这需要在技术成本与使用体验之间做出平衡。
用户标签的值,有一些部分是具有数值特征的,例如用户年龄、收入等。有些虽然不是数值,但可以转化为数值保存,例如性别、婚姻等。所以,对数值型标签进行保存,查询,是最基本的需要,尤其在人群画像系统中,精确的数值型标签的相关保存查询需求更可以说是一种刚性需求。
因此,急需一种信息处理方法,在现有的数据架构下,在尽量少的技术成本下将对数值型标签的查询结果尽快返回给终端,最终达到可以秒级响应终端的查询需求。
发明内容
有鉴于此,本公开实施例的目的在于提供一种信息处理方法及系统,通过特别设计的集合,生成相应的位图索引,使得数据保存占用的空间减少,同时查询速度加快,返回给用户的时间缩小至毫秒级。
根据本公开的第一方面,提供了一种信息处理方法,用于查询具有数值型标签的元素,所述数值型标签的数值具有至少一个数位,每个数位具有位值,所述方法包括:
针对每个数位创建与该数位上的位值大小相关联的多个集合;
根据所述多个集合中的每个集合创建位图索引;
接收关于所述数值型标签的查询请求;
使用所述位图索引执行所述查询请求,产生查询结果。
在一个可能的实施例中,所述创建与该数位上的位值大小相关联的多个集合,具体包括:
使得每个集合中的元素满足如下条件,与该元素相关联的数值在该数位上的位值大于或等于一设定值。
在一个可能的实施例中,在所述多个集合中,关于每个集合的所述设定值依次递增。
在一个可能的实施例中,所述数值型标签是n进制,具有m个数位,其中n为大于或等于2的整数,m为整数,所述针对每个数位创建与该数位上的位值大小相关联的多个集合,具体包括:
筛选出该数位的位值大于或等于0的元素,得到第一集合;
筛选出该数位的位值大于或等于1的元素,得到第二集合;
以此类推,直到筛选出该数位的位值大于或等于n-1的元素,得到第n集合;以及
针对上述数值型标签的每个数位,重复上述步骤,得到m×n个集合。
在一个可能的实施例中,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于智者四海(北京)技术有限公司,未经智者四海(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010695547.3/2.html,转载请声明来源钻瓜专利网。