[发明专利]一种基于混合数据源的标签数据筛选方法及装置在审
| 申请号: | 201410317595.3 | 申请日: | 2014-07-04 |
| 公开(公告)号: | CN104111994A | 公开(公告)日: | 2014-10-22 |
| 发明(设计)人: | 白岩石 | 申请(专利权)人: | 北京思特奇信息技术股份有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 杨立 |
| 地址: | 100086 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 混合 数据源 标签 数据 筛选 方法 装置 | ||
技术领域
本发明涉及一种基于混合数据源的标签数据筛选方法及装置。
背景技术
目前标签应用使用采用单一画像表结构,以“大宽表”的方式进行用户分群、标记、提取用户数据,从分类精度与属性维度支持上都存在限制与瓶颈。标签结果以实体表形式存在,存储方式上分为(1)多标签标记存在于一张物理表中;(2)一个标签标记一张物理表两种方式。第一种方式对标签的个数有限制,支持度有较大局限性,第二种方式在存储上占用较大空间。
目前标签应用采用的“大宽表”方式存储数据源,标签结果多采用单标签分物理模型存储和多标签单物理模型存储方式,均存在问题。
(1).“大宽表”数据源对于数据源的全面性有较大制约,特别是在增值业务的分析支持与营销数据支持上,成为致命硬伤。在当下精细化营销需求日益增加,对分群结果的准确性要求也越来越高,全面的数据源支持显的更为重要,“大宽表”字段个数的限制(字段越多,效率越低),新增和更新字段更是“伤一发,动全身”,不仅制约了数据源的全面性,频繁修改代码所带来的风险更是非常严重。
(2).多标签单模型存储在实现上较为简单,但实际使用中存在对标签条数的限制,当修改一个标签时,需要更新整体标签表,导致全标签库无法使用等问题。
(3).单标签分表存储模型可解决标签库更新时不影响标签库使用的问题,但在复合标签使用方面存在瓶颈,同时大量不必要的存储占用,使得其在优势上大打折扣。
发明内容
本发明所要解决的技术问题是提供一种采用虚拟化混合数据源、减少冗余字段的使用和刷新、减少存储冗余的基于混合数据源的标签数据筛选方法及装置。
本发明解决上述技术问题的技术方案如下:一种基于混合数据源的标签数据筛选方法,包括以下步骤:
步骤1:根据各类用户的所有属性数据信息分别建立多个带有不同名称的标签表,每个标签表分别存储于各类用户的所有属性数据信息所在的物理表上,根据每个标签表的名称建立第一配置表;
步骤2:根据每个标签表中的各个属性数据信息和第一配置表中与各个属性数据信息对应的标签表的名称之间的关联关系,建立第二配置表;
步骤3:获取用户输入的标签配置信息,根据标签配置信息在第二配置表中选择满足标签配置信息的若干个标签表的名称,根据所述若干个标签表的名称与对应的标签表之间的关联关系建立混合数据源标签表;
步骤4:创建用于设定所有属性数据信息的阈值的阈值定义文件;
步骤5:根据阈值定义文件,通过执行混合数据源标签表获取各个标签表中的、在设定阈值范围内的多个属性数据信息,生成数据筛选结果,将数据筛选结果进行输出并存储。
本发明的有益效果是:本发明大大提高系统(应用)的生命周期,减少投入成本,提高系统效率与资源利用,符合中移动信息化建设要求;降低了系统(应用)升级上线的代码级安全风险,创新采用软件热机上线模式完成分析模型的更替,符合中移动安全风险管控要求;整体方案采用混合数据源,配置管理方式,满足业务扩展的无限延展性;整体方案创新采用软件热机上线模式,提高需求上线响应速度,并具备高扩展性,符合相关要求。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述属性数据信息包括用户基本属性数据信息和根据用户基本属性数据信息衍生出的用户衍生属性数据信息。
进一步,所述步骤3中的标签配置信息具体为,包含所有待筛选的属性数据信息。
进一步,一种基于混合数据源的标签数据筛选装置,包括第一建立模块,第二建立模块,混合数据源模块,创建阈值文件模块和筛选模块;
所述第一建立模块,用于根据各类用户的所有属性数据信息分别建立多个带有不同名称的标签表,每个标签表分别存储于各类用户的所有属性数据信息所在的物理表上,根据每个标签表的名称建立第一配置表;
所述第二建立模块,用于根据每个标签表中的各个属性数据信息和第一配置表中与各个属性数据信息对应的标签表的名称之间的关联关系,建立第二配置表;
所述混合数据源模块,用于获取用户输入的标签配置信息,根据标签配置信息在第二配置表中选择满足标签配置信息的若干个标签表的名称,根据所述若干个标签表的名称与对应的标签表之间的关联关系建立混合数据源标签表;
所述创建阈值文件模块,用于创建用于设定所有属性数据信息的阈值的阈值定义文件;
所述筛选模块,用于根据阈值定义文件,通过执行混合数据源标签表获取各个标签表中的、在设定阈值范围内的多个属性数据信息,生成数据筛选结果,将数据筛选结果进行输出并存储。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京思特奇信息技术股份有限公司,未经北京思特奇信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410317595.3/2.html,转载请声明来源钻瓜专利网。





