[发明专利]画像生成系统及其方法、电子设备及存储介质在审
| 申请号: | 202011097970.X | 申请日: | 2020-10-14 |
| 公开(公告)号: | CN112287015A | 公开(公告)日: | 2021-01-29 |
| 发明(设计)人: | 于扬 | 申请(专利权)人: | 北京易观智库网络科技有限公司 |
| 主分类号: | G06F16/26 | 分类号: | G06F16/26;G06F16/22;G06F16/2455;G06F16/25 |
| 代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 苗晓静 |
| 地址: | 100015 北京市朝阳区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 画像 生成 系统 及其 方法 电子设备 存储 介质 | ||
1.一种画像生成系统,其特征在于,包括:多源数据整合抽取层、数据存储层、标签计算层和标签应用层,其中:
所述多源数据整合抽取层用于连接已有多源数据,获取并根据多源数据所属类型将多源数据分别按照指定的数据模型抽取至数据存储层;
所述数据存储层,连接所述多源数据整合抽取层,用于接收并分别按照指定的数据模型存储由所述多数据源整合抽取层传输的多源数据,所述指定的数据模型包括用于存储用户实时产生的行为类数据的行为模型以及用于存储用户相对固定的状态类数据的属性模型;
所述标签计算层,连接所述数据存储层,用于采用drools规则引擎,将标签加工规则进行解析,转换为presto查询组件,利用所述presto查询组件对所述行为模型以及属性模型中的数据进行加工,将得到的用户的多维度标签结果保存至属性表;
所述标签应用层,连接所述标签计算层,用于根据所述属性表,生成提供用户检索和标签检索的用户画像。
2.根据权利要求1所述的画像生成系统,其特征在于,所述已有多源数据包括存储在mysql、oracle、Hdfs、hive、hbase或mongodb存储架构中的数据;
所述根据多源数据所属类型将多源数据分别按照指定的数据模型抽取至数据存储层具体包括:
配置数据源连接,创建工作流;
在相应的工作流中选择指定的数据源进行数据抽取、ETL;
配置工作流,实现数据抽取、ETL、导入标签库的自行调度。
3.根据权利要求1所述的画像生成系统,其特征在于,所述实时产生的行为类数据包括网站、app、小程序产生的互动数据或后台业务系统产生的日志,所述互动数据包括交互、交易、浏览、登录、退出数据,所述日志包括订单、售后、投诉;所述相对固定的状态类数据包括性别、年龄、账户信息。
4.根据权利要求1所述的画像生成系统,其特征在于,所述数据存储层包含kudu和hive,所述行为模型存放于kudu中,所述行为模型包含的关键因素包括:用户id、发生时间、行为名称、行为属性;以用户id、发生时间、行为名称进行索引,一条记录表示一个用户在一发生时间产生一个行为;所述属性模型存放于hive中,以用户id为主键创建索引,每一列存储一个属性,当表宽度超过300个时创建新表,通过视图进行关联查询。
5.根据权利要求1所述的画像生成系统,其特征在于,所述采用drools规则引擎,将标签加工规则进行解析具体包括读取具体的场景及规则,按照规则条件进行逻辑判断,当满足规则条件时,拉起相应的规则响应,规则响应为因子或事件,其中,所述drools规则引擎包含的数据模块包括场景、规则、规则条件、因子、规则响应、事件,
所述场景为业务需求的抽象,一个业务需求对应一个场景,一个场景由若干规则组成,用不同的规则组成时序和依赖关系以实现完整的业务需求;
所述规则由规则条件、因子及规则响应组成,由路由至所属场景的事件触发;
所述规则条件由因子构成,为一个布尔表达式,规则条件的执行结果直接决定是否执行规则响应;
所述因子按不同来源,划分为基础因子、时间窗因子和第三方因子,基础因子来源于事件,时间窗因子来源于时间窗模块获取的时间窗数据,第三方因子来源于第三方服务;
所述规则响应为规则执行成功后的动作;
所述事件为系统的基础数据单元,划分为同步事件和异步事件两种类型;同步事件按规则路由后,不调用定时触达模块,顺序执行;异步事件调用定时触达模块,延后执行。
6.根据权利要求1所述的画像生成系统,其特征在于,所述标签应用层包含delta临时数据库,用于存储实时增量产生的数据,支持数据的实时消费,Delta临时数据库周期性进行merge操作,合并到行转列后的用户属性表中。
7.根据权利要求1所述的画像生成系统,其特征在于,所述标签计算层还用于根据相同字段分桶且分桶数量相同的两个表,在通过字段进行join时,两个表相同的字段分到相同id的桶里,独立进行join以及聚合计算,每当一个桶的数据计算完成后,立即把这个桶所占用的内存释放掉。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京易观智库网络科技有限公司,未经北京易观智库网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011097970.X/1.html,转载请声明来源钻瓜专利网。





