[发明专利]一种数字画像提取方法和系统有效
申请号: | 201910164614.6 | 申请日: | 2019-03-05 |
公开(公告)号: | CN110009394B | 公开(公告)日: | 2020-12-25 |
发明(设计)人: | 梁波;史云飞;朱利霞;赵国强 | 申请(专利权)人: | 中国华戎科技集团有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02 |
代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 张力波 |
地址: | 100088 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数字 画像 提取 方法 系统 | ||
本发明涉及一种数字画像提取方法,涉及电子数据处理领域。包括以下步骤:S1:获取至少两个数据源的用户虚拟身份信息,每个所述用户虚拟身份信息均包括关联数据;S2:根据每个所述关联数据得到各个用户虚拟身份信息之间的有向关系;S3:将所述有向关系记录为n元组,所述n元组包括所述有向关系的准确度,n为大于2的整数;S4:根据所述n元组得到包括源类型、源编码、目的类型、目的编码和准确度的五元组;S5:根据所述五元组得到其身份归属的自然人;S6:将所述自然人和对应的所述用户虚拟身份信息组合得到用户综合数字画像。本方案解决了如何生成更全面的数字画像的技术问题,适用于多数据源的数字画像提取。
技术领域
本发明涉及电子数据处理领域,特别涉及一种数字画像提取方法和系统。
背景技术
数字画像是由自然人在网络上的虚拟身份提取得来,其中,虚拟身份包括用户的手机号、邮箱以及用户的消费轨迹等。用于根据每个用户生成独立的广告推荐系统。现有的推荐系统不能综合利用各个社交媒体网站和电子商务网站的虚拟身份,导致对针对用户生成的数字画像不够全面。
发明内容
本发明所要解决的技术问题是如何综合利用各个网站的虚拟身份生成数字画像。
本发明解决上述技术问题的技术方案如下:一种数字画像提取方法,包括以下步骤:
S1:获取至少两个数据源的用户虚拟身份信息,每个所述用户虚拟身份信息均包括关联数据;
S2:根据每个所述关联数据得到各个用户虚拟身份信息之间的有向关系;
S3:将所述有向关系记录为n元组,所述n元组包括所述有向关系的准确度,n为大于2的整数;
S4:根据所述n元组得到包括源类型、源编码、目的类型、目的编码和准确度的五元组;
S5:根据所述五元组得到其身份归属的自然人;
S6:将所述自然人和对应的所述用户虚拟身份信息组合得到用户综合数字画像。
获取至少两个数据源的用户虚拟身份信息相比从单一数据源获取的身份信息更加全面;利用每个用户虚拟身份的关联数据获取它们之间的有向关系并记录为n元组,根据所述n元组得到每个有向关系的准确度,再根据图扩展分析算法结合n原组进行计算,从而得到每个有向关系身份归属的自然人,结合自然人和对应的用户虚拟身份信息组合得到用户综合数字画像。
本发明的有益效果是:通过获取至少两个数据源的用户虚拟身份信息并得到每个用户虚拟身份信息对应的有向关系,计算出每个有向关系的准确度,最终综合每条有向关系和其对应的准确度得到用户综合数字画像,从而解决了如何生成更全面的数字画像的技术问题。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,步骤S3具体为:
S31:根据所述数据源为有向关系分配一个准确度值,范围为(0,1],形成包括数据源和准确度的二元组;
S32:每个所述用户虚拟身份信息均包括源类型、源编码、目的类型和数据源,将每个所述用户虚拟身份信息对应的源类型、源编码、目的类型和目的编码添加到所述二元组形成六元组。
采用上述进一步方案的有益效果是,根据每个有向关系的来源分配准确度值后,能够增加用户综合数字画像的准确性,而将二元组添加扩充为六元组后,能够进一步增加用户综合数字画像的准确性。
进一步,步骤S4具体为:
S41:根据所述n元组计算初始权重W,权重W的计算公式为:
其中m表示所述用户虚拟身份信息出现的次数,t表示所述用户虚拟身份信息每次出现距当前时间的天数,N为时间衰减因子常数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国华戎科技集团有限公司,未经中国华戎科技集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910164614.6/2.html,转载请声明来源钻瓜专利网。