[发明专利]基于商圈划分的企业线下与线上多源数据整合方法及装置有效
申请号: | 202110287069.7 | 申请日: | 2021-03-17 |
公开(公告)号: | CN112783963B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 谭继军;李阳;谢蓬莲 | 申请(专利权)人: | 上海数喆数据科技有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/958;G06F40/284;G06Q30/00 |
代理公司: | 成都嘉企源知识产权代理有限公司 51246 | 代理人: | 何朝友 |
地址: | 200000 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 商圈 划分 企业 线上 数据 整合 方法 装置 | ||
本发明公开了一种基于商圈划分的企业线下与线上多源数据整合方法,包括下述几个阶段:第一阶段:对线上的百万级样本数据进行商圈匹配,主要完成将大量的抓取样本放入特定商圈的工作,以便降低下一步匹配样本所在商场的计算量,提高匹配效率和精度;第二阶段:对各个1级商圈进行操作,将每个样本在某些商圈的可能性做出预测,并对可能的1.5级商圈进行排序匹配;第三阶段:分别就地址、商户名和门牌号综合计算相似性得分匹配。本发明将线上的企业数据与线下的经营实体对应,拓宽了企业信息的维度,通过程序化的方法,减轻了人工匹配的工作量;另外,本发明还提供一种基于商圈划分的企业线下与线上多源数据整合装置,便于实现多源数据的整合。
技术领域
本发明涉及商圈数据整合技术领域,具体涉及一种基于商圈划分的企业线下与线上多源数据整合方法;另外,本发明还涉及基于商圈划分的企业线下与线上多源数据整合装置。
背景技术
小微企业存在注册名称和实际经营的招牌名称不一致、注册地址和实际经营地址的不一致等情况,导致一个企业尤其是小微企业的线下数据和工商注册数据难以匹配,在仅了解企业线下信息的基础上,很难获取企业更多的线上数据。企业线下数据与线上数据难以匹配的原因主要有以下几点:
1.数据的异构性和不同源性,企业线上数据和线下数据的生产者不同,数据结构差异较大;同时,同类数据的质量也存在较大差异,传统的字符匹配算法难以发挥作用。
2.数据量大和多层次性,基于商圈划分的企业数据具有多层次性,为匹配带来较大难度。
发明内容
本发明的目的在于提供基于商圈划分的企业线下与线上多源数据整合方法,本发明将线上的企业数据与线下的经营实体对应,拓宽了企业信息的维度,通过程序化的方法,减轻了人工匹配的工作量,提高了工作效率;
另外,本发明还提供一种基于商圈划分的企业线下与线上多源数据整合装置,便于实现多源数据的整合。
为解决上述技术问题,本发明所采用的技术方案是:
一种基于商圈划分的企业线下与线上多源数据整合方法,其特征在于,包括下述几个阶段:
第一阶段:对线上的百万级样本数据进行商圈匹配,主要完成将大量的抓取样本放入特定商圈的工作,以便降低下一步匹配样本所在商场的计算量,提高匹配效率和精度;
第二阶段:对各个1级商圈进行操作,将每个样本在某些商圈的可能性做出预测,并对可能的1.5级商圈进行排序匹配;
第三阶段:分别就地址、商户名和门牌号综合计算相似性得分匹配;
其中,第一阶段的具体过程如下:
采用地址分词的方法,先根据特定的几个商圈的地址信息特征创建词典,根据词典将地址信息进行切词处理,从而将地址字符串转换为分词向量;在此,我使用Jaccard算法,计算绘图样本的词向量和抓取样本的词向量的相似系数;
Jaccard系数,度量方式如下:
通过阈值的设定,将分词结果的相似系数大于0.4(经过人工多次校验,Jaccard相似系数0.4,匹配的精度会有一个断崖式地下跌。因此选择0.4作为进入下一轮匹配的阈值)的样本纳入下一轮匹配工作的样本池。
进一步优化,第二阶段的具体过程如下,
在第二阶段的匹配中,首先需要创建以2级商圈为基础的目标变量y,定义其为1.5级商圈,由此,将第二阶段的匹配问题转化为一个典型的有监督分类问题;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海数喆数据科技有限公司,未经上海数喆数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110287069.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种带储存仓的按压式瓶盖
- 下一篇:一种双段水过滤滤芯