[发明专利]一种基于行业属性和经营属性构建企业画像的方法及系统在审
申请号: | 202010574259.2 | 申请日: | 2020-06-22 |
公开(公告)号: | CN111930815A | 公开(公告)日: | 2020-11-13 |
发明(设计)人: | 杨海峰;任钦正;顾津;潘竞旭;张学军;鲁龙;宋颖 | 申请(专利权)人: | 航天信息股份有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/28;G06F16/215;G06F16/9535;G06Q30/04;G06Q40/00 |
代理公司: | 北京工信联合知识产权代理有限公司 11266 | 代理人: | 姜丽辉 |
地址: | 100195 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 行业 属性 经营 构建 企业 画像 方法 系统 | ||
本发明涉及一种基于行业属性和经营属性构建企业画像的方法及系统,使用SQOPP从Oracle数据库中导出数据,通过ETL过程清洗数据存入HIVE数据仓库,基于Spark分布式处理框架处理数据,能够满足海量数据中迅速定位待构建企业画像企业及其所属行业的信息,具有可扩展性强和效率高等特点,在营改增以后发票量日益增长,现阶段需要对大规模数据进行统计分析的背景下有明显的优势;仅使用企业销项发票数据,且针对不同行业可以设定不同的参数,生成特定行业的企业画像构建模型,能够提高企业画像结果的针对性和准确性;可以为税务人员提供企业画像构建结果供其参考,减轻了税务人员的工作负担,提高了税务人员的工作效率,对推动互联网和税务执法发展进程具有重要意义。
技术领域
本发明涉及数据处理技术领域,并且更具体地,涉及一种基于行业属性和经营属性构建企业画像的方法及系统。
背景技术
企业画像可定义为通过收集和分析一个或多个来源的数据,对同一企业的所有相关信息进行提炼、整理与汇总,得到刻画、描述企业个体属性、行业属性和经营属性等多个维度的“画像”,即标签。
现阶段基于企业的业务或应用中,以企业画像的相关企业信息为基础来开展工作,可以大大提高业务工作的效率和准确率。随着互联网信息量的暴涨及社会信息化程度的提高,各企业本身相关的信息、数据也随之增加,这也导致可供企业画像这一技术方法来分析的数据也越来越丰富。同时,企业画像的应用场景也更加丰富,分析的成果也更具说服力。但是,目前缺少企业画像在具体行业中的具体落地实现方案。
发明内容
本发明提出一种基于行业属性和经营属性构建企业画像的及系统,以解决如何生成企业的企业画像的问题。
为了解决上述问题,根据本发明的一个方面,提供了一种基于行业属性和经营属性构建企业画像的方法,所述方法包括:
获取预设时间段内的与纳税人购销相关的发票数据,并对所述与纳税人购销相关的发票数据进行预处理,以获取销项发票处理数据;
确定待画像企业所属行业的行业属性代码;
根据所述行业属性代码,从获取的销项发票处理数据中选取与所述行业属性代码对应的销项发票处理数据,以获取行业销项发票汇总数据;
根据所述行业销项发票汇总数据和预设的每个经营属性的经营标签标准,确定每个经营标签对应的销项开票金额区间;
根据所述待画像企业的销项发票数据确定所述待画像企业的销项开票金额,将所述待画像企业的销项开票金额与所述每个经营标签对应的销项开票金额区间进行匹配,以确定匹配的经营标签,并根据所述匹配的经营标签和行业属性代码确定所述待画像企业的企业画像。
优选地,其中所述获取预设时间段内的与纳税人购销相关的发票数据,并对所述与纳税人购销相关的发票数据进行预处理,以获取销项发票处理数据,包括:
利用SQOOP工具从原始的电子底账Oracle数据库中抽取营改增以后的预设时间段内的与纳税人购销相关的发票数据,并存储至HIVE发票信息表中;
利用Spark分布式处理框架对所述HIVE发票信息表中的与纳税人购销相关的发票数据进行ETL清洗、转换和加载处理,以获取销项发票处理数据。
优选地,其中所述根据所述行业销项发票汇总数据和预设的每个经营属性的经营标签标准确定每个经营标签对应的销项开票金额区间,包括:
根据所述行业销项发票汇总数据计算行业销项开票总额,并根据所述行业销项开票总额和预设的经营属性为“行业销售地位”的经营标签标准,计算经营属性为“行业销售地位”的每个经营标签对应的销项开票金额区间;
根据所述开票总金额和预设的经营属性为“销售业绩”的经营标签标准,计算经营属性为“销售业绩”的每个经营标签对应的销项开票金额区间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天信息股份有限公司,未经航天信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010574259.2/2.html,转载请声明来源钻瓜专利网。