[发明专利]一种基于并行关联规则挖掘的发票虚开识别方法有效
申请号: | 201810436908.5 | 申请日: | 2018-05-09 |
公开(公告)号: | CN108596750B | 公开(公告)日: | 2019-08-23 |
发明(设计)人: | 郑庆华;杨征宽;阮建飞;董博;于洪潮 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06Q40/00 | 分类号: | G06Q40/00;G06Q50/26;G06F16/2458 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 王艾华 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于并行关联规则挖掘的发票虚开识别方法,包括以下步骤:提取所需会计期间内的发票记录,构建事务集;对不同行业明细的事务子集分别挖掘频繁项集,生成关联规则;基于不同行业明细的关联规则,计算企业的自洽性,并通过自洽性计算结果识别存在发票虚开行为的企业。本发明基于Spark并行框架进行程序设计,利用并行Apriori算法对企业上下游企业的所属行业进行关联规则挖掘,分析异常的行业组合,能够细粒度地针对不同行业明细企业的经营特点,具有并行高效的特点,能够自动、快速、有效地识别发票虚开行为。 | ||
搜索关键词: | 关联规则挖掘 并行 发票 关联规则 并行框架 程序设计 发票记录 频繁项集 所属行业 细粒度 有效地 构建 子集 事务 会计 挖掘 分析 经营 | ||
【主权项】:
1.一种基于并行关联规则挖掘的发票虚开识别方法,其特征在于,包括以下步骤:步骤1:设计事务集构建模块,查询数据库中的企业信息表和发票记录表,得到所需会计期间内的有效发票记录,以及发票记录中购销方纳税人识别号对应的行业明细代码,汇总发票记录,得到各企业的上下游企业的行业明细代码集合,构建以上下游企业的行业明细代码集合为项集的事务,以企业的纳税人识别号作为事务唯一标识,以企业的行业明细代码作为事务所属行业,然后将所有事务汇总得到事务集,其中,所述企业信息表为存储纳税人识别号和行业明细等企业信息的数据表;所述发票记录表为存储购销方纳税人识别号、金额、税额、开票日期、作废标志等发票信息的数据表;所述会计期间为在时间上把连续不断的企业经营活动及其结果用起止日期加以划分形成的时间区间;事务集构建模块,包括以下步骤:Step1:通过SQL语句查询数据库中的企业信息表和发票记录表,以开票日期属于所需会计期间且作废标志为否为条件,得到开票日期属于所需会计期间内的有效发票记录,从中提取以下四个字段:{GF_NSRSBH,GF_HYMX,XF_NSRSBH,XF_HYMX}其中,GF_NSRSBH表示购方纳税人识别号,GF_HYMX表示购方行业明细代码,XF_NSRSBH表示销方纳税人识别号,XF_HYMX表示销方行业明细代码;然后,将提取结果读入Spark集群的内存中,并将其划分为P个分区,其中P表示Spark集群中所有核心数目的总和;Step2:将Step1得到的发票记录按照购方纳税人识别号和购方行业明细代码进行分组,得到各企业上游企业的行业明细代码集合,格式为:{(GF_NSRSBH,GF_HYMX),Sup}其中,Sup表示上游企业的行业明细代码集合;Step3:将Step1得到的发票记录按照销方纳税人识别号和销方行业明细代码进行分组,得到各企业下游企业的行业明细代码集合,格式为:{(XF_NSRSBH,XF_HYMX),Sdown}其中,Sdown表示下游企业的行业明细代码集合;Step4:将Step2和Spep3得到的结果进行合并,然后按照纳税人识别号和行业明细代码进行分组,得到各企业上游企业的行业明细代码集合和下游企业的行业明细代码集合,格式为:{(NSRSBH,HYMX),Sup,Sdown}其中,NSRSBH表示纳税人识别号,HYMX表示行业明细代码;Step5:将各企业上游企业的行业明细代码和下游企业的行业明细代码进行合并,为区分上下游信息,在Sup中的上游行业明细代码前添加字母U,在Sdown中的下游行业明细代码前添加字母D,然后将Sup与Sdown合并为S,并将S按照字典序排序,合并后将每一个企业的数据表示为一条事务,将S作为事务的项集,将企业的纳税人识别号NSRSBH作为事务唯一标识,将企业的行业明细代码HYMX作为事务所属行业,然后将所有事务汇总得到事务集,记为Trans,每条事务的格式为:{(NSRSBH,HYMX),S}Step6:将事务集Trans保存至HDFS中;步骤2:设计频繁项集挖掘模块,查询数据库中的行业明细代码表,得到行业明细代码集合,遍历行业明细代码集合,对每种行业明细代码,从步骤1得到的事务集中提取所属行业为该行业明细代码的事务子集,然后基于并行Apriori算法挖掘该行业明细代码的频繁项集,其中,所述行业明细代码表为存储行业明细代码、行业明细名称等行业信息的数据表;所述频繁项集为支持度大于等于最小支持度minSup的项集,其中支持度为项集在事务集中出现的频率;步骤3:设计关联规则生成模块,遍历步骤2得到的行业明细代码集合,对每种行业明细代码,读取步骤2中得到的该行业明细代码对应的频繁项集,并行处理各频繁项集生成该行业明细代码的关联规则,其中,所述关联规则为置信度大于等于最小置信度minConf的强关联规则,其中置信度为关联规则前件出现时后件出现的条件概率;步骤4:设计自洽性计算模块,遍历步骤2得到的行业明细代码集合,对每种行业明细代码,从步骤1得到的事务集中提取所属行业为该行业明细代码的事务子集,读取步骤3中得到的该行业明细代码对应的关联规则,并行计算事务子集中每条事务对应企业的自洽性,其中,所述自洽性为遍历事务的项集,以当前遍历项作为关联规则后件,以项集中除当前遍历项外的子集作为关联规则前件,生成的关联规则能在该事务行业明细代码对应的关联规则中匹配到的项占项集的比例;步骤5:设计发票虚开识别模块,遍历步骤2得到的行业明细代码集合,对每种行业明细代码,读取步骤4中得到的该行业明细代码计算自洽性后的事务集,对事务集中自洽性低于设定的自洽性阈值minSC的事务进行过滤,并行识别过滤后的事务集中每条事务中存在发票虚开行为的纳税人识别号,汇总得到该行业明细代码的发票虚开纳税人识别号集合,基于纳税人识别号与企业一一对应的关系,则可获得对应的存在发票虚开行为的企业。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810436908.5/,转载请声明来源钻瓜专利网。