[发明专利]基于置信度的凭证匹配方法及系统有效
申请号: | 201811636706.1 | 申请日: | 2018-12-29 |
公开(公告)号: | CN109727138B | 公开(公告)日: | 2021-03-30 |
发明(设计)人: | 赵成军 | 申请(专利权)人: | 航天信息股份有限公司 |
主分类号: | G06F16/00 | 分类号: | G06F16/00;G06Q40/06 |
代理公司: | 北京思创大成知识产权代理有限公司 11614 | 代理人: | 董晓盈 |
地址: | 100195 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 置信 凭证 匹配 方法 系统 | ||
1.一种基于置信度的凭证匹配方法,其特征在于,包括:
步骤1:获取待匹配合同的合同要素;
步骤2:根据所述合同要素将所述待匹配合同与候选发票进行匹配,基于匹配结果构建基础置信集合,并分别确定所述基础置信集合中的每张候选发票If的置信度C1;
步骤3:根据所述置信度C1对所述基础置信集合中的所有候选发票If进行排序;
所述合同要素至少包括甲方信息、乙方信息、合同金额、合同签订日期T1、合同有效期限T;
通过发票库存储所述候选发票的发票信息,所述发票信息至少包括开票日期、发票金额、购方信息和销方信息;
所述步骤2包括:
步骤201:在发票库中获取开票日期等于或晚于合同签订日期T1的候选发票Ic;
步骤202:根据所述待匹配合同的甲方信息、乙方信息和候选发票Ic的购方信息、销方信息将所述待匹配合同与候选发票Ic进行模糊匹配,获得模糊匹配的候选发票Ic’,并计算每张候选发票Ic’的置信度C1;
步骤203:针对每张候选发票Ic’,判断所述待匹配合同的合同金额是否大于或等于所述候选发票Ic’的发票金额,若是,则将所述候选发票Ic’加入所述基础置信集合,所述基础置信集合中的候选发票记为If;
所述步骤202包括:
步骤2021:分别对所述待匹配合同的甲方名称、乙方名称和所述候选发票Ic的购方名称、销方名称进行分词;
步骤2022:分别设置行政区域字段、公司字号字段、组织形式字段的权重值,并将每个分词结果划分为行政区域字段、公司字号字段、组织形式字段;
步骤2023:分别判断所述候选发票Ic的购方名称的每一字段是否是所述待匹配合同的甲方名称的对应字段的全部或一部分,且字符顺序相同;如果是,则进一步分别判断所述候选发票Ic的销方名称的每一字段是否是所述待匹配合同的乙方名称的对应字段的全部或一部分,且字符顺序相同;如果是,则判断所述候选发票Ic为模糊匹配的候选发票Ic’;
步骤2024:根据公式(1)计算所述待匹配合同与所述候选发票Ic’的甲方相似度C11和乙方相似度C12:
C11=a1/a1’*W1+b1/b1’*W2+c1/c1’*W3;
C12=a2/a2’*W1+b2/b2’*W2+c2/c2’*W3; (1)
其中,a1、b1、c1分别表示待匹配合同的甲方名称行政区域字段、公司字号字段、组织形式字段的字符数,a1’、b1’、c1’分别表示候选发票Ic’的购方名称行政区域字段、公司字号字段、组织形式字段的字符数;a2、b2、c2分别表示待匹配合同的乙方名称行政区域字段、公司字号字段、组织形式字段的字符数,a2’、b2’、c2’分别表示候选发票Ic’的销方名称行政区域字段、公司字号字段、组织形式字段的字符数;W1、W2、W3分别表示行政区域字段、公司字号字段、组织形式字段的权重值;
以及根据以下步骤确定候选发票Ic’的置信度C1:
如果C11和C12均大于或等于第一阈值,则C1=K1*C0;
如果C11和C12之一大于或等于所述第一阈值,且C11和C12中的另一个小于所第一阈值且大于或等于第二阈值,则C1=K2*C0;
如果C11和C12均小于所第一阈值且大于或等于所第二阈值,则C1=K3*C0;
如果C11和C12之一小于所第一阈值且大于或等于所第二阈值,且C11和C12中的另一个小于所第二阈值,则C1=K4*C0;
如果C11和C12均小于所第二阈值,则C1=K5*C0;
其中,K1至K5均表示调整系数,且K1K2K3K4K5,C0表示预设的初始阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天信息股份有限公司,未经航天信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811636706.1/1.html,转载请声明来源钻瓜专利网。