[发明专利]一种海关进出口商品知识图谱的实体对齐方法在审
| 申请号: | 202211371234.8 | 申请日: | 2022-11-03 |
| 公开(公告)号: | CN115641599A | 公开(公告)日: | 2023-01-24 |
| 发明(设计)人: | 包先雨;李俊杰;蔡屹;黄孙杰;罗子鸣;黄鹏;邓鹤文;马乐铭;邹杰 | 申请(专利权)人: | 深圳市检验检疫科学研究院;深圳大学 |
| 主分类号: | G06V30/41 | 分类号: | G06V30/41;G06V30/19;G06V10/82;G06N3/0464;G06N3/048;G06N3/08;G06F40/279;G06F16/36;G06Q50/26 |
| 代理公司: | 北京中仟知识产权代理事务所(普通合伙) 11825 | 代理人: | 丁瑞 |
| 地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 海关 进出口商品 知识 图谱 实体 对齐 方法 | ||
1.一种海关进出口商品知识图谱的实体对齐方法,其特征在于,包括如下具体步骤:
步骤一、数据处理:
A1:针对报关单数据中商品名称及规格型号字段的内容进行拆分,按‘|’字符对字符串拆分,得到关于每个报关单数据的要素数据;
A2:申报的报关单要素数据数量与对应要素表中的数量是一致的,针对极少数数量不一致的报关单要素数据给予判定为不规范申报数据,予以直接筛除;
A3:采取抽样技术生成候选标记样本集,样本删减后进行人工打标,得到有标记样本集,并将其输入基于改进后的FastText模型中进行训练,接着对大量报关单要素数据进行测试,筛选出高质量的报关单要素数据用于后续的实体对齐;
步骤二:待对齐商品知识图谱子图的选择:
B1:输入高质量报关单要素数据,将其表示为设计好的商品子图,并对相同的商品子图进行去重;
B2:将节点数量和类型一致的商品子图看作一个集合Sp(p=1,2,…,t),对于每一个集合计算商品子图之间的品名相似矩阵Np和品牌相似矩阵Bp,相似度的度量方法为分别计算不同商品子图的品名和品牌的实体名称在n-grams下的Jaccard相似度;
B3:通过观测品名和品牌的相似矩阵和选取合适的阈值ρ1和ρ2,找出相似度较高的作为待对齐的商品子图对;
B4:输出待对齐的子图二元组集合Agp(p=1,2,…,t),其中t为商品子图的类别数;
步骤三:商品知识图谱子图对齐方法:
Step1、生成PCG实体对连接图:选择以实体对为节点而非单个节点,每个PCG的节点都对应两个商品图谱中的实体对,每条边都连接两个节点,反应了两个实体对之间的关联,对于两个商品图谱G=(E,R,A,L,T)和G'=(E',R',A',L',T'),对应PCG为其中ε,分别是节点集合、边类型集合和边集合,每个ε集合中元素都对应两个知识图谱之间的实体对,每个集合中元素都对应一个关系,而是一个节点之间边的集合,定义如下:
a,r,b∈T∧a′,r′,b′∈T
对于生成一个PCG,配对两个知识图谱中所有实体作为节点,利用如上公式生成节点的边;
Step2、实体对属性特征生成:
特征提取方法如下:
首先,给定一个实体对(e,e'),其中e∈G且e'∈G',令A={A1,…,An}和A'={A'1,…,A'n}为G和G'的全体属性集合,Ai(e)表示节点e的第i个属性,A'j(e')表示节点e'的第j个属性,为了度量这两个实体的相似性,构建出相似度矩阵Mm×n,其每一个元素mij表示Ai(e)和A'j(e')的相似性,为了度量相似性,将所有数据类型均统一为字符串类型,属性相似度计算方式如下:
其中,ng(s)和ng(t)是字符串s和t的n-grams表示;
接着,利用卷积神经网络(CNN)将相似度矩阵Mm×n编码为一个特征向量,网络中包含了两个卷积层,对于第l个卷积层,输出如下:
其中,X(l-1)矩阵是第l个卷积层的输入,对于第一层的输入,X(0)=M,利用多种滤波器进行特征提取,是第l个卷积层的第k个滤波器,是卷积算子,是第l个卷积层的第k个滤波器对应的偏移量,在每个卷积层后都添加了最大池化层,实体对的特征向量x就是最后一个最大池化层的输出结果;
Step3、实体对名称特征生成:
商品知识图谱子图中的实体名称均为实体本身的要素申报内容,作为判定是否对齐的关键因素,需要提取出实体对名称特征,将其特征向量拼接至Step2的特征向量,由此共同表达出实体名称和实体属性的特征;
若实体对中两者的实体名的语言不同,需要利用翻译工具将其统一翻译为中文,实体名称的特征向量由四个值组成,分别是字符串是否相等、编辑距离、Jaccard相似度、子串相似度;
Step4、两个商品子图中的等价实体通常有相似的近邻,通过模型去传播实体对的属性特征和名称特征,通过节点特征和图结构信息学习节点的表示,模型是一个基于边注意力的残差GNN网络,该网络包括了两层,每层的输入都是一组节点特征H={h1,h2,…,hN},其中N是PCG中的节点数,F为输入特征的维度,每层生成的节点表示为计算方式如下:
其中,是第i个节点的邻居节点集合,W是一个形状为F×F'的共享矩阵,αij是可学习的注意力系数,表示第j个节点对第i个节点的重要性。
Step5:模型训练:令已知的对齐实体集用于训练模型;
Step6、针对偷税漏税现象的审查方案:
由训练好的模型对抽取的子图进行实体对齐预测,采用层级对齐的方法进行计算,对同一个10位商品编号下的所有商品子图进行对齐,通过知识融合将对齐的子图进行去重,选用其中在报关单出现频率较高的实体,待同一个8位商品编号下的所有10位编号对应的子图融合完毕后,接着对该8位商品编号下的所有商品子图进行对齐,对齐后继续进行之时融合,以此类推,直至融合为一个完整章节的子图集合,最终拼接为一张完整的章节知识图谱;
预测出对齐的节点二元组集合Qt={(ni,nj)|ni,nj∈BGt},其中BGt指根节点为10位、8位、6位、4位和2位商品编号实体的商品知识图谱,t={10,8,6,4,2},此时从Q中筛选出均属于品名和品牌的节点对,得到新的二元组集合Q',再利用Q'找出品牌和品名对齐上,商品编号不一致的商品集P,追溯到对应的报关单号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市检验检疫科学研究院;深圳大学,未经深圳市检验检疫科学研究院;深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211371234.8/1.html,转载请声明来源钻瓜专利网。





