[发明专利]一种海关进出口商品知识图谱的实体对齐方法在审

专利信息
申请号: 202211371234.8 申请日: 2022-11-03
公开(公告)号: CN115641599A 公开(公告)日: 2023-01-24
发明(设计)人: 包先雨;李俊杰;蔡屹;黄孙杰;罗子鸣;黄鹏;邓鹤文;马乐铭;邹杰 申请(专利权)人: 深圳市检验检疫科学研究院;深圳大学
主分类号: G06V30/41 分类号: G06V30/41;G06V30/19;G06V10/82;G06N3/0464;G06N3/048;G06N3/08;G06F40/279;G06F16/36;G06Q50/26
代理公司: 北京中仟知识产权代理事务所(普通合伙) 11825 代理人: 丁瑞
地址: 518000 广东省深*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 海关 进出口商品 知识 图谱 实体 对齐 方法
【说明书】:

发明涉及知识图谱技术领域,具体是一种海关进出口商品知识图谱的实体对齐方法,包括如下具体步骤:步骤一:数据处理、步骤二:待对齐商品知识图谱子图的选择、步骤三、商品知识图谱子图对齐方法。发明采用对齐子图的方法,通过Jaccard相似性度量品名和品牌的相似性,将相似性较高的作为待对齐子图,同时训练出一个较为稳定的模型,充分考虑其他要素对品牌和品名的关联性,具有较好的鲁棒性,能适应不同的对齐任务,并高效的找出故意申报较低税率的商品编号的报关单,利用CNN自动提取实体属性信息,并利用GNN进行结构化信息的传播,最终在海关的商品子图得到了不错的结果。

技术领域

本发明涉及知识图谱技术领域,具体是一种海关进出口商品知识图谱的实体对齐方法。

背景技术

在知识图谱领域,实体对齐是知识图谱体系架构中的一个核心组成部分,其作用是判断两个实体是否指向真实世界中的同一对象,若是则将二者对齐。对于传统方法而言,首先,准备好小规模的初始对齐结果,进行候选实体对的选择,然后利用外部资源计算相似特征,其中包括了相似度特征设计,如基于分类的相似度、基于链入的相似度等,之后以相似度特征作为机器学习模型的输入,训练出一个分类器,判断是否对齐,例如使用概率图模型进行分类任务。但这种传统方法往往存在很多缺点,尤其是相似度特征设计的好坏直接决定了最终结果的优劣,以及不同的对齐任务需要设定不同的特征;

为了弥补这些传统方法的不足,后续出现了许多基于深度学习的知识图谱实体对齐方法,其优势在于利用表示学习、神经网络模型自动获取隐式特征,并在隐式向量空间中计算实体相似度,继而进行实体对齐。

现有技术中的知识图谱分布式表示模型,其中的MTransE模型设计了知识模型和对齐模型,知识模型利用了TransE的损失函数,将两个知识图谱映射到两个向量空间;对齐模型则是将两个空间的向量映射至同一空间,或是将两个空间进行线性变换,从而度量出两个图谱的相似度,最终的损失函数是由知识模型和对齐模型的损失函数相结合,设定了一个超参数去调节两者的权重。在MTransE的基础上,后续的JAPE方法不仅仅考虑实体的结构信息,还考虑了实体的属性信息,将结构信息和属性信息联合嵌入,并使用skip-gram模型对属性类型进行表示学习,以及后来出现的一些迭代式实体对齐方法,如IPTransE、BootEA等,但这一类基于TransE的方法存在着共性的不足,都是同时对知识图谱内部的实体关系和跨知识图谱的对齐关系进行建模,并且要在知识模型和对齐模型的损失之间进行权衡,而这个权衡参数对模型的影响过于重要,往往在调节该参数时难以平衡。

后续针对这一缺点,专家们在考虑能否直接去学实体的嵌入向量,目标就是为了对齐,而不是链接预测和三元组的分类,此时出现了基于图卷积神经网络的实体对齐模型,将实体本身和邻居的特征整合起来(线性变换后聚合),形成用于对齐的特征向量,在训练时利用种子实体对(已知对齐的实体),让两个对齐的实体在特征空间中尽可能的接近,之后利用训练好的神经网络进行对齐任务的预测。这类基于图卷积神经网络的实体对齐模型的缺点也较为明显,虽然弥补了基于TransE的方法的缺点,目标直接就是对齐任务,性能会有一定的提升,但默认处理的对象是无向图,但事实上知识图谱是有向图,不同的边可能对应着不同的类型,这一点无法在模型中体现出其区别,除此之外,在需要考虑多跳的实体关系时,需要利用更多的卷积层,会使网络更加复杂。因此,本领域技术人员提供了一种海关进出口商品知识图谱的实体对齐方法,以解决上述背景技术中提出的问题。

发明内容

本发明的目的在于提供一种海关进出口商品知识图谱的实体对齐方法,以解决上述背景技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:一种海关进出口商品知识图谱的实体对齐方法,包括如下具体步骤:

步骤一、数据处理:

A1:针对报关单数据中商品名称及规格型号字段的内容进行拆分,按‘|’字符对字符串拆分,得到关于每个报关单数据的要素数据;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市检验检疫科学研究院;深圳大学,未经深圳市检验检疫科学研究院;深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211371234.8/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top