[发明专利]一种多模态商品知识图谱构建方法在审
申请号: | 202011498403.5 | 申请日: | 2020-12-17 |
公开(公告)号: | CN112528042A | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 陈其宾;李志芸;李锐;王建华 | 申请(专利权)人: | 济南浪潮高新科技投资发展有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/951;G06F16/955 |
代理公司: | 济南泉城专利商标事务所 37218 | 代理人: | 李桂存 |
地址: | 250104 山东省济南市*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多模态 商品 知识 图谱 构建 方法 | ||
一种多模态商品知识图谱构建方法,利用爬虫工具爬取特定电商网站的商品数据,然后抽取商品数据中的三元组信息,并对抽取得到的三元组数据进行过滤融合,将三元组数据导入图数据库构建多模态商品知识图谱。图像数据往往包括最重要的商品信息,因此在文本数据的基础上,抽取图像信息中的三元组数据,构建结合文本和图像的多模态商品知识图谱,可以提高商品知识图谱的覆盖度,增强商品知识图谱的使用价值。
技术领域
本发明涉及网络爬虫、自然语言处理、知识图谱、计算机视觉领域,具体涉及一种多模态商品知识图谱构建方法。
背景技术
网络爬虫是目前较为流行的收集网上公开资源的方法,利用爬虫工具可以在网页上快速收集需要的信息,对海量信息进行过滤,然后通过人工智能算法,对信息进行分析,构建商品知识图谱,可以支撑商家竞品分析以及用户商品推荐等应用。但是,目前商品知识图谱构建中数据源的采集对象主要是文字描述,集中在商品的属性信息以及评价信息,而忽视了包含大量重要信息的图像数据。
针对上述问题,本发明提出一种多模态商品知识图谱构建方法,通过网络爬虫方法爬取商品文本描述信息以及图片描述信息,采用自然语言处理技术对文本信息进行过滤和解析,采用计算机视觉技术对图像进行处理,将所有商品信息进行融合消歧,构建多模态商品知识图谱。
发明内容
本发明目的是提供了一种多模态商品知识图谱构建方法,不仅更加快捷方便,而且能够提取商品信息中的图像信息,使商品知识图谱更加完善,更具参考价值。
本发明为实现上述目的,通过以下技术方案实现:
1)基于商品属性和业务需求,梳理商品知识图谱schema;
2)商品多模态数据爬取,确定商品数据来源网站,然后复制URL到编写的爬虫工具中,采用自定义爬虫模式,依次打开商品的URL,选择采集商品标题、所属商家等商品信息以及图像数据,将采集后的数据信息进行导出;
3)商品多模态数据清洗过滤,通过正则表达式等方法删除爬取的一些杂乱无关信息,通过同义词替换等方式对商品的关键信息进行规范化和补全,通过图像分类对无关图像进行过滤;
4) 基于文本的商品三元组信息抽取,结合远程监督等方法,利用基于预训练模型的实体抽取、关系抽取、属性抽取方法,抽取文本数据中商品相关的实体-关系-实体和实体-关系-属性三元组信息,筛选掉不符合要求的三元组数据,并对重复三元组数据进行整合
5)商品三元组信息抽取,筛选掉不符合要求的三元组数据,并对重复三元组数据进行整合;
6)商品三元组数据融合和消歧,针对文本和图像重复抽取的三元组数据进行融合,针对文本和图像相悖的抽取结果进行消歧;
7)多模态商品知识图谱构建,将商品三元组数据导入到图数据库中,构建多模态商品知识图谱。
优选的,所述步骤4包括基于文本的商品三元组信息抽取和基于图像的商品三元组信息抽取,所述基于文本的商品三元组信息抽取,包括结合远程监督,利用基于预训练模型的实体抽取、关系抽取、属性抽取方法,抽取文本数据中商品相关的实体-关系-实体和实体-关系-属性三元组信息,筛选掉不符合要求的三元组数据,并对重复三元组数据进行整合;所述基于图像的商品三元组信息抽取包括,将文本数据和图像数据作为模型输入,采用多模态深度学习模型,抽取图像中商品三元组数据,并对抽取得到的三元组数据进行过滤和整合。
本发明的优点在于:本发明通过构建多模态商品知识图谱采用计算机视觉技术对图像进行处理,将所有商品信息进行融合消歧,不仅更加快捷方便,而且能够提取商品信息中的图像信息,使商品知识图谱更加完善,更具参考价值。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为本发明流程结构示意图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于济南浪潮高新科技投资发展有限公司,未经济南浪潮高新科技投资发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011498403.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种切削控制实验装置及实验方法
- 下一篇:基于关键词聚类的突发事件检测方法