[发明专利]一种基于多模态注意力图谱的专利检索方法及系统在审
| 申请号: | 202211616301.8 | 申请日: | 2022-12-16 |
| 公开(公告)号: | CN115617956A | 公开(公告)日: | 2023-01-17 |
| 发明(设计)人: | 徐青伟;严长春;裴非;范娥媚;蔡明睿 | 申请(专利权)人: | 北京知呱呱科技服务有限公司;知呱呱(天津)大数据技术有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36;G06F16/583;G06F18/22;G06N3/047;G06N3/048;G06N3/08 |
| 代理公司: | 北京华清迪源知识产权代理有限公司 11577 | 代理人: | 郑兴旺 |
| 地址: | 100089 北京市海淀区长春*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 多模态 注意力 图谱 专利 检索 方法 系统 | ||
本发明公开了一种基于多模态注意力图谱的专利检索方法及系统,该方法包括应用实体关系抽取模型对专利文档中的相关实体及其关系构建为多模态知识图谱,利用多模态模型对专利文档的文本和附图进行向量编码,基于多模态知识图谱结合注意力机制表示学习方法,将专利文本和附图在统一表示空间中进行关联编码,构建以专利各组成单元的文本、附图为实体关系的多模态知识图谱,通过图注意力机制有效融合了文本和附图之间、文档内部各组成部分之间的语义关联关系,克服了传统文本和图片检索中无法深度利用文本图片内在深层语义关联关系的缺点,提升了专利多模态检索的查全率和查准率。
技术领域
本发明涉及文献检索技术领域,具体涉及一种基于多模态注意力图谱的专利检索方法及系统。
背景技术
专利文档中包含丰富的文本和附图信息,本质上是一种多模态的媒体类型,需要综合利用文本和图像分析方法进行精准和高效的处理。基于专利检索进行专利查重和侵权检测是专利申请和维权过程中的一个关键核心环节,如何实现精准高效检索已经成为专利系统建设中的一项重要内容。当前的专利检索通常基于用户输入的查询文本和专利文本的相似度匹配实现,缺乏综合利用文本和图片进行融合检索的技术手段。因此,如何从精准高效地从用户输入的文本和图片中检索出相关专利已然成为目前的一项重要研究内容。
目前常见的专利检索方法一般针对文本和图片进行独立编码,基于用户输入的文本或者图片与专利文本或者附图向量间的相似度检索实现,现有方法缺乏文本与图片之间深度关联关系分析,也没有充分利用专利文档中各内部组成单元之间的关联语义信息,导致专利检索过程中输入与目标之间的相似度量不准确,使得最终专利检索的完整性和准确率整体不高。
发明内容
鉴于此,本发明提供的一种基于多模态知识图谱结合注意力机制的检索方案,以克服传统文本和图片检索中无法深度利用文本图片内在深层语义关联关系的缺点,提升了专利多模态检索的查全率和查准率。
为了实现上述目的,本发明提供如下技术方案:
本发明一方面提供了一种基于多模态注意力图谱的专利检索方法,包括:
应用实体关系抽取模型对专利文档中的相关实体及其关系构建为多模态知识图谱,所述相关实体包括篇章、段落、句子、附图;
利用多模态模型对专利文档的文本和附图进行向量编码,将生成的向量附加到所述多模态知识图谱中对应的节点作为其向量属性,并存储到向量数据库中;
在所述多模态知识图谱中应用注意力机制对文本和附图执行增强的图嵌入表征学习;
当进行专利检索时,对用户输入的文本或图片应用多模态预训练模型进行编码,将编码得到的向量与知识图谱中的节点进行向量间相似度计算,并按照相似度进行排序。
更适宜地,对专利文件中的相关实体及其关系构建为多模态知识图谱,包括专利文档解析、实体关系抽取,具体为:
专利文档解析,专利文档结构解析和篇章段落分割,将专利的标题、摘要、权利声明、说明书部分以及附图进行分割,然后将各部分内部文本拆分为句子,构建为树形数据结构的文档树;
实体关系抽取,将分割后的文档树中的文档、篇章、段落、句子以及附图构建为图谱中的节点,之间的从属、邻接关系构建为图谱中的关系。
更适宜地,对专利文件中的相关实体及其关系构建为多模态知识图谱,还包括知识补全,具体如下:
补充完善图谱中节点间的内在隐含的语义关联关系,通过计算节点关联的文本和图片之间相似度度量,超过预定的阈值后添加,所述文本、图片之间的相似度通过最长公共子串LCS和预训练模型进行计算。
其中,图嵌入表征学习是基于图的邻接关系计算通过注意力机制编码GAT实现的。
优选地,在专利检索步骤中,所述向量间相似度计算具体为:
以输入向量与向量库中的候选向量间的余弦距离:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京知呱呱科技服务有限公司;知呱呱(天津)大数据技术有限公司,未经北京知呱呱科技服务有限公司;知呱呱(天津)大数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211616301.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种医用天线检测系统
- 下一篇:一种电力系统规划关键运行方式提取方法及系统





