[发明专利]一种基于多模态注意力图谱的专利检索方法及系统在审
| 申请号: | 202211616301.8 | 申请日: | 2022-12-16 |
| 公开(公告)号: | CN115617956A | 公开(公告)日: | 2023-01-17 |
| 发明(设计)人: | 徐青伟;严长春;裴非;范娥媚;蔡明睿 | 申请(专利权)人: | 北京知呱呱科技服务有限公司;知呱呱(天津)大数据技术有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36;G06F16/583;G06F18/22;G06N3/047;G06N3/048;G06N3/08 |
| 代理公司: | 北京华清迪源知识产权代理有限公司 11577 | 代理人: | 郑兴旺 |
| 地址: | 100089 北京市海淀区长春*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 多模态 注意力 图谱 专利 检索 方法 系统 | ||
1.一种基于多模态注意力图谱的专利检索方法,其特征在于,包括:
应用实体关系抽取模型对专利文档中的相关实体及其关系构建为多模态知识图谱,所述相关实体包括篇章、段落、句子、附图;
利用多模态模型对专利文档的文本和附图进行向量编码,将生成的向量附加到所述多模态知识图谱中对应的节点作为其向量属性,并存储到向量数据库中;
在所述多模态知识图谱中应用注意力机制对文本和附图执行增强的图嵌入表征学习;
当进行专利检索时,对用户输入的文本或图片应用多模态预训练模型进行编码,将编码得到的向量与知识图谱中的节点进行向量间相似度计算,并按照相似度进行排序。
2.如权利要求1所述的专利检索方法,其特征在于,
所述应用实体关系抽取模型对专利文件中的相关实体及其关系构建为多模态知识图谱,包括专利文档解析、实体关系抽取,具体为:
专利文档解析,专利文档结构解析和篇章段落分割,将专利的标题、摘要、权利声明、说明书部分以及附图进行分割,然后将各部分内部文本拆分为句子,构建为树形数据结构的文档树;
实体关系抽取,将分割后的文档树中的文档、篇章、段落、句子以及附图构建为图谱中的节点,之间的从属、邻接关系构建为图谱中的关系。
3.如权利要求2所述的专利检索方法,其特征在于,
所述应用实体关系抽取模型对专利文件中的相关实体及其关系构建为多模态知识图谱,还包括知识补全,具体如下:
补充完善图谱中节点间的内在隐含的语义关联关系,通过计算节点关联的文本和图片之间相似度度量,超过预定的阈值后添加,所述文本、图片之间的相似度通过最长公共子串LCS和预训练模型进行计算。
4.如权利要求1所述的专利检索方法,其特征在于,
所述图嵌入表征学习是基于图的邻接关系计算通过注意力机制编码GAT实现的。
5.如权利要求1所述的专利检索方法,其特征在于,
所述专利检索步骤中,所述向量间相似度计算具体为:
以输入向量与向量库中的候选向量间的余弦距离:
为度量,通过向量数据库进行相似检索比对,选择与输入检索向量距离最近的前K篇候选专利文档,作为最终的检索结果,其中,s1i为句向量S1中的元素,s2i及s2j为句向量S2中的元素。
6.如权利要求1-5中任一项所述的专利检索方法,其特征在于,其中,
所述多模态预训练模型为图文预训练CLIP模型;和/或,
所述向量数据库为FAISS向量数据库。
7.一种基于多模态注意力图谱的专利检索系统,其特征在于,包括:
知识图谱构建单元,应用实体关系抽取模型对专利文档中的相关实体及其关系构建为多模态知识图谱,所述相关实体包括篇章、段落、句子、附图;
向量编码单元,利用多模态模型对专利文档的文本和附图进行向量编码,将生成的向量附加到所述多模态知识图谱中对应的节点作为其向量属性,并存储到向量数据库中;
表征学习单元,在所述多模态知识图谱中应用注意力机制对文本和附图执行增强的图嵌入表征学习;
专利检索单元,当进行专利检索时,用于对用户输入的文本或者图片应用多模态预训练模型进行编码,将编码得到的向量与知识图谱中的节点进行向量间相似度计算,并按照相似度由高到低排序。
8.如权利要求7所述的专利检索系统,其特征在于,所述知识图谱构建单元包括:
专利文档解析模块,专利文档结构解析和篇章段落分割,将专利的标题、摘要、权利声明、说明书部分以及附图进行分割,然后将各部分内部文本拆分为句子,构建为树形数据结构的文档树;
实体关系抽取模块,将分割后的文档树中的文档、篇章、段落、句子以及附图构建为图谱中的节点,之间的从属、邻接关系构建为图谱中的关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京知呱呱科技服务有限公司;知呱呱(天津)大数据技术有限公司,未经北京知呱呱科技服务有限公司;知呱呱(天津)大数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211616301.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种医用天线检测系统
- 下一篇:一种电力系统规划关键运行方式提取方法及系统





