[发明专利]一种用于专利技术现状的检索方法在审

申请号：	201710946743.1	申请日：	2017-10-12
公开（公告）号：	CN107633095A	公开（公告）日：	2018-01-26
发明（设计）人：	王飞;刘斌;其他发明人请求不公开姓名	申请（专利权）人：	武汉大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙)42222	代理人：	鲁力
地址：	430072 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种用于专利技术现状检索方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于数据管理领域，涉及一种用于专利技术查重的关联专利查找方法，尤其涉及技术方面查询生成、双一致性扩展查询生成以及基于不同技术视角权值和关联专利结果集次序的数据融合方法。

背景技术

专利是现代企业保护科研投入，追求经济利益的主流方式。为了获得专利授权，专利审查人员需要对申请专利进行技术唯一性为目的的技术现状检索。专利的数据量庞大，使用词汇的歧义性强，并且专利文档是一种半结构化文档，无法直接提供有效的检索信息，这些都使得专利检索面临着巨大的挑战。当前实施专利检索主要包含专利抽取和专利扩展两个流程。专利抽取主要是剔除噪声词汇和歧义词汇，从查询专利中抽取能够体现技术特征的术语词汇，形成一个信息集中的检索源，而专利扩展则是通过补充语义关联或者分布关联的词汇，消除专利技术词汇的歧义，形成一个意向明确的专利查询。

专利抽取根据不同的技术关联性量化策略，分为单主题模型和多主题模型。单主题模型的专利抽取认为整个专利技术方案仅仅包含单一技术特征，通常抽取具有高词频的技术词汇形成唯一的专利查询。多主题模型的专利抽取认为一个技术方案由多个技术特征组成，技术间的相似性是基于专利某个技术特征而非整个技术方案，采用聚类或者决策树等方法形成多个专利查询。显然，专利多主题模型的技术量化策略更加接近人们关于技术相似性的思维方式，但是，现有的多主题模型使用聚类等技术生成的专利查询并不能代表一个明确的技术方面，并没有有效地改善专利的检索性能。

专利扩展根据不同的扩展源，分为分布一致性和语义一致性两种扩展策略。分布一致性以初次检索得到的文档或者引用文献作为潜在扩展源，选择扩展源中与查询词汇具有相似分布的词汇作为扩展词汇，而语义一致性则是借助Wikipedia、Freebase等成熟知识库技术，提供查询词汇的上下位词汇和语义相近词汇作为扩展词汇。分布一致性选择了查询词汇分布相近的词汇作为扩展源，但是，这些词汇可能与查询词汇没有语义上的关联，容易引起语义的发散。语义一致性选择了查询词汇语义相近的词汇作为扩展源，但是，知识库提供的词汇可能并不是专利选用词汇，可能引起词形的离散。

发明内容

为了解决背景技术中存在的上述各种问题，本发明提供了一种在复合域视角下进行专利词嵌入的扩展检索。在专利抽取方面，该发明通过将多主题模型与技术分类域相结合，生成带有明确意图的多个方面查询，来克服现有多主题模型的查询指向不明确问题。在专利扩展方面，该发明追求分布和语义相结合的双一致性扩展，通过词嵌入技术训练语义向量模型作为领域相关的扩展源，进行查询词汇与扩展词汇分布关联性的量化，来减少检索语义的模糊性。最后，基于查询专利的视角权值和反馈专利的主题关联性实现多个方面检索的结果集融合。

本发明的方法所采用的技术方案是一种用于专利技术现状的检索方法，其特征在于，包含以下步骤：

步骤1：构建复合域视角下的视角转换器，对检索专利进行不同复合域视角下的技术特征转换，形成不同视角下的专利查询。

步骤2：训练单一域视角下的语义向量模型，分别量化候选词汇与方面查询的语义和分布一致性，实现复合域视角下的双一致性专利扩展。

步骤3：基于主题专利的视角权值和关联专利在方面检索结果集中的位序，实现多个检索结果集的数据融合，形成一个主题相关的关联专利结果集。

作为优选，步骤1的具体实现包含以下子步骤：

步骤1.1：基于主题专利实施基准检索，生成复合域视角容器。

步骤1.2：基于复合域视角容器构建复合域视角转换器，进行主题专利的视角变换。

作为优选，步骤1.1的具体实现包含以下子步骤：

步骤1.1.1：从主题专利中抽取技术特征词汇进行基准检索，截取反馈列表中排序靠前的TOP-K个关联专利。

步骤1.1.2：从主题专利中抽取所有IPC的部层级分类信息，并基于分类信息的所有组合构建相应的复合域视角容器。

步骤1.1.3：循环实现反馈专利到相应复合域视角容器的分配任务，在每一轮循环中，倘若反馈专利、检索专利和复合域视角容器的分类信息满足相应的分配规则，则将该反馈专利分配给相应的复合域视角容器。分配规则如下：

(1)Ψ＝G_q∩G_r.(3)D_Ψ∈α.