[发明专利]一种用于专利技术现状的检索方法在审
申请号: | 201710946743.1 | 申请日: | 2017-10-12 |
公开(公告)号: | CN107633095A | 公开(公告)日: | 2018-01-26 |
发明(设计)人: | 王飞;刘斌;其他发明人请求不公开姓名 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙)42222 | 代理人: | 鲁力 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 专利技术 现状 检索 方法 | ||
技术领域
本发明属于数据管理领域,涉及一种用于专利技术查重的关联专利查找方法,尤其涉及技术方面查询生成、双一致性扩展查询生成以及基于不同技术视角权值和关联专利结果集次序的数据融合方法。
背景技术
专利是现代企业保护科研投入,追求经济利益的主流方式。为了获得专利授权,专利审查人员需要对申请专利进行技术唯一性为目的的技术现状检索。专利的数据量庞大,使用词汇的歧义性强,并且专利文档是一种半结构化文档,无法直接提供有效的检索信息,这些都使得专利检索面临着巨大的挑战。当前实施专利检索主要包含专利抽取和专利扩展两个流程。专利抽取主要是剔除噪声词汇和歧义词汇,从查询专利中抽取能够体现技术特征的术语词汇,形成一个信息集中的检索源,而专利扩展则是通过补充语义关联或者分布关联的词汇,消除专利技术词汇的歧义,形成一个意向明确的专利查询。
专利抽取根据不同的技术关联性量化策略,分为单主题模型和多主题模型。单主题模型的专利抽取认为整个专利技术方案仅仅包含单一技术特征,通常抽取具有高词频的技术词汇形成唯一的专利查询。多主题模型的专利抽取认为一个技术方案由多个技术特征组成,技术间的相似性是基于专利某个技术特征而非整个技术方案,采用聚类或者决策树等方法形成多个专利查询。显然,专利多主题模型的技术量化策略更加接近人们关于技术相似性的思维方式,但是,现有的多主题模型使用聚类等技术生成的专利查询并不能代表一个明确的技术方面,并没有有效地改善专利的检索性能。
专利扩展根据不同的扩展源,分为分布一致性和语义一致性两种扩展策略。分布一致性以初次检索得到的文档或者引用文献作为潜在扩展源,选择扩展源中与查询词汇具有相似分布的词汇作为扩展词汇,而语义一致性则是借助Wikipedia、Freebase等成熟知识库技术,提供查询词汇的上下位词汇和语义相近词汇作为扩展词汇。分布一致性选择了查询词汇分布相近的词汇作为扩展源,但是,这些词汇可能与查询词汇没有语义上的关联,容易引起语义的发散。语义一致性选择了查询词汇语义相近的词汇作为扩展源,但是,知识库提供的词汇可能并不是专利选用词汇,可能引起词形的离散。
发明内容
为了解决背景技术中存在的上述各种问题,本发明提供了一种在复合域视角下进行专利词嵌入的扩展检索。在专利抽取方面,该发明通过将多主题模型与技术分类域相结合,生成带有明确意图的多个方面查询,来克服现有多主题模型的查询指向不明确问题。在专利扩展方面,该发明追求分布和语义相结合的双一致性扩展,通过词嵌入技术训练语义向量模型作为领域相关的扩展源,进行查询词汇与扩展词汇分布关联性的量化,来减少检索语义的模糊性。最后,基于查询专利的视角权值和反馈专利的主题关联性实现多个方面检索的结果集融合。
本发明的方法所采用的技术方案是一种用于专利技术现状的检索方法,其特征在于,包含以下步骤:
步骤1:构建复合域视角下的视角转换器,对检索专利进行不同复合域视角下的技术特征转换,形成不同视角下的专利查询。
步骤2:训练单一域视角下的语义向量模型,分别量化候选词汇与方面查询的语义和分布一致性,实现复合域视角下的双一致性专利扩展。
步骤3:基于主题专利的视角权值和关联专利在方面检索结果集中的位序,实现多个检索结果集的数据融合,形成一个主题相关的关联专利结果集。
作为优选,步骤1的具体实现包含以下子步骤:
步骤1.1:基于主题专利实施基准检索,生成复合域视角容器。
步骤1.2:基于复合域视角容器构建复合域视角转换器,进行主题专利的视角变换。
作为优选,步骤1.1的具体实现包含以下子步骤:
步骤1.1.1:从主题专利中抽取技术特征词汇进行基准检索,截取反馈列表中排序靠前的TOP-K个关联专利。
步骤1.1.2:从主题专利中抽取所有IPC的部层级分类信息,并基于分类信息的所有组合构建相应的复合域视角容器。
步骤1.1.3:循环实现反馈专利到相应复合域视角容器的分配任务,在每一轮循环中,倘若反馈专利、检索专利和复合域视角容器的分类信息满足相应的分配规则,则将该反馈专利分配给相应的复合域视角容器。分配规则如下:
(1)Ψ=Gq∩Gr.(3)DΨ∈α.
其中,q表示主题专利,r表示反馈专利,G表示IPC小组层级分类,D表示IPC部层级分类,α表示复合域视角容器的索引。
作为优选,步骤1.2的具体实现包含以下子步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710946743.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:洗涤标自动整理装置
- 下一篇:数据实时写入去重处理方法