[发明专利]检索专利文档的方法在审
申请号: | 201980082753.2 | 申请日: | 2019-10-13 |
公开(公告)号: | CN113168499A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | S·阿维拉;J·卡利奥;S·比约克维斯特 | 申请(专利权)人: | 伊普拉利技术有限公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/279;G06N20/00;G06N3/08 |
代理公司: | 北京汇知杰知识产权代理有限公司 11587 | 代理人: | 李洁;董江虹 |
地址: | 芬兰赫*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 检索 专利 文档 方法 | ||
一种检索专利文档的方法,包括读取多个专利文档,每个所述专利文档包括全说明书,以及转换为全说明书图形和权利要求图形。所述图形包含:节点,每个所述节点具有从所述全说明书或权利要求提取的第一自然语言单元作为节点值;以及所述节点之间的边缘,所述边缘是基于从所述全说明书或权利要求提取的至少一个第二自然语言单元确定的。使用一种算法训练机器学习模型,所述算法能够根据所述边缘遍历所述图形,并且利用所述节点值以用于形成经训练的机器学习模型。所述方法包括读取新鲜的图形以及利用所述经训练的机器学习模型以用于确定专利文档的子集。
技术领域
本发明涉及自然语言处理。特别地,本发明涉及基于机器学习的——诸如基于神经网络的——用于检索、比较或分析包含自然语言的文档(document)的系统和方法。所述文档可以是技术文档或科学文档。特别地,所述文档可以是专利文档。
背景技术
在商业、工业、经济和文化的许多领域都需要书面技术概念的比较。一个具体示例是对专利申请的审查,其中一个目的是确定在专利申请的权利要求中限定的技术概念是否在语义上涵盖在另一个文档中限定的另一个技术概念。
当前,存在越来越多的可用于查找单独文档的检索工具,但是对由文档公开的概念的分析和比较仍然主要是手工工作,涉及对词、句子和更大的语言实体的含义的人类推断。
围绕自然语言处理的科学研究已经产生用于通过计算机自动解析语言的工具。这些工具可以被使用,例如,以符号化(tokenize)文本、词性标注(part-of-speechtagging)、实体识别以及识别词或实体之间的相关性。
也已经进行科学工作以通过从文档提取关键概念例如出于文本概要和技术趋势分析目的自动分析专利。
最近,使用多维词向量(word vector)的词嵌入(word embedding)已经成为用于将词的含义映射成数字计算机可处理的形式的重要工具。此方法可以由神经网络——诸如循环神经网络(recurrent neural network)——使用,用于为计算机提供对文档的内容的更深入理解。这些方法已经证明例如在机器翻译应用方面强大。
传统上,使用关键字检索进行专利检索,关键字检索涉及限定正确的关键字以及其同义词、词形变化形式等,以及布尔检索策略的创建。这是耗时的并且需要专门知识。最近,语义检索也已经得到发展,语义检索是模糊的并且可能涉及人工智能技术的使用。它们有助于快速查找到以某种方式与在另一个文档中讨论的概念相关的大量文档。然而,它们在例如专利新颖性检索方面是相对有限的,因为在实践中它们的评价新颖性——即查找公开了落在专利权利要求中限定的一般概念下的具体内容的文档——的能力是有限的。
总之,存在很好地适合于一般检索以及例如从文本和文本概要提取核心概念的可用技术。然而,它们并不很好地适合在大量数据中进行在不同文档中公开的概念之间的详细比较,所述详细比较例如对于专利新颖性检索目的或其他技术比较目的来说是至关重要的。
特别是为了实现更有效率的检索和新颖性评价工具,需要改进的用于文本分析和比较的技术。
发明内容
本发明的一个目的是解决上述问题中的至少一些以及提供一种用于提高专利检索的准确度的新颖的系统和方法。一个具体的目的是提供一种能够更好地考虑专利文档的子概念之间的技术关系以进行针对性检索的解决方案。
一个具体目的是提供一种用于改进的专利检索和自动新颖性评价的系统和方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于伊普拉利技术有限公司,未经伊普拉利技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980082753.2/2.html,转载请声明来源钻瓜专利网。