[发明专利]检索专利文档的方法在审
申请号: | 201980082753.2 | 申请日: | 2019-10-13 |
公开(公告)号: | CN113168499A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | S·阿维拉;J·卡利奥;S·比约克维斯特 | 申请(专利权)人: | 伊普拉利技术有限公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/279;G06N20/00;G06N3/08 |
代理公司: | 北京汇知杰知识产权代理有限公司 11587 | 代理人: | 李洁;董江虹 |
地址: | 芬兰赫*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 检索 专利 文档 方法 | ||
1.一种计算机实施的检索专利文档的方法,其特征在于,所述方法包括
-从数字数据存储装置(10A)读取多个专利文档,每个所述专利文档包括计算机可识别的全说明书和计算机可识别的权利要求,
-使用第一数据处理装置(12)分别将所述全说明书和权利要求转换为全说明书图形和权利要求图形,所述图形包含
o多个节点,每个所述节点具有从所述全说明书或权利要求提取的第一自然语言单元作为节点值,
o所述节点之间的多个边缘,所述边缘是基于从所述全说明书或权利要求提取的至少一个第二自然语言单元确定的,
-使用第二数据处理装置(14)使用机器学习算法训练机器学习模型,所述机器学习算法能够根据所述边缘遍历所述图形,并且
利用所述节点值以用于使用所述全说明书图形和权利要求图形的多个不同的对作为训练数据形成经训练的机器学习模型,
-使用第三数据处理装置(16),
o读取新鲜的图形或被转换为新鲜的图形的新鲜的文本块,以及
o利用所述经训练的机器学习模型以用于基于所述新鲜的图形确定所述专利文档的子集。
2.根据权利要求1所述的系统,其中至少一些全说明书图形中的包含特定自然语言单元值的至少一些节点的数目小于所述特定自然语言单元值在对应的全说明书中出现的数目。
3.根据权利要求1或2所述的方法,其中所述转换包括
-从所述全说明书和权利要求识别第一组自然语言符号以及与所述第一组自然语言符号不同的第二组自然语言符号,
-利用所述第一组符号和所述第二组符号执行匹配器,以用于形成第一组符号的匹配对,
-利用所述匹配对将所述第一组符号布置为所述图形的节点。
4.根据权利要求1或2所述的方法,其中所述转换包括形成包含多个边缘的图形,所述图形的各个节点包含相互之间具有部分词关系的自然语言单元,如从所述全说明书和权利要求导出的。
5.根据前述权利要求中任一项所述的方法,其中所述转换包括形成包含多个边缘的图形,所述图形的各个节点包含
-相互之间具有下位词关系的自然语言单元,如从所述全说明书和权利要求导出的,和/或
-对同一图形中的一个或多个节点的引用以及附加地从所述全说明书和权利要求导出的至少一个自然语言单元。
6.根据前述权利要求中任一项所述的方法,其中所述图形是树形图形,所述树形图形的节点值包含词或多词组块,诸如名词或名词组块,所述词或多词组块是通过所述第一处理单元使用词的词性和句法依赖性从所述全说明书和权利要求导出的或从其向量化形式导出的。
7.根据前述权利要求中任一项所述的方法,其中所述转换包括使用概率图形模型(PGM)以用于确定所述图形的边缘概率,以及使用所述边缘概率来形成所述图形。
8.根据前述权利要求中任一项所述的方法,其中所述训练包括执行循环神经网络(RNN)图形算法,特别是长短期记忆(LSTM)算法,诸如Tree-LSTM算法。
9.根据前述权利要求中任一项所述的方法,其中所述经训练的机器学习模型适于将图形映射成多维向量,所述多维向量的相对角度至少部分地由所述图形的边缘和节点值限定。
10.根据前述权利要求中任一项所述的方法,其中所述机器学习模型适于根据图形的边缘和节点值将所述图形或图形对分类为两个或更多个分类。
11.根据前述权利要求中任一项所述的方法,包括
-读取将至少一些权利要求和全说明书相互链接的引用数据,并且
-使用所述引用数据以用于训练所述机器学习模型。
12.根据权利要求11所述的方法,其中所述训练包括使用来源于同一专利文档的权利要求图形和全说明书图形对作为所述训练数据的训练案例。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于伊普拉利技术有限公司,未经伊普拉利技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980082753.2/1.html,转载请声明来源钻瓜专利网。