[发明专利]大型数据库中语义搜索的方法和系统在审
申请号: | 201880066512.4 | 申请日: | 2018-10-09 |
公开(公告)号: | CN111213140A | 公开(公告)日: | 2020-05-29 |
发明(设计)人: | 贝拉·洛兰·科瓦奇斯;阿科斯·贾格 | 申请(专利权)人: | 尼根特罗匹克斯软件有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33 |
代理公司: | 北京中博世达专利商标代理有限公司 11274 | 代理人: | 王皓 |
地址: | 匈牙利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 大型 数据库 语义 搜索 方法 系统 | ||
1.一种在包含文档的源文档数据库中执行语义搜索的计算机实施的方法,所述文档中的每个由唯一的文档标识符标识,所述方法包括:
读取包含文本的查询的文本组件;
使用预定义的特征提取模型,从所述查询的所述文本组件中生成查询特征集合;
基于多个查询特征生成训练特征集合;
利用训练特征、和使用预定义的特征提取模型从所述源文档的至少一部分中获取的文档特征集合,将可训练的分类器进行训练;
根据预定义的选择方案,选择用于分类的多个源文档;
获取经选择文档的特征;
通过经训练分类器,通过使用所述经选择文档的特征,将经选择源文档分类为不同的相关性类别,其中至少一个相关性值与各所述经选择文档相关联;
基于所述至少一个相关性值,将经分类文档排序成有序列表;和
将经排序文档的标识符的所述有序列表存储在计算机可读内存中。
2.根据权利要求1所述的方法,其中,查询实体包括用户接口和应用编程接口中的至少一个。
3.根据权利要求1或2所述的方法,其还包括:
将所述训练特征定义为与所述查询特征一致。
4.根据前述权利要求中任一项所述的方法,其还包括,在所述分类之前:
将存储在所述源文档数据库中的所述文档的至少一部分划分成块,各所述块由块标识符唯一地标识;和
针对各所述块生成多个块特征。
5.根据前述权利要求中任一项所述的方法,其中,选择用于分类的文档包括:
获取与扩展的查询特征集合中的至少一个特征相关联的、所述源文档的所述标识符。
6.根据前述权利要求中任一项所述的方法,其中,生成训练特征集合包括:
获取与所述查询特征中的至少一个相关联的所述块的所述标识符;
获取与各先前选择的所述块相关联的块特征,从而产生扩展的查询特征集合;和
将所述扩展的查询特征集合定义为所述训练特征集合。
7.根据前述权利要求中任一项所述的方法,其中,选择用于分类的文档包括:
选择存储在所述源文档数据库中的所有文档;或者
获取与所述查询特征中的至少一个相关联的所述源文档的所述标识符。
8.根据前述权利要求中任一项所述的方法,其中,所述包含文本的查询包括印刷的纸质文档、手写的纸质文档、可编辑或不可编辑的电子文本文档、具有文本内容的图像文件、具有显示的文本内容或音频文本内容的视频文件、或者具有可听文本内容的音频文件中的任一个。
9.根据前述权利要求中任一项所述的方法,其中,所述特征提取模型是词袋模型、连续词袋模型、连续空间语言模型、n元模型、跳词(skip-gram)模型和向量空间模型中的一种。
10.根据前述权利要求中任一项所述的方法,其中,所述可训练的分类器是朴素贝叶斯分类器、支持向量机(SVM)分类器、多项式逻辑回归分类器、隐马尔可夫模型分类器、神经网络分类器、k最近邻分类器和最大熵分类器中的一种。
11.一种用于在文档数据库中执行语义搜索的处理系统,所述系统包括:
至少一个处理器设备,其包括:
查询接口,其配置为接收包含文本的查询,并从所述包含文本的查询中生成文本组件;
令牌器组件,其配置为从所述查询的所述文本组件生成查询特征集合;
搜索引擎组件,其配置为产生语义相关文档的标识符的有序列表,所述搜索引擎包括:
分类器组件,其配置为评估经选择文档集合相对于所述查询的所述文本组件的相关性,以及
排序组件,其配置为基于经分类文档的相关性产生所述经分类文档的标识符的有序列表;和
计算机可读内存,其用于存储所述相关文档的所述标识符的所述有序列表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于尼根特罗匹克斯软件有限公司,未经尼根特罗匹克斯软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880066512.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:水性喷雾组合物
- 下一篇:用于治疗胆汁淤积性疾病的组合物和方法