[发明专利]大型数据库中语义搜索的方法和系统在审
申请号: | 201880066512.4 | 申请日: | 2018-10-09 |
公开(公告)号: | CN111213140A | 公开(公告)日: | 2020-05-29 |
发明(设计)人: | 贝拉·洛兰·科瓦奇斯;阿科斯·贾格 | 申请(专利权)人: | 尼根特罗匹克斯软件有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33 |
代理公司: | 北京中博世达专利商标代理有限公司 11274 | 代理人: | 王皓 |
地址: | 匈牙利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 大型 数据库 语义 搜索 方法 系统 | ||
本发明提供一种在源文档数据库中执行语义搜索的计算机实施的方法,所述源文档数据库包含由唯一的文档标识符标识的文档,所述方法包括:读取包含文本的查询的文本组件;使用预定义的特征提取模型,从查询的文本组件中生成查询特征集合;基于多个查询特征生成训练特征集合;利用训练特征、和使用预定义特征提取模型从源文档的至少一部分中获取的文档特征集合,将可训练的分类器进行训练;根据预定义的选择方案选择用于分类的多个源文档;获取经选择文档的特征;通过使用经选择文档的特征,将经选择源文档分类为不同的相关性类别,其中至少一个相关性值与各经选择文档相关联;基于经分类文档的至少一个相关联的相关性值,将经分类文档排序成有序列表;和将经排序文档的标识符的有序列表存储在计算机可读内存中。
技术领域
本公开一般地涉及自然语言处理,且更具体地,涉及通过使用语义搜索引擎在大型文档数据库中搜索内容。
背景技术
对在电子文档或基于纸质的文档中查找特定内容的需求日益增长,并且由于引入了电子文档的生成、存储和分发,或使此类文档可用于有限或无限数量的用户,因此可以在万维网(“网络”或“互联网”)和其他内部网上以电子形式访问数量不断增加的文档。即使使用具有适当搜索工具的计算机,对于具有特定内容的文档,文档检索和搜索也可能是非常耗时的任务。
文档US 7,249,121公开了用于从搜索查询中标识语义单元的各种方法和系统。用于搜索语料库的搜索引擎通过将搜索查询中的多个术语分类为单个语义单元来改进结果的相关性。搜索引擎的语义单元定位器(locator)基于查询中的各个术语来生成通常与查询相关的文档子集。然后,针对文档子集来评估定义来自查询的潜在语义单元的搜索术语组合,以确定哪些搜索术语组合应该被分类为语义单元。所得的语义单元用于改善搜索结果。尽管此解决方案提供了对与语义上有意义的(semantically meaningful)文本单元相对应的复合词(compound)的更准确的标识,但是它仍然具有缺点:相关文档的集合是以直截了当的方式、即基于查询关键词或关键文本的各个子集与语料库的索引的比较来确定的。
当前的搜索引擎无法有效地搜索大型文档数据库。在许多情况下,由于需要解析大量文本,因此文档数据库搜索麻烦、费时、且低效利用有限的处理器资源。另外,许多当前的搜索引擎无法以有意义或动态的顺序对结果进行排序。
由于跨多个平台和多种数字格式的数字数据的分散性增加,因此本领域需要提供更有效地利用处理器时间和资源的语义搜索技术,并进一步改进结果集合相对于由查询实体(querying entity)搜索的基于文本的内容的相关性。通过结果的相关性的改进,相对于传统的语义搜索引擎,特定内容搜索需要更少数量的搜索查询,这因此减少了使用如互联网或内部网的服务数据通信网络来执行的搜索的带宽需求。
发明内容
公开的实施方案提供了用于使用电子令牌和令牌化设备来管理电子事务(electronic transaction)的系统和方法。本发明尤其提供了根据权利要求1的计算机实施的方法、根据权利要求11的处理系统、根据权利要求14的计算机可读介质和根据权利要求15的系统。优选的实施方案在从属权利要求中列出。
由于源文档和查询文本的非常紧凑的表示,因此本语义搜索引擎解决方案的内存(memory)和存储(storage)需求明显低于已知语义搜索引擎的内存和存储需求。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于尼根特罗匹克斯软件有限公司,未经尼根特罗匹克斯软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880066512.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:水性喷雾组合物
- 下一篇:用于治疗胆汁淤积性疾病的组合物和方法