[发明专利]用于搜索和筛选实体的系统在审
申请号: | 202080097121.6 | 申请日: | 2020-12-11 |
公开(公告)号: | CN115136130A | 公开(公告)日: | 2022-09-30 |
发明(设计)人: | N·R·刘易斯;O·厄克斯勒 | 申请(专利权)人: | 伯耐沃伦人工智能科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/338;G06F16/36;G16B50/00 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 师索;臧建明 |
地址: | 英国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 搜索 筛选 实体 系统 | ||
提供了用于创建感兴趣实体及其关系图的方法、装置、系统和计算机实现的方法。接收对应于感兴趣实体的搜索查询。搜索查询包括代表第一实体集的数据。基于将接收到的搜索查询输入到一个或多个实体扩展过程或引擎,来生成扩展搜索查询。扩展搜索查询包括代表第二实体集和第一实体集的数据。基于使用代表文本语料库的数据处理扩展搜索查询,来创建感兴趣实体及其关系图。通过扩展搜索查询进行处理,并基于扩展搜索查询对感兴趣实体及其关系的现有图进行筛选,来创建图。感兴趣实体及其关系的现有图是先前基于文本语料库生成的。
技术领域
本申请涉及用于从文本语料库生成实体及其关系图的词典扩展系统和方法。
背景技术
特定领域或技术子领域或研究领域的庞大数据量使得研究人员很难或要耗费大量时间(甚或不可能)分别阅读每条新数据(如背景/文献/文本),更不用说必须从中分析并得出有意义的相关性。鉴于生成的数据日益增多,单靠每个研究人员的手动工作不足以应对日益增长的数据量。因此,尽管有许多方法可以使用计算机来自动化和/或评估这种增加的数据量,但是为每个不同的研究人员和/或研究人员感兴趣的不同主题/领域提取相关信息(例如相关文档和/或文档中的相关信息)仍然是很困难的,甚至是棘手的。
例如,可用文档搜索引擎来基于从用户获取搜索查询来搜索文本和/或文档的语料库。各种搜索引擎算法可以基于该搜索查询来对索引进行搜索,并输出与该查询相关联的大量列表结果。对于用户和/或研究人员来说,这些结果可能仍然难以确定哪些是相关的,哪些是要丢弃的,哪些可能引发下一个突破或突破性的发现。用户仍然花费大量时间来整理和/或优化结果集。
确实需要一种发明能够创建增强的搜索结果,扩展搜索查询概念以捕获任何特定领域中最相关的数据和/或文档,例如,诸如生物和/或化学科学,并提供增强的搜索结果集,使用户能够根据背后的关系,系统地检查搜索概念。
下面描述的实施例不限于解决上述已知方法的任何或所有缺点的实现方式。
发明内容
提供本发明内容是为了以简化的形式介绍概念的选择,这些概念将在后文的详细描述中进一步描述。本发明内容并非旨在识别所要求保护的主题的关键特征或基本特征,也不旨在用于确定所要求保护的主题的范围;凡有助于本发明的实施和/或用于实现基本相似的技术效果的变体和替代特征,均应被视为落入本文所公开的本发明的范围内。
本公开提供了一种系统,其用于迭代处理和扩展搜索查询,以包括相关的感兴趣的实体、感兴趣的概念、感兴趣的词、感兴趣的短语等,从而增强对与搜索查询相关联的文本语料库的搜索。搜索查询可以包括实体术语、短语、词或感兴趣的概念的第一集合,其使用文本语料库和/或基于,但不限于,例如机器学习模型、数据库搜索、图搜索/图遍历的多个扩展过程进行处理,上述扩展过程反馈扩展的搜索词,以便在验证后合并到搜索查询中。一旦搜索查询被充分扩展以提供稳健的搜索,就被用于搜索文本语料库,并根据搜索提取的实体和/或关系提供或构建图。文本语料库也可以表示为具有关系边的实体图等。可以将所得实体图作为搜索结果提供和/或显示给用户。备选地或附加地,实体图可以用作训练集,用于训练一个或多个ML模型等。
在第一方面,本公开提供了一种创建感兴趣实体及其关系图的计算机实现的方法,该方法包括:接收对应于感兴趣实体的搜索查询,该搜索查询包括代表第一实体集的数据;基于将接收到的搜索查询输入到一个或多个实体扩展过程,来生成扩展搜索查询,该扩展搜索查询包括代表第二实体集和第一实体集的数据;以及基于用代表文本语料库的数据处理扩展搜索查询,来构建感兴趣实体及其关系图。
作为一种选择,生成扩展搜索查询还包括:将代表接收到的搜索查询的数据发送到一个或多个实体扩展过程;从一个或多个实体扩展过程接收代表第二实体集的数据;以及基于对代表与感兴趣实体相关的该第二实体集和该第一实体集的数据的选择,构建对应于感兴趣实体的扩展搜索查询。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于伯耐沃伦人工智能科技有限公司,未经伯耐沃伦人工智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080097121.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:抗MUC1组合物和使用方法
- 下一篇:针对整合素α11β1的抗体