[发明专利]一种文档搜索方法、装置及相关设备有效
申请号: | 202211646790.1 | 申请日: | 2022-12-21 |
公开(公告)号: | CN115630144B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 王哲;刘殊玥;余怡然;舒光斌;岳丰;杨思喆;史勇;罗俊;贾智杰;方兴;宋群力 | 申请(专利权)人: | 中信证券股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 何方 |
地址: | 518048 广东省深圳市福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 搜索 方法 装置 相关 设备 | ||
一种文档搜索方法,包括:搜索引擎获取用户输入的查询内容;根据所述查询内容,在多个文档中进行搜索,得到目标文档以及所述目标文档对应的可解释性信息,所述可解释性信息包括所述目标文档对应的目标匹配要素、所述目标匹配要素对应的权重,所述目标文档为所述多个文档中与所述查询内容之间的相关性满足预设条件的至少一个文档;输出所述目标文档、所述可解释性信息。如此,用户能够根据搜索引擎输出的可解释性信息确定搜索引擎反馈目标文档的依据,从而可以提高用户对于搜索引擎反馈目标文档的可信度,提高用户的搜索体验。此外,本申请还提供了相应的文档搜索装置及相关设备。
技术领域
本申请涉及数据检索技术领域,尤其涉及一种文档搜索方法、装置及相关设备。
背景技术
目前,在企业等机构组织中,通常存储较多数量的文档数据,如金融领域中的券商研报,由于这些文档数据采用非结构化的形式进行存储,因此,从这些文档数据中检索出符合用户预期的有效文档,成为这些机构组织关注的重点问题。
尽管目前的搜索引擎技术已经广泛应用于文档信息的搜索,但是,实际应用场景中,搜索引擎所反馈的文档信息经常出现不符合用户预期的情况,如当搜索出的部分文档与用户输入的搜索查询内容之间的相关性较低时,用户可能认为搜索引擎遗漏反馈了与搜索查询内容相关度较高的部分文档,影响用户的搜索体验。因此,如何提高搜索引擎反馈搜索结果的可信性,成为亟需解决的重要问题。
发明内容
本申请提供了一种文档搜索方法,以提高搜索引擎反馈搜索结果的可信性,进而提高用户的搜索体验。此外,本申请还提供了对应的文档搜索装置、计算设备、计算机可读存储介质以及计算机程序产品。
第一方面,本申请提供一种文档搜索方法,所述方法应用于搜索引擎,所述方法包括:
获取用户输入的查询内容;
根据所述查询内容,在多个文档中进行搜索,得到目标文档以及所述目标文档对应的可解释性信息,所述可解释性信息包括所述目标文档对应的目标匹配要素、所述目标匹配要素对应的权重,所述目标文档为所述多个文档中与所述查询内容之间的相关性满足预设条件的至少一个文档;
输出所述目标文档、所述可解释性信息。
在一种可能的实施方式中,所述根据所述查询内容,在多个文档中进行搜索,得到目标文档以及所述目标文档对应的可解释性信息,包括:
根据所述查询内容,从所述多个文档中搜索出所述目标文档以及所述目标文档的相关性评分,所述目标文档的相关性评分高于所述多个文档中其余文档的相关性评分;
根据所述目标文档以及所述目标文档的相关性评分,确定多个候选匹配要素分别对应的权重,其中,基于所述多个候选匹配要素与所述多个候选匹配要素分别对应的权重所计算出的评分与所述目标文档的相关性评分之间的偏差小于预设范围;
从所述多个候选匹配要素中确定出所述目标匹配要素,并确定所述目标匹配要素对应的权重,所述目标匹配要素满足预设的要素确定条件。
在一种可能的实施方式中,所述多个候选匹配要素包括单词匹配、n-gram匹配、同义词匹配、语义向量匹配、主题关键词匹配、多模态信息匹配、元数据属性匹配、文档全文长度、文档包括的非文字模态数据、文档的时效性数据、文档的历史访问数据中的任意多种。
在一种可能的实施方式中,所述方法还包括:
根据所述可解释性信息,确定所述目标文档中的目标片段,所述目标片段与所述查询内容之间的匹配程度高于所述目标文档中的其余片段与所述查询内容之间的匹配程度;
输出所述目标片段。
在一种可能的实施方式中,所述多个文档中包括预测文档,所述预测文档中记录有待评价对象的预测数据,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中信证券股份有限公司,未经中信证券股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211646790.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种嵌入式软件自动化测试方法
- 下一篇:一种实体关系联合抽取方法及装置