[发明专利]文档查询方法、装置、电子设备和存储介质在审
| 申请号: | 202011380049.6 | 申请日: | 2020-11-30 |
| 公开(公告)号: | CN112507068A | 公开(公告)日: | 2021-03-16 |
| 发明(设计)人: | 杨天行;杨晨;彭彬;宋勋超;张一麟 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/34;G06F16/36 |
| 代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 韩海花 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文档 查询 方法 装置 电子设备 存储 介质 | ||
1.一种文档查询方法,包括:
获取搜索关键词;
根据提取所述搜索关键词所采用的提取策略,确定所述搜索关键词所属目标维度;
从候选文档多个维度的文档关键词中,查询所述目标维度的文档关键词;
在所述目标维度的所述文档关键词与所述目标维度的所述搜索关键词匹配的情况下,确定所述候选文档与所述搜索关键词匹配。
2.根据权利要求1所述的文档查询方法,其中,所述获取搜索关键词,包括:
响应于用户操作,确定搜索文本和搜索场景;
查询所述搜索场景适用的提取策略;
对所述搜索文本采用所述搜索场景适用的提取策略进行关键词提取,以得到所述搜索关键词。
3.根据权利要求1所述的文档查询方法,其中,所述候选文档多个维度的文档关键词,是对所述候选文档采用多种所述提取策略进行提取得到的;
所述多种提取策略包括以下提取策略中的一个或多个组合:
提取出现在所述候选文档中的实体词和/或事件词;
对出现在所述候选文档中的所述实体词和/或所述事件词,在配置的知识图谱中查询相关词,提取所述相关词;
对所述候选文档进行语义编码或者字符编码,得到所述候选文档的编码向量,将所述编码向量输入经过训练的提取模型,得到所述候选文档的文档关键词;
对所述候选文档中包含的标题进行提取;
根据所述候选文档中各词的词频进行关键词提取;
提取所述候选文档的主题或摘要。
4.根据权利要求2所述的文档查询方法,其中,所述搜索文本包括输入文本和/或选定的参考文档。
5.根据权利要求1-4任一项所述的文档查询方法,其中,所述在所述目标维度的所述文档关键词与所述目标维度的所述搜索关键词匹配的情况下,确定所述候选文档与所述搜索关键词匹配之前,还包括:
查询所述目标维度的权重系数;
根据所述权重系数,对所述文档关键词与所述搜索关键词之间的匹配度进行匹配度调整,得到目标匹配度;
在所述目标匹配度大于设定阈值的情况下,确定所述目标维度的所述文档关键词与所述目标维度的所述搜索关键词匹配。
6.根据权利要求1-4任一项所述的文档查询方法,其中,所述确定所述候选文档与所述搜索关键词匹配之后,还包括:
展示搜索结果页面;其中,所述搜索结果页面中包含所述候选文档的摘要,和/或,所述候选文档多个维度的文档关键词。
7.一种文档查询装置,包括:
获取模块,用于获取搜索关键词;
确定模块,用于根据提取所述搜索关键词所采用的提取策略,确定所述搜索关键词所属目标维度;
查询模块,用于从候选文档多个维度的文档关键词中,查询所述目标维度的文档关键词;
所述确定模块,还用于在所述目标维度的所述文档关键词与所述目标维度的所述搜索关键词匹配的情况下,确定所述候选文档与所述搜索关键词匹配。
8.根据权利要求7所述的文档查询装置,其中,所述获取模块,具体用于:
响应于用户操作,确定搜索文本和搜索场景;
查询所述搜索场景适用的提取策略;
对所述搜索文本采用所述搜索场景适用的提取策略进行关键词提取,以得到所述搜索关键词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011380049.6/1.html,转载请声明来源钻瓜专利网。





