[发明专利]一种文本检索方法、装置、终端设备和存储介质在审
申请号: | 202211407833.0 | 申请日: | 2022-11-10 |
公开(公告)号: | CN115687574A | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | 李延;王志海;喻波;董晓斌 | 申请(专利权)人: | 北京明朝万达科技股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F16/38;G06N20/00 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 100142 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 检索 方法 装置 终端设备 存储 介质 | ||
本发明提供了一种文本检索方法、装置、终端设备及存储介质,该方法包括:获取目标检索文本;根据目标检索文本和预先建立的排序模型,确定与目标检索词对应的检索结果,检索结果至少包括排序参数和与排序参数对应的权重值;根据排序参数和与排序参数的权重值,对检索结果进行排序,得到与目标检索文本对应的目标检索结果,通过采用大量历史查询信息和与历史查询信息对应的文档信息,以及监督机器学习算法,得到排序模型,当获取到目标检索文本时,采用该排序模型,对检索结果中的各个文档进行排序,从而将与目标检索文本最接近的检索结果进行显示,不仅节省了人力物力,而且提高了检索匹配度。
技术领域
本发明涉及数据处理技术领域,特别是涉及一种文本检索方法、装置、终端设备和存储介质。
背景技术
随着科学技术的发展与进步,移动网络也逐步普及,这样就会产生海量数据,在这些海量数量中想要查找到需要的数据就尤为重要。
目前,在检索一个文本数据时,通常只能满足某一检索条件,这样,就只能满足少部分人群的检索需求,若想要查询到更加准确的数据,可以为各个检索条件设置不同的权重值,但是当检索需求发生变化时,需要人工调整权重值,这样,不仅消耗大量的人力物力,同时检索匹配度较低。
发明内容
本发明提供了一种文本检索方法及装置,以解决现有技术中对的文本检索响应较慢的问题。
为了解决上述问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种文本检索方法,包括:
获取目标检索文本;
根据所述目标检索文本和预先建立的排序模型,确定与所述目标检索词对应的检索结果,其中,所述预先建立的排序模型是采用监督机器学习方法对历史检索日志进行学习得到的;所述检索结果至少包括排序参数和与所述排序参数对应的权重值;
根据所述排序参数和与所述排序参数的权重值,对所述检索结果进行排序,得到与所述目标检索文本对应的目标检索结果。
可选地,所述排序参数至少包括发表时间、来源信息、浏览量信息、文章关键词、发表人名称、发表机构或领域分类信息中的一种或多种。
可选地,所述根据所述排序参数和与所述排序参数的权重值,对所述检索结果进行排序,得到与所述目标检索文本对应的目标检索结果,包括:
获取每一个检索结果的各个排序参数的分值;
根据所述排序参数的分值和与所述排序参数对应的权重值,确定每一个检索结果的排序分值;
根据所述每一个检索结果的排序分值的大小,对所述检索结果进行排序,得到与所述目标检索文本对应的目标检索结果。
可选地,所述根据所述排序参数的分值和与所述排序参数对应的权重值,确定每一个检索结果的排序分值,包括:
分别计算每一个排序参数的分值和与所述排序参数对应的权重值的乘积分值;
将一个所述乘积分值或多个所述乘积分值之和,确定为所述检索结果的排序分值。
可选地,所述预先建立的排序模型通过如下方式得到:
获取训练样本数据,其中,所述训练样本数据至少包括历史查询信息和与所述历史查询信息对应的文档信息;所述训练样本数据来自所述历史检索日志;
根据所述历史查询信息,获取所述文档信息的特征信息,其中,所述特征信息至少包括历史查询信息与所述文档信息之间的相关度,以及所述文档信息的特征数据和重要性信息;
采用监督机器学习方法,对所述特征信息进行机器学习,得到训练模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明朝万达科技股份有限公司,未经北京明朝万达科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211407833.0/2.html,转载请声明来源钻瓜专利网。