[发明专利]关键词的权重计算方法、装置、计算机设备及存储介质在审
申请号: | 202110479324.8 | 申请日: | 2021-04-30 |
公开(公告)号: | CN113094473A | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 张聪;刘璐 | 申请(专利权)人: | 平安国际智慧城市科技股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F16/953;G06N3/04;G06N3/08 |
代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 武志峰 |
地址: | 518000 广东省深圳市前海深港合*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关键词 权重 计算方法 装置 计算机 设备 存储 介质 | ||
本发明实施例公开了一种关键词的权重计算方法、装置、计算机设备及存储介质。方法包括:获取用户输入的查询内容;然后对查询内容进行分词处理,得到查询内容对应的关键词;并将查询内容输入训练后的BERT网络模型进行双向语言表征处理,得到查询内容中每个字的字向量;根据关键词中每个字分别对应的字向量确定关键词对应的关键词向量;将关键词向量输入训练后的前馈神经网络模型,得到关键词对应的权重。本发明实施例中,获取到的关键词向量与查询内容中的上下文相关,为动态关键词向量,然后再根据前馈神经网络对该动态关键词向量的权重进行预测,得到关键词的动态权重,当该动态权重应用在搜索引擎中时,可以提高搜索引擎的召回率。
技术领域
本发明涉及互联网技术领域,尤其涉及一种关键词的权重计算方法、装置、计算机设备及存储介质。
背景技术
随着互联网的发展,互联网中的存储数据量非常大,因此为了使用户能够快速准确的找到所需要的数据内容,提供互联网搜索服务的厂商就需要对搜索引擎的搜索质量进行优化。其中,关键词权重是搜索引擎给予搜索内容的一个的评估值,这个权重可以反映出关键词的重要程度,权重越高,说明该关键词越得到重视。
在用户使用搜索引擎的过程中,会在搜索框中提交査询内容,这些查询内容通常称之为query,搜索引擎需要根据query在海量数据中获取有用信息,由于query中具有不同的关键词,其中,每个关键词对于获取查询结果而言其重要程度各不相同,因此若要根据query准确获取到查询结果就需要参考query中各个关键词的重要性,也就是需要利用query中关键词的权重进行结果的查询。
现有技术中,一般是使用基于统计学的词频-逆文本频率指数(Term Frequency–Inverse Document Frequency,TF-IDF)或者BM25等静态权重算法对关键词进行权重的计算,在这些静态权重算法中,每个关键词都有预设的对应权重,由于同一个关键词在不同的语境中,其权重可能是不一样的,如果都使用固定的权重,将会影响搜索引擎的召回效果。
发明内容
本发明实施例提供了一种关键词的权重计算方法、装置、计算机设备及存储介质,可以提高搜索引擎的召回率。
第一方面,本发明实施例提供了一种关键词的权重计算方法,其包括:
获取用户输入的查询内容;
对所述查询内容进行分词处理,得到所述查询内容对应的关键词;
将所述查询内容输入训练后的BERT网络模型进行双向语言表征处理,得到所述查询内容中每个字的字向量;
根据所述关键词中每个字分别对应的所述字向量确定所述关键词对应的关键词向量;
将所述关键词向量输入训练后的前馈神经网络模型,得到所述关键词对应的权重。
第二方面,本发明实施例还提供了一种关键词的权重计算装置,其包括用于执行上述方法的单元。
第三方面,本发明实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时可实现上述方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安国际智慧城市科技股份有限公司,未经平安国际智慧城市科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110479324.8/2.html,转载请声明来源钻瓜专利网。