[发明专利]一种基于分层强化学习的聚合式搜索排序方法在审
| 申请号: | 202110862739.3 | 申请日: | 2021-07-29 | 
| 公开(公告)号: | CN113609254A | 公开(公告)日: | 2021-11-05 | 
| 发明(设计)人: | 张寅;杨璞;何水兵 | 申请(专利权)人: | 浙江大学 | 
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/289;G06K9/62;G06N3/04;G06N3/08 | 
| 代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 傅朝栋;张法高 | 
| 地址: | 310058 浙江*** | 国省代码: | 浙江;33 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 基于 分层 强化 学习 聚合 搜索 排序 方法 | ||
本发明公开了一种基于分层强化学习的聚合式搜索排序方法。本发明采用分层强化学习获得的针对聚合式搜索排序问题的排序策略,可以较大地提升页面内容与查询的相关性。本发明包括如下步骤:1)首先从已标注数据中获取查询、搜索结果,得到它们的特征表示;2)构建聚合式搜索排序模拟器;3)利用模拟器训练分层强化学习模型;4)通过分层强化学习方法确定聚合式搜索排序策略,在搜索引擎中进行应用。和现有技术相比,本发明结合了分层强化学习方法,系统地对聚合式搜索排序问题进行建模,针对不同查询的特征选择合适的搜索结果,形成特别的聚合式搜索排序方法,创造性地提升了排序的工作效率和效果。
技术领域
本发明涉及分层强化学习方法在聚合式搜索排序技术上的应用,尤其涉及聚合式搜索系统中垂直领域遴选排序、搜索结果遴选排序的方法。
背景技术
在互联网高速发展的今天,人们产生与获取信息的成本正在逐步降低。但也正因如此,“信息过载”颇为常见,如何高效获取有效信息成为了人们广泛关注的问题。传统搜索引擎通常采用网页搜索的方式,返回的页面只包含纯文字的网页信息。这类页面固然包含了有效信息,但其内容形式单一,界面单调,未经聚合整理,往往没有考虑用户对搜索结果类型多样性及对信息条理性的需求。而聚合式搜索则补足了网页搜索的缺点。其返回的页面不仅包含纯文字的网页信息,还会包含对图片、视频等垂直领域的搜索结果。这些搜索结果经过聚合、筛选,以内容块的形式呈现给用户。丰富的异质信息满足了用户多样的需求,提升了用户的检索效率。
在聚合式搜索系统中,搜索排序的质量好坏很大程度地影响了页面质量。不好的排序方法给用户呈现大量冗余信息,极大降低用户获取信息的效率;相反,良好的排序方法将给用户带来一个清晰的页面,其中不仅包含充分的相关信息还充分考虑了信息之间的相关性、多样性,提高用户获取信息的效率的同时还能尽可能多的满足不同用户的需求。
发明内容
本发明的目的在于解决现有技术中存在的问题,并提供一种基于分层强化学习的聚合式搜索排序方法。
本发明具体采用的技术方案如下:
一种基于分层强化学习的聚合式搜索排序方法,其步骤如下:
S1、从已标注数据中获取包括查询、搜索结果以及垂直领域描述在内的文本信息,得到文本信息的特征表示;
S2、基于S1中得到的已标注数据以及已标注数据中文本信息的低维特征表示,构建聚合式搜索排序的模拟器;
S3、利用S2中构建的模拟器训练分层强化学习模型;
S4、在搜索引擎中,利用S3中训练后的分层强化学习模型确定聚合式搜索排序策略,实现聚合式搜索排序。
作为优选,所述S1的具体实现方法如下:
S11、获取原始的已标注数据,其中包括文本信息和标注信息,文本信息包括聚合式搜索排序问题场景下的查询、这些查询在垂直领域搜索引擎得到的搜索结果以及各个垂直领域的描述,标注信息为各个垂直领域与查询是否相关的标注以及各个搜索结果与查询的相关度打分;
S12、构建并训练Doc2vec模型,模型输入为进行预处理后的文本信息,输出为文本信息对应的低维特征表示;
S13、将已标注数据中的文本信息输入训练后的Doc2vec模型中,获得已标注数据中的文本信息的低维特征表示。
作为优选,所述S12中,文本信息的预处理包括去除停用词和分词。
作为优选,所述S2的具体实现方法如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110862739.3/2.html,转载请声明来源钻瓜专利网。





