[发明专利]一种基于分层强化学习的聚合式搜索排序方法在审

申请号：	202110862739.3	申请日：	2021-07-29
公开（公告）号：	CN113609254A	公开（公告）日：	2021-11-05
发明（设计）人：	张寅;杨璞;何水兵	申请（专利权）人：	浙江大学
主分类号：	G06F16/33	分类号：	G06F16/33;G06F40/289;G06K9/62;G06N3/04;G06N3/08
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	傅朝栋;张法高
地址：	310058 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于分层强化学习聚合搜索排序方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于分层强化学习的聚合式搜索排序方法，其特征在于，步骤如下：

S1、从已标注数据中获取包括查询、搜索结果以及垂直领域描述在内的文本信息，得到文本信息的特征表示；

S2、基于S1中得到的已标注数据以及已标注数据中文本信息的低维特征表示，构建聚合式搜索排序的模拟器；

S3、利用S2中构建的模拟器训练分层强化学习模型；

S4、在搜索引擎中，利用S3中训练后的分层强化学习模型确定聚合式搜索排序策略，实现聚合式搜索排序。

2.如权利要求1所述的基于分层强化学习的聚合式搜索排序方法，其特征在于，所述S1的具体实现方法如下：

S11、获取原始的已标注数据，其中包括文本信息和标注信息，文本信息包括聚合式搜索排序问题场景下的查询、这些查询在垂直领域搜索引擎得到的搜索结果以及各个垂直领域的描述，标注信息为各个垂直领域与查询是否相关的标注以及各个搜索结果与查询的相关度打分；

S12、构建并训练Doc2vec模型，模型输入为进行预处理后的文本信息，输出为文本信息对应的低维特征表示；

S13、将已标注数据中的文本信息输入训练后的Doc2vec模型中，获得已标注数据中的文本信息的低维特征表示。

3.如权利要求2所述的基于分层强化学习的聚合式搜索排序方法，其特征在于，所述S12中，文本信息的预处理包括去除停用词和分词。

4.如权利要求1所述的基于分层强化学习的聚合式搜索排序方法，其特征在于，所述S2的具体实现方法如下：

S21、基于S1中得到的已标注数据以及已标注数据中文本信息的低维特征表示，构建聚合式搜索排序的模拟器；再将该模拟器的输入设定为分层强化学习模型采取的动作Action即下一个位置应该选择哪一个搜索结果，模拟器的输出有两个，其中第一个输出为强化学习模型需要的下一个状态，即当前页面搜索结果与垂直领域的排序状态和对应的特征表征、以及可选的搜索结果与垂直领域候选集和对应的特征表征；第二个输出为在强化学习模型做了动作Action后获得的奖赏信号，即由模拟器计算得到的评价指标的增值。

5.如权利要求1所述的基于分层强化学习的聚合式搜索排序方法，其特征在于，所述S3的具体实现方法如下：

利用S2中构建的模拟器训练分层强化学习模型，使其产生合适的排序策略；其中所述分层强化学习模型分为Agent和Environment两个部分，Agent旨在通过与Environment的长期交互获得最大的长期累积收益；Agent的输入为查询、页面当前状态、待排序的搜索结果与待排序的垂直领域，输出为排序策略；Environment为所述模拟器，输入为Agent输出的排序策略给出的排序动作Action，排序后根据页面情况向Agent反馈当次动作的收益以及新的页面、新的待排序搜索结果与垂直领域；不断循环Agent和Environment之间的交互，直至整个页面排序完毕后，Environment会给出新的查询以及搜索结果与垂直领域候选集，Agent则进行下一轮的排序。

所述Agent分为两层及状态表征模块，上层为垂直领域排序器，负责垂直领域的排序，其输入为由状态表征模块编码的查询、已排序的垂直领域、已排序的搜索结果及候选的垂直领域信息，根据当前排序策略选择一个垂直领域，并根据最终反馈的收益，调整排序策略；下层为垂直领域内搜索结果排序器，负责对特定垂直领域内搜索结果进行排序，输入为查询、当前需要排序的垂直领域、在当前垂直领域中已排序的搜索结果以及待排序的搜索结果，根据当前策略选择一个搜索结果作为分配方案交给Environment进行实施，并根据反馈的收益，调整排序策略；

所述状态表征模块分为Encoder和Decoder两部分，Encoder的每一个时间步输入为查询、当前时间步选择的垂直领域、当前时间步选择的搜索结果的特征的拼接，输出为查询、所有已选择的垂直领域与已排序的搜索结果的低维表示即Agent上层强化学习所需要的状态表征，Decoder的输入为Encoder所得的低维表示，输出为该低维表示的解析结果即Encoder输入的近似表达。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江大学，未经浙江大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110862739.3/1.html，转载请声明来源钻瓜专利网。

上一篇：磨边系统的控制方法、控制装置、磨边系统及存储介质
下一篇：互动教学的处理方法、装置、计算机设备和存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于分层强化学习的聚合式搜索排序方法在审

专利文献下载