[发明专利]基于图形处理单元的并行排序学习方法及系统有效

专利信息
申请号: 201310632348.8 申请日: 2013-11-29
公开(公告)号: CN103605493A 公开(公告)日: 2014-02-26
发明(设计)人: 叶允明;范希贤;黄晓辉 申请(专利权)人: 哈尔滨工业大学深圳研究生院
主分类号: G06F7/08 分类号: G06F7/08
代理公司: 深圳市科吉华烽知识产权事务所(普通合伙) 44248 代理人: 于标
地址: 518000 广东省深*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 图形 处理 单元 并行 排序 学习方法 系统
【说明书】:

技术领域

发明涉及基于互联网的数据处理方法及系统,尤其涉及基于图形处理单元的并行排序学习方法及系统。

背景技术

随着网络技术的发展,信息获取变得越来越容易.但从海量且日新月异的互联网上检索信息,在检索过程中还要满足用户所需的响应时间和结果准确度,变得越来越困难。搜索引擎是从海量数据获取有用的信息的一个重要手段.而如何为用户返回与其查询最相关的信息,是搜索引擎发展和吸引用户的一个重要决定因素。

商业搜索引擎和推荐系统普遍存在排序问题,互联网搜索引擎提供商的竞争日趋白热化,搜索引擎对于任意查询能有TB甚至PB量级的规模,每天可能达到亿次级的查询规模。每次查询的返回结果靠人工专家去分类判定然后给出排序结果是不现实的,排序最终归为人工智能问题。

排序学习是一种机器学习任务:查询集和每个查询的一系列文档作为输入,通过训练一个系统在未知等级的测试集上获取最优化的预计排名作为输出。排序学习的提出在互联网搜索、商务网站推荐等领域都引起研究工作者的兴趣与深入研究。研究人员在研究信息检索中发掘各种新问题新技术并在历届的SIGIR会议上发表探讨,近些年来,排序学习在该会议上是一个热门的研究问题,同时互联网大规模的信息对于排序学习算法的性能是一个重大的挑战,也是排序学习算法后续研究工作的一个方向。

但是,目前技术在排序学习中出现了由于海量数据导致计算速度慢的问题。

发明内容

为了解决现有技术中的问题,本发明提供了一种基于图形处理单元的并行排序学习方法。

本发明提供了一种基于图形处理单元的并行排序学习方法,包括如下步骤:

构建查询及文档偏序对:针对每个查询,根据训练集中文档与查询的相关度构建出文档偏序对,每一个文档偏序对为一个模型的训练样本,根据每一个查询的相关度列表构建成文档偏序对集;

模型参数训练:根据文档偏序对集估计模型参数,通过估计评分函数中关于每个特征的权重参数取值;

文档评分:根据模型参数训练步骤中估计出的模型参数和文档评分函数计算每个文档的得分;

文档排序:根据每个文档的得分,选择排序算法对文档进行排序,然后把排序后的结果提供给查询用户。

作为本发明的进一步改进,在所述构建查询及文档偏序对步骤中,在训练样本中,每一个查询对应一个文档列表,列表中给出文档与查询语句的相关度;在所述文档评分步骤中,采用线性评分模型,其评分模型函数为公式中,Θi为模型参数向量中的第i维,fji文档dj中的第i个特征值;在所述文档排序步骤中,采用双调排序对文档进行排序。

作为本发明的进一步改进,在所述模型参数训练步骤中,采用最大似然方法估计模型参数,似然函数为:

公式中,q是查询集Q中的一个查询,Θ为要估计的模型参数,i、j分别为第i、j个文档,(q,i,j)表示第q个查询项,由第i、j个文档组成的查询及文档偏序对,DS为所有查询及文档偏序对样本集,δ为指示函数,为在模型参Θ下产生查询及文档偏序对的概率。

作为本发明的进一步改进,在所述构建查询及文档偏序对步骤中,针对每个查询开启一个核函数的线程,采用基于图形处理的多线程并行构建查询及文档偏序对;在所述模型参数训练步骤中,针对于每个查询及文档偏序对开启一个核函数的线程,采用基于图形处理的多线程并行更新模型参数;在文档评分步骤中,针对于每个文档开启一个核函数的线程,采用基于图形处理的多线程并行文档评分。

本发明还公开了一种基于图形处理单元的并行排序学习系统,包括:

并行构建查询及文档偏序对模块:用于针对每个查询,根据训练集中文档与查询的相关度构建出文档偏序对,每一个文档偏序对为一个模型的训练样本,根据每一个查询的相关度列表构建成文档偏序对集;

并行模型参数训练模块:根据文档偏序对集估计模型参数,通过用于估计评分函数中关于每个特征的权重参数取值;

并行文档评分模块:用于根据模型参数训练步骤中估计出的模型参数和文档评分函数计算每个文档的得分;

并行文档排序模块:用于根据每个文档的得分,选择排序算法对文档进行排序,然后把排序后的结果提供给查询用户。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学深圳研究生院,未经哈尔滨工业大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310632348.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top