[发明专利]机器学习模型的透视分析方法在审
申请号: | 201710234314.1 | 申请日: | 2017-04-12 |
公开(公告)号: | CN107103365A | 公开(公告)日: | 2017-08-29 |
发明(设计)人: | 邹霞 | 申请(专利权)人: | 邹霞 |
主分类号: | G06N99/00 | 分类号: | G06N99/00;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器 学习 模型 透视 分析 方法 | ||
技术领域
本发明涉及一种机器学习模型的透视分析方法,属于互联网搜索领域。
背景技术
随着互联网的快速发展,搜索引擎成为人们使用 Internet 信息资源的重要 工具。伴随 Google、Yahoo!、Bing、百度等搜索引擎的兴起和发展,查询结果的相关度越来越受到人们的关注。查询结果排序的优劣亦成为评价搜索引擎的主要指标。
随着信息技术快速发展和广泛应用,互联网得到了蓬勃发展,成为全球最大的信息资源,在人们的生活中已经占据了重要的位置。互联网也成为了人们进行信息共享和交互的重要平台。用户要在如此庞大杂乱的互联网资源中查找所需要的信息,就像大海捞针一样,而搜索引擎恰好解决了这一问题。搜索引擎是基于互联网平台,是提供网络信息检索服务的工具。搜索引擎也成为是互联网技术中最重要的应用。用户给出关键词作为查询请求,搜索引擎根据用户查询在自己的索引数据库中进行查询,并将排序和相关性分析的检索结果返回给用户,帮助人们拒绝和忽略大量无关信息,从而起到信息导航的作用。而海量的信息数据则意味着海量的搜索结果。在实际应用中,大多数索引擎的用户只对返回结果的前几页进行浏览,很少关心排名较后的网页。具有强相关性的搜索结果应该排在比较靠前的位置,而弱相关性的搜索结果则应该排在比较靠后的位置。因此根据其相关性对查询结果进行排序成为搜索引擎的核心问题之一。搜索结果的相关性排序也成为评价搜索引擎性能的重要指标。
在搜索引擎排序问题中,使用一个多维的特征向量表示每个数据对(用户查询-查询结果)的相关属性和信息。抽取数据集中的部分数据对,并人为的标识每个数据对中查询结果和用户查询的相关性。使用已经标识的数据作为训练数据集来训练机器学习模型,并使用得到的机器学习模型来预测未知查询和查询结果的相关度。然而无论一个机器学习模型的理论基础多么强大,我们总可以在应用过程中发现其不时出现的错误。很多原因可以导致机器学习模型在应用过程中的预测错误,比如带有噪音或是比较极端的训练数据,比如不稳定的数据分布以及机器学习模型本身的缺陷等等。
然而针对提高机器学习模型预测准确性的研究过程中,我们面临的一个难题就是:机器学习模型在训练完成后变成了一个“黑盒子”,应用过程只是:对其提供一些输入,机器学习模型针对输入给出输出作为对输入的预测结果。我们在应用过程中完全无法获知机器学习模型的完成过程。机器学习模型内部的数据处理过程和结果计算过程对于我们来说是不可见的。因此面对错误的预测结果,我们常常难以判断应当如何调整机器学习模型的内部结构,以提高它的预测准确性。
为了提高机器学习模型的性能,通常的做法是不断收集错误的用户反馈数据作为额外的训练数据来重新建立新的学习模型。然而原始的学习模型在大部分的测试数据集中已经达到良好的效果。因为少量的反馈数据就需要重新建立新学习模型。这样会大大降低搜索的效率。而学习模型一旦建立,模型的修改就变得比较困难。
发明内容
鉴于上述现有技术的不足之处,本发明的目的在于提供一种机器学习模型的透视分析方法,包括:
步骤一、收集用户反馈的错误数据并抽取基本信息,抽取反馈数据中的相关信息生成特征空间向量;
步骤二、计算查询结果的分数,使用原始模型以及子模型对用户查询结果进行学习分类,得到分类结果即评价分数;
步骤三、对于每个用户查询,计算查询结果的nDCG值,根据机器学习模型训练结果可得到实际排序,根据查询结果与用户查询可得到理想排序。由实际排序和理想排序即刻得到该用户查询的nDCG的值;
步骤四、聚类,根据nDCG值变化趋势,获得每个查询的最优子模型,并根据子模型的相似度对用户查询进行聚类;
步骤五、抽取属性,分析每个类中的所有成员信息,并抽取某些属性作为这个类的特征空间向量;
步骤六、学习未知的用户查询,当给定一个未知的用户查询,分析其属性,并将该用户查询进行分类,从而得到该用户查询在进行学习时,对应的最优子模型。
优选的,上述步骤一收集的用户反馈数据中,包含一系列查询结果的属性信息。
优选的,上述步骤二使用原始的学习模型对每个查询结果进行学习,并可得到每棵决策树上分类的结果,以计算查询结果的分数。
优选的,上述步骤三中得到查询结果由每个决策树预测分类之后得到的排序结果,根据该查询结果与用户查询相关度,可以得到查询结果的理想排序。根据实际排序和理想排序,计算每个子模型nDCG的值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于邹霞,未经邹霞许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710234314.1/2.html,转载请声明来源钻瓜专利网。