[发明专利]用于为对象配置评分的方法以及决策支持系统无效
| 申请号: | 201180051458.4 | 申请日: | 2011-09-08 |
| 公开(公告)号: | CN103262104A | 公开(公告)日: | 2013-08-21 |
| 发明(设计)人: | S·克莱门孔;N·瓦亚蒂斯 | 申请(专利权)人: | 电信教育集团-巴黎电信学校 |
| 主分类号: | G06N5/02 | 分类号: | G06N5/02 |
| 代理公司: | 北京戈程知识产权代理有限公司 11314 | 代理人: | 程伟;王锦阳 |
| 地址: | 法国*** | 国省代码: | 法国;FR |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 对象 配置 评分 方法 以及 决策 支持系统 | ||
技术领域
本发明的领域为支持决策活动的基于知识的系统。
更特别地,本发明涉及用于为对象配置评分的方法。
背景技术
在各个领域中的许多活动,从金融到医学,需要评估风险以及做出决策:所做的决策可以是投资、依据特定的病理开始治疗病人、决策文件是否相关、由于产品的缺陷而拒绝产品,或仅仅是在两个或更多的可能性之间进行选择。
被称为“决策支持系统”的一系列计算机工具具有通过分析大量数据来帮助做出决策的目的。例如,掌握大量的金融数据,这样的系统试图确立是否应该进行投资。
位于数学与计算机科学之间的界面的监督分类的方法建议将待测试的情况通过将它们与二元标记,例如“好买家”对“资不抵债的买家”,“相关文件”和“非相关文件”,病人“健康”对“生病”或者产品“一致”对“不一致”相关联而进行分类。然而,这样的方法仅尝试预测对于一种情况最有可能的标记。犯错误的风险仅降低了些许。
评分/排名的方法提出了另外一种途径:这些方法的目的是学习如何排序分类/整理这些情况,使得大量的“好买家”或“相关文件”居于具有最大可能性的列表的顶端。
整理多元观测的最自然的方式是使用评分函数,给每一种观测的情况(新的或不是新的)分配一个数值—一个“评分”—可解释为风险或相关的度。该评分函数的质量通常使用功能性标准,即受试者操作特征(ROC)曲线来评估,该受试者操作特征曲线能够非常直观地显示与假正的比率(rate of false positive)有关的真正的比率(true positive rate)。在信息检索中广泛使用的召回精度曲线是当正标记数据的比率非常高或非常低时来可视化判别结果的类似途径。
虽然已知很多高维数据的监督分类法的强大算法(CART、SVM、推进(boosting)、随机森林),但远没有“机器学习”类型的算法被专用于评分的问题。在大多数应用中,该途径使用传统的统计方法,例如逻辑回归(线性)或线性判别分析,主要基于手动数据预处理,例如对观测分布的建模、信息的截断等等。这些途径还面对着由与增加额外的维度(“维度灾难”)有关的在数据量中的指数增长引起的问题。此外,二元分类方法有时不正确地将“与边缘的距离”用作评分。
因此产生了改进基于机器学习的评分方法的需要。
发明内容
为了这些目的,本发明提供一种用于为由来自于多维空间的目标项表示的对象配置评分的方法,所述评分代表对象满足给定二元属性的概率,所述方法在包括连接至存储装置的处理装置的计算机环境中执行,包括以下步骤:
(a)配置并在存储装置中存储代表来自所述多维空间的样本项的集合的数据,每个样本项与表明由所述示例项表示的对象是否满足给定二元属性的二元标记相关联;
(b)在存储装置中存储代表目标项的数据;
(c)利用所述处理装置,生成并在所述存储装置中存储代表具有给定高度的定向二叉树的数据,所述二叉树由多个节点定义,所述节点具有与它们在二叉树中的位置有关的指数值,所述节点包括根节点、中间节点和终端节点,并且每个节点根据以下规则与多维空间的子空间相关联:
—如果节点为根节点,相关联的子空间是整个多维子空间;
—如果节点为非终端节点,它的相关联的子空间被分解为两个分离的子空间ε+和ε-,该子空间ε+和ε-分别与所述非终端节点的第一子节点和第二子节点相关联,所述分解由处理单元根据最小化与属于子空间ε+的第一给定标记值相关联的样本项的数目和/或与属于子空间ε-的第二给定标记值相关联的样本项的数目的分类器来执行,所述第二标记值代表着由所述样本项表示的对象
满足给定二元属性的概率高于所述第一给定标记值;
(d)利用所述处理装置,根据评分在二叉树中的指数值,将所述评分与二叉树的至少每个终端节点相关联,并且将所述评分存储在存储装置中;
(e)利用所述处理装置,识别目标节点,所述目标节点为相关联的子空间包括目标项的终端节点;以及
(f)输出与所述目标节点相关联的评分值。
该方法能够产生优越的性能(通过大量仿真使性能显著),其源于的事实为该方法实际解决了提出的功能性的优化问题:它构建了递归评分函数,所述评分函数收剑于渐增地靠近优化的ROC曲线的自适应估计。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电信教育集团-巴黎电信学校,未经电信教育集团-巴黎电信学校许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201180051458.4/2.html,转载请声明来源钻瓜专利网。





