[发明专利]样本标签不确定情况下的边界树K近邻决策方法及系统在审
申请号: | 202010099512.3 | 申请日: | 2020-02-18 |
公开(公告)号: | CN111401402A | 公开(公告)日: | 2020-07-10 |
发明(设计)人: | 曹健 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/10 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 胡晶 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 标签 不确定 情况 边界 近邻 决策 方法 系统 | ||
本发明提供了一种样本标签不确定情况下的边界树K近邻决策方法及系统,包括:初始化步骤:在样本集合中任选一个样本作为生成边界树的起始结点,所述生成边界树的起始结点也是边界树的根结点;遍历步骤:从根结点开始,按照预设规则寻找遍历的终止结点;决策步骤:对待预测结点进行预测分类;结束步骤:对预测分类进行判定。本发明的算法能够处理对样本的标签具有不同意见的情形,同时具有较快的决策速度;本发明通过边界树整个遍历路径上的所有节点的标签信息进行决策,提高决策的正确性。
技术领域
本发明涉及机器学习技术领域,具体地,涉及一种样本标签不确定情况下的边界树K近邻决策方法及系统。
背景技术
K近邻决策方法作为一种典型的机器学习算法被广泛应用各种场景。K近邻决策方法的流程是:对于一个容量给定的样本集合以及一个待预测的样本,在样本集合中找到与待预测样本最相似的K个近邻,再根据这些近邻的标签来对待预测样本进行决策。
传统的K近邻决策方法有以下两个问题:
1、忽略了近邻样本标签的不确定性:许多现实问题中每一个样本可能不同的专家标注了不同的标签;
2、K近邻决策方法具有较高的时间复杂度:待预测样本需要与每个历史样本计算相似性,过大的样本集合会引起极大的延长计算耗时。
本发明通过模型对样本标签专家意见的一致程度进行分析,确定其标签的不确定性。在量化样本标签不确定性的基础上,本发明构造了一种样本标签不确定感知的边界树算法。
普通的边界树算法是一种基于贪心策略的快速K近邻决策方法,它有两个问题:
1、遍历的过程中没有考虑样本标签的不确定性;
2、对节点进行预测时仅仅遍历终止时的叶子结点的分类进行预测。
本发明提出了一种样本标签不确定情况下的边界树构造算法,并通过整个遍历路径上的所有节点的标签信息进行决策。
专利文献CN110674883A(申请号:201910936977.7)公开了一种基于k近邻和概率选择主动学习方法,包括,基于工业化控制平台系统获取相应数据,设置近邻k,并计算代表样本个数;评估样本,并对其进行人工标记;更新GPR模型和训练集,迭代直到模型精度;所述设置近邻k,并计算代表样本个数的步骤包括:将训练集分为有标签样本集和无标签样本集;设置邻域样本数量k;根据k值计算无标签样本集中所要标记的代表样本个数。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种样本标签不确定情况下的边界树K近邻决策方法及系统。
根据本发明提供的样本标签不确定情况下的边界树K近邻决策方法,包括:
初始化步骤:在样本集合中任选一个样本作为生成边界树的起始结点,所述生成边界树的起始结点也是边界树的根结点;
遍历步骤:从根结点开始,按照预设规则寻找遍历的终止结点;
决策步骤:对待预测结点进行预测分类;
结束步骤:对预测分类进行判定。
优选地,所述遍历步骤包括:从根结点开始,按照预设规则在结点集合中进行结点转移;
所述结点集合包括当前遍历到的结点和所有孩子结点;
根据结点集合中的每一个结点与待预测结点的距离和结点与标签不确定性,找到符合预设的结点作为本次遍历的终止结点。
优选地,所述遍历步骤包括:以递归的方式执行,当当前遍历的终止结点与上一次遍历的终止结点保持一致时,或者当当前遍历的终止结点是边界树的叶子结点时,终止遍历步骤并执行决策步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010099512.3/2.html,转载请声明来源钻瓜专利网。