[发明专利]一种基于张量分解的随机森林优化方法及系统在审

申请号：	201510683060.2	申请日：	2015-10-20
公开（公告）号：	CN105389585A	公开（公告）日：	2016-03-09
发明（设计）人：	李俊杰	申请（专利权）人：	深圳大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	深圳市恒申知识产权事务所(普通合伙) 44312	代理人：	王利彬
地址：	518060 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于张量分解随机森林优化方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及数据挖掘领域，尤其涉及一种基于张量分解的随机森林优化方法及系统。

背景技术

目前基于聚类的集成学习机优化方法需要衡量两个基分类器预测结果的相似性以及它们之间的多样性，这些衡量指标在集成学习机的优化过程中起着至关重要的作用，然而多样性在实际中难以衡量，且多样性与集成学习机预测性能间的有效联系也较难建立。

随机森林因其能显著提高一个学习系统的泛化能力而得到机器学习界的广泛关注。运用随机抽样技术获取多个有多样性差异的样本，并在这些自助样本上训练多个决策树的集合。随着决策树数目的不断增加，随机森林的分类错误率逐渐下降。

为了获取最优的分类性能，通常需要构造大量的决策树。但同时随机森林算法的时间复杂度和空间复杂度都会逐渐升高，而其预测效率明显下降，这对于在线学习更是一个严重的问题。

因此，如何大幅度提高预测效率一直以来就是业界亟需改进的目标。

发明内容

有鉴于此，本发明实施例的目的在于提供一种基于张量分解的随机森林优化方法及系统，旨在解决现有技术中机器学习界预测效率较低的问题。

本发明实施例是这样实现的，一种基于张量分解的随机森林优化方法，包括：

读入训练数据集作为初始训练集；

基于所述初始训练集采用预设随机抽样方法获取新的训练集以形成随机森林训练集，其中，所述随机森林训练集包括采用随机子空间技术训练决策树模型；

基于所述随机森林训练集中的决策树模型构建张量模型；

利用预设张量分解技术对所述张量模型进行分解；

将分解后的张量进行调整以得到调整后的张量；

在调整后的张量中选取具有整体最优的决策树子集作为最优基分类器子集；以及

利用测试样本集对所述最优基分类器子集进行测试。

优选的，所述预设随机抽样方法包括Bootstrap随机抽样方法，所述预设张量分解技术包括HOSVD高阶张量分解技术。

优选的，所述基于所述随机森林训练集中的决策树模型构建张量模型的步骤具体包括：

利用宽度优先遍历法逐个访问所述决策树模型中决策树的分裂节点；

统计各个分裂节点内包含的样本类标；

利用多数投票机制确定本节点中每个样本的投票频数；以及

将投票频数作为构建张量模型的基本元素进行构建张量模型。

优选的，所述将分解后的张量进行调整以得到调整后的张量的步骤具体包括：

利用设置截断参数对张量分解得到的奇异值矩阵进行截断调整；以及

将截断后的奇异值矩阵和核心张量重新计算得到调整后的张量。

优选的，所述在调整后的张量中选取具有整体最优的决策树子集作为最优基分类器子集的步骤具体包括：

将调整后的张量做tree-mode展开；

按照每个决策树对应的元素进行统计，删除小于预设阈值的决策树；

将剩余决策树子集通过Pruning样本集进行测试；以及

选取具有整体最优的决策树子集作为最优基分类器子集。

另一方面，本发明还提供一种基于张量分解的随机森林优化系统，包括：

读取模块，用于读入训练数据集作为初始训练集；

随机森林训练模块，用于基于所述初始训练集采用预设随机抽样方法获取新的训练集以形成随机森林训练集，其中，所述随机森林训练集包括采用随机子空间技术训练决策树模型；

张量构建模块，用于基于所述随机森林训练集中的决策树模型构建张量模型；

张量分解模块，用于利用预设张量分解技术对所述张量模型进行分解；

张量调整模块，用于将分解后的张量进行调整以得到调整后的张量；

最优子集选取模块，用于在调整后的张量中选取具有整体最优的决策树子集作为最优基分类器子集；以及

测试模块，用于利用测试样本集对所述最优基分类器子集进行测试。

优选的，所述预设随机抽样方法包括Bootstrap随机抽样方法，所述预设张量分解技术包括HOSVD高阶张量分解技术。

优选的，所述张量构建模块具体包括：

节点访问子模块，用于利用宽度优先遍历法逐个访问所述决策树模型中决策树的分裂节点；

类标统计子模块，用于统计各个分裂节点内包含的样本类标；

频数统计子模块，用于利用多数投票机制确定本节点中每个样本的投票频数；以及

构建子模块，用于将投票频数作为构建张量模型的基本元素进行构建张量模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于深圳大学，未经深圳大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510683060.2/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于计算机视觉自动检测虾体完整性的方法
下一篇：一种人体姿态估计方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于张量分解的随机森林优化方法及系统在审

专利文献下载