[发明专利]一种基于梯度提升树的慕课论坛主题分类方法在审
申请号: | 201810537535.0 | 申请日: | 2018-05-30 |
公开(公告)号: | CN108829776A | 公开(公告)日: | 2018-11-16 |
发明(设计)人: | 王飞龙;冯林;卢惠民 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 大连星海专利事务所有限公司 21208 | 代理人: | 裴毓英 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 主题分类 用户行为特征 论坛用户 组合特征 论坛 方法使用 逻辑回归 人工筛选 人工设计 先验知识 行为数据 行为特征 用户行为 融合 分类器 热编码 准确率 样本 分类 记录 | ||
本发明公开了一种基于梯度提升树的慕课论坛主题分类方法。首先收集并记录慕课论坛用户的行为数据,设计并提取慕课论坛的用户行为特征,使用梯度提升树对用户行为特征进行融合,得到判别能力更强的用户行为组合特征,然后使用独热编码对该特征进行编码,最后使用逻辑回归分类器对样本进行分类。本发明方法使用梯度提升树对慕课论坛用户行为特征进行融合,不需要人工筛选、划分、组合特征,从而降低人工设计特征所需的成本。并且该方法无需数据的先验知识,提高了慕课论坛主题分类的效率和准确率。
技术领域
本发明涉及数据挖掘领域,尤其涉及一种基于梯度提升树的慕课论坛主题分类方法。
背景技术
大规模在线教育(Massive open online Course,MOOC)简称慕课,是一种新兴的在线教育模式,受到世界各国的学习者的热烈推崇。慕课论坛主题是用户针对课程发表的问题,包括作业、讨论、课程反馈、交友等主题类别,自动准确地为海量的论坛主题数据分类是提高在线教育课程质量的关键方法之一。不同课程论坛内容差异巨大且论坛交流语言多样,导致基于自然语言处理的传统数据挖掘技术不再适用。不同类别的论坛主题用户行为特征差别巨大,如作业类别的主题和交友类别的主题在帖子数量、得到的点赞数量、浏览次数等方面有很大的差异,因此用户行为特征可以作为论坛主题的分类依据。
如何根据现有慕课论坛用户行为数据设计和筛选出有区分性的用户行为特征需要极大的工作量与极强的先验知识。梯度提升树的每一个分支都是对特征的选择和划分,每一个分支都可以被看作是一个新的特征。每一个决策节点对特征进行筛选都是基于上一个特征对于数据集划分的结果,因此大多数时候都能筛选出符合人们认知的重要特征,从而降低人工设计特征所需的成本
发明内容
本发明实施例提供一种基于梯度提升树的慕课论坛主题分类方法,该方法利用梯度提升树得到判别能力更强的用户行为组合特征。使用梯度提升树对慕课论坛用户行为特征进行融合,不需要人工筛选、划分、组合特征,从而降低人工设计特征所需的成本,提高慕课论坛主题分类效率。
本发明提供的一种基于梯度提升树的慕课论坛主题分类方法,包括以下步骤:
步骤S101:收集并记录慕课论坛用户的行为数据,设计并提取慕课论坛用户的行为特征;通过提取与文本信息无关的慕课论坛用户行为特征,获得不同论坛板块下主题的交互特点;
步骤S102:根据不同论坛主题的特点,使用梯度提升树对用户特征进行融合,得到判别能力更强的组合特征;
步骤S103:使用独热编码对组合特征进行编码,将编码结果作为样本的特征表示,使用逻辑回归分类器和新特征实现对论坛主题的有效分类。
优选的,所述步骤S102,根据不同论坛主题的特点,使用梯度提升树对用户行为特征进行融合,得到判别能力更强的组合特征。
优选的,利用梯度提升树发现有区分性的特征和组合特征,通过前一个强学习器的损失函数的负梯度来指导下一个基学习器的训练,从而不断提高组合而成的强学习器的分类性能;
设最终训练得到的最优学习器估计为F*(x),则F*(x)满足如下公式:
其中xi,yi是第i个样本的特征和标签,L是损失函数,F(x)是多个基学习器组合的强学习器,组合规则如下:
h(x;θm)是第m个基学习器,θm是基学习器的参数,βm是基学习器的权重;通过不断迭代优化得到强学习器。
优选的,所述步骤S103:使用独热编码对组合特征进行编码,将编码结果作为样本的特征表示,使用逻辑回归分类器和新特征实现对慕课论坛主题的有效分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810537535.0/2.html,转载请声明来源钻瓜专利网。