[发明专利]基于学生数据的行为趋势挖掘分析方法和系统在审
| 申请号: | 201810786269.5 | 申请日: | 2018-07-17 |
| 公开(公告)号: | CN109002532A | 公开(公告)日: | 2018-12-14 |
| 发明(设计)人: | 钱伟中;李晓瑜;何鑫;郑德生 | 申请(专利权)人: | 电子科技大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 成都华风专利事务所(普通合伙) 51223 | 代理人: | 徐丰;张巨箭 |
| 地址: | 611731 四川省*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 趋势图 挖掘 滑动平均 趋势分析 行为趋势 学生数据 训练结果 绘制 关联规则 拟合算法 趋势变化 时间节点 时间推移 数据分布 随机森林 行为表现 行为规则 训练数据 分析 非均衡 求平均 时间段 特征树 准确率 轮询 权重 分类 | ||
1.基于学生数据的行为趋势挖掘分析方法,其特征在于:包括基于滑动平均模型的趋势分析步骤和趋势图绘制步骤;
所述的基于滑动平均模型的趋势分析步骤用于轮询时间,在一定周期内在指定的时间节点训练数据,训练结果当做求平均的结果,包括以下子步骤:
S11:进行时间判断,当离上次训练开始时间间隔为所述一定周期时,进行本次训练;
S12:通过随机森林训练数据,获得各特征重要性;其中,每个特征重要性都存在一个趋势分析,每次训练结果对应的是滑动平均模型的平均值;
S13:通过FP-Growth获得特征、特征值以及标签间的支持度、置信度和提升度;其中,每个置信度和提升度都存在一个趋势分析,每次训练结果对应的是滑动平均模型的平均值;
所述的趋势图绘制步骤用于根据训练结果,绘制趋势图,包括以下子步骤:
S2:绘制各特征重要性趋势图、标签与某种特征构成的频繁二项集随特征值变化的置信度趋势图以及某特征对于标签的最高置信度对应的特征值随时间变化趋势图。
2.根据权利要求1所述的基于学生数据的行为趋势挖掘分析方法,其特征在于:所述的步骤S12包括以下子步骤:
S121:提取最近一段时间的数据作为本次训练样本;
S122:对随机森林各类型权重进行初始化对于数据集D;其中,各类数据集Dc的初始权重Wc0计算方法如下:
S123:通过随机森林迭代训练,更新各类型权重值;
S124:输出分类预测结果以及各特征重要性值。
3.根据权利要求2所述的基于学生数据的行为趋势挖掘分析方法,其特征在于:步骤S123包括以下子步骤:
S1231:使用随机森林训练测试集,获得预测结果;
S1232:判断各类型预测数量是否都大于零,如果是则进行步骤S1233,反之数量为零的权重乘以M并返回步骤S1231;
S1233:按照从多数类到少数类的顺序,依次对权重进行调整;其中,调整好的权重不参与调整,一次只调整一个权重,其他未调整的权重作为一个整体,同时调整前后权重之和不变;
S1234:权重调整终止条件,阈值判断,达到阈值则停止随机森林迭代并进入步骤S124,否则进入步骤S1235;其中,如果所有类型的Psk与Osk比值在0.85~1.15之间,则终止调整,其表达式如下:
S1235:根据权重计算公式,计算每次调整之后的权重,计算完成后返回步骤S1231;其中,第k次调整的系数分别为ak和bk,随机森林各类数据预测前后数据占总数量的比例分别为Osk和Psk,上次权重向量为Wk,则可得权重方程式如下:
式中,wsk的含义是按照权重大小从小到大排序后的第k个权重,S的含义是权重之和,s是排序的意思,m的含义是权重的总数;
最终ak和bk的表达式如下:
则第k次,权重向量Wk可以表示为:
Wk=(a1ws1,b1a2ws2,b1b2a3ws3,.·.,b1b2...bk-1wsk)。
4.根据权利要求1所述的基于学生数据的行为趋势挖掘分析方法,其特征在于:步骤S13包括以下子步骤:
S131:提取最近一段时间的数据作为本次训练样本;其中,只保留重要性在前N的特征;并且以‘特征1_特征值1’的格式来构成关联规则中的项;另外,对连续特征值通过凑整来划分区间来提高项的支持度;
S132:基于Map Reduce进行关联规则,获取特征与特征值间的置信度与提升度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810786269.5/1.html,转载请声明来源钻瓜专利网。





