[发明专利]一种基于Apriori算法的学生就业数据分析方法在审
申请号: | 201710180501.6 | 申请日: | 2017-03-23 |
公开(公告)号: | CN106952198A | 公开(公告)日: | 2017-07-14 |
发明(设计)人: | 宋丽萍;韦建国 | 申请(专利权)人: | 阜阳职业技术学院 |
主分类号: | G06Q50/20 | 分类号: | G06Q50/20;G06F17/30 |
代理公司: | 北京科家知识产权代理事务所(普通合伙)11427 | 代理人: | 莫文新 |
地址: | 236031 安徽省阜*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 apriori 算法 学生 就业 数据 分析 方法 | ||
技术领域
本发明涉及高校学生就业数据分析领域,尤其涉及一种基于Apriori算法的学生就业数据分析方法。
背景技术
计算机技术与信息技术的快速发展,对人类社会进步与发展产生了巨大影响。它使人类社会由工业化进入到信息化时代,同时随着现代人生活节奏的加快及技术的进步,人们获取信息数据也更容易,进而使数据的存储量急剧增加。然而,面对大量的杂乱数据,人们更加关注的并非数据本身,而是隐藏在数据背后的一些重要信息。面对这一挑战,数据挖掘应运而生。数据挖掘有许多研究方向,关联规则挖掘就是其中之一,它反映了大量数据之间存在的相关联系。
本发明是在针对典型的关联规则挖掘算法Apriori算法基础上,并将其关联规则挖掘的技术应用到学生就业数据的分析之中。通过对学生的相关成绩和就业数据的分析及研究,得到相关专业的学生就业与专业课程之间、学生综合测评及技能鉴定等之间存在的关系,以此为学校的学生就业提供参考依据,为学校的专业课程设置提供参考意见。
发明内容
为了克服现有技术的不足,本发明的目的在于提供一种基于Apriori算法的学生就业数据分析方法。
本发明技术方案一种基于Apriori算法的学生就业数据分析方法,其特征在于,包括以下步骤:
1)、为各个高校相关专业学生专业课成绩、学生综合测评成绩、技能鉴定及就业数据提供接口,实现将高校学生就业资源整合到高校学生就业资源联合检索平台上。
2)、将步骤101整合的事务数据库资源采用Apriori算法来生成子数据库,即通过挖掘数据之间的关联规则生成分级子数据库,具体步骤为:
A、预先设定最小支持数mincount,扫描事务数据库DB并计数得到C1,找出满足最小支持计数的1-频繁项集,记为L1;
B、重新组合L1中的项集产生候选集C2,再次扫描事务数据库,找出满足最小支持计数的2-频繁项集L2;
3)、根据步骤102中得到的频繁项集L2,由Apriori_gen(L2)重新组合L2中的项集产生候选集C3,删除候选集C3中不属于L2的候选项集;如此循环下去,直到不能找到新的频繁k-项集,即扫描事务数据库,发现Li为空集,则算法结束,最后得到的频集作为主数据库,然后利用所得到的分级子数据库及主数据库进行联合分析。得到相关专业的学生就业与专业课程之间、学生综合测评及技能鉴定等之间存在的关系,以此为学校的学生就业提供参考依据,为学校的专业课程设置提供参考意见。
本发明技术有益效果:
本发明提出一种基于Apriori算法的学生就业数据分析方法。通过对各个高校相关专业学生就业资源整合,利用Apriori算法,通过对学生的相关的成绩和就业数据的分析及研究,得到相关专业的学生就业与专业课程之间、学生综合测评及技能鉴定等之间存在的关系,以此为学校的学生就业提供参考依据,为学校的专业课程设置提供参考意见。
附图说明
图1为本发明的Apriori算法流程图,
图2为本发明的Apriori算法生成分级子数据库示意图,
图3为本发明的Apriori算法生成主数据库示意图。
具体实施方式
为便于本领域技术人员理解本发明技术方案,现结合说明书附图对本发明技术方案做进一步的说明。
本发明包括两个部分,第一部分是Apriori算法生成分级子数据库,即通过挖掘数据之间的关联规则生成分级子数据库。第二部分是Apriori算法生成主数据库,即在分级子数据库的基础上再利用Apriori算法进行关联规则的挖掘,获得最终的主数据库。
详细方案描述
1、Apriori算法生成分级子数据库
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。
Apriori算法使用层次顺序搜索的循环方法产生频繁项集,即用频繁k-项集探索产生(k+1)-项集。找出长度为1的频繁项集,记为L1,用于产生频繁2-项集L2的集合,而L2用于产生频繁3-项集L3的,如此循环下去,直到不能找到新的频繁k-项集。
假设图书电子资源事务数据库DB中包含4个事务,即|DB|=4,最小支持数mincount=2,即最小支持度minsup=2/4=50%。挖掘频繁项目集的具体过程如下所述:
(1)数据过滤
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阜阳职业技术学院,未经阜阳职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710180501.6/2.html,转载请声明来源钻瓜专利网。