[发明专利]一种基于文本挖掘的课程设置分析方法在审
申请号: | 202110287512.0 | 申请日: | 2021-03-17 |
公开(公告)号: | CN112861530A | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 张建桃;曾莉;韦婷婷;江涛;张大斌;凌立文;毛小娟 | 申请(专利权)人: | 华南农业大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06K9/62;G06F16/215;G06F16/2458;G06F16/26;G06F16/951;G06Q50/20 |
代理公司: | 广州赤信知识产权代理事务所(普通合伙) 44552 | 代理人: | 龚素琴 |
地址: | 510630 广东省广州市天河*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 挖掘 课程 设置 分析 方法 | ||
1.一种基于文本挖掘的课程设置分析方法,其特征在于,包括以下步骤:
步骤1:数据采集,根据确定的数据搜索关键词,从选定的招聘网站中采集研究专业的招聘要求数据和非研究专业的招聘要求数据;
步骤2:数据预处理,对采集的招聘要求数据进行预处理操作;
步骤3:知识点提取,提取招聘要求数据中的知识点,并构建知识词库;
步骤4:课程归类,对知识词库中的知识点进行聚类分析,并将分类后的知识点归类到课程,获得就业市场对该专业的课程需求。
2.根据权利要求1所述的一种基于文本挖掘的课程设置分析方法,其特征在于:所述步骤1的数据采集包括以下子步骤:
步骤1.1:制定采集规则,选定数据采集的招聘网站,确定研究专业的搜索关键词及非研究专业的搜索关键词、数据采集的网页页数、数据发布的时间段等;
步骤1.2:网络爬虫,根据制定的数据采集规则,通过网络爬虫技术爬取招聘网站中的招聘数据;
步骤1.3:采用正则表达式从获取的招聘数据中提取招聘要求字段的数据。
3.根据权利要求1所述的一种基于文本挖掘的课程设置分析方法,其特征在于:所述步骤2的数据预处理包括以下子步骤:
步骤2.1:数据清洗,对采集的数据进行数据清洗,清除数据中的空值、重复值、异常范值、HTML标签等数据噪声;
步骤2.1:构建自定义分词词典和停用词库,分词词典中包含研究专业领域的知识点词语,停用词库中包含无研究意义的词语;
步骤2.1:分词和去停用词,调用构建的自定义分词词典和停用词库,并结合现有的分词词典和停用词库对数据进行分词和去停用词处理。
4.根据权利要求1所述的一种基于文本挖掘的课程设置分析方法,其特征在于:所述步骤3的知识点提取包括以下子步骤:
步骤3.1:计算ASI值,将研究专业的就业要求数据作为目标集,非研究专业的就业要求数据作为辅助集,计算目标集中每个词语ωi的辅助集重要性ASI值,计算公式如下:
式中:df(ωi,TS)为目标集中包含ωi的文本数;df(ωi,AS)为辅助集中包含ωi的文本数;|TS|为目标集中文本的总数;|AS|为辅助集中文本的总数;
步骤3.2:提取知识点,根据ASI值的大小来提取知识点,ASI值越大,该词为知识点的概率越大。
步骤3.3:构建知识词库,把提取的知识点放入知识词库中。
5.根据权利要求1所述的一种基于文本挖掘的课程设置分析方法,其特征在于:所述步骤5的课程归类包括以下子步骤:
步骤4.1:明确各门课程的知识点,对研究专业的课程门类及每门课程涵盖的知识点进行明确;
步骤4.2:知识词库K-means聚类,使用K-means聚类算法对知识词库中的知识点进行聚类分析,K-means算法以样本与质心的平方误差和(SSE)的最小值作为目标函数,计算公式如下:
式中:K为聚类簇数,K的值通过肘部法则(Elbow Method)确定;Ci为第i个簇;ci为Ci的质心;x为Ci中的知识点样本;Ni为Ci中的样本数;
步骤4.3:知识点课程归类,参照已明确的各门课程知识点,将实现K-means聚类后的每一类知识点归类到大致所属的课程,进而获得就业市场对该专业的课程需求。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南农业大学,未经华南农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110287512.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种热自适应性模块、电池模组及电池包
- 下一篇:一种EGR阀在线检测平台