[发明专利]文本类教育资源知识点预测模型获得方法及模型应用方法有效
申请号: | 201510289318.0 | 申请日: | 2015-05-29 |
公开(公告)号: | CN104820724B | 公开(公告)日: | 2017-12-08 |
发明(设计)人: | 沙龙;洪鹏宇;余海涛 | 申请(专利权)人: | 蓝舰信息科技南京有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京经纬专利商标代理有限公司32200 | 代理人: | 杨海军 |
地址: | 210000 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 教育 资源 知识点 预测 模型 获得 方法 应用 | ||
技术领域
本发明涉及文本类教育资源知识点预测模型获得方法及模型应用方法,属于智能知识点预测应用技术领域。
背景技术
在在线学习的互联网应用中,题库部分是资源核心部分,在线题库中文本类教育资源所包含的知识点是串通整个在线学习系统的基本单元,然而对题库中知识点的标注,需要比较高的知识门槛,需要专业的人员进行相关的培训才能完成,非常耗时,而且在准确性上经常出现问题,影响用户体验,在题库的收集、录入和使用中成为了很大的技术屏障。而且现有技术,没有针对题库类型文档进行制定化分析,并且现有成熟解决方案对该类型数据表现不佳,没有将公式和文字以及文字与文字之间的关系处理完全整合到系统中。
发明内容
针对上述技术问题,本发明所要解决的技术问题是提供一种文本类教育资源知识点预测模型获得方法,基于大数据分析方法,设计全新特征工程,能够获得稳定、有效的文本类教育资源知识点预测模型。
本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种文本类教育资源知识点预测模型获得方法,基于针对数据库中文本类教育资源的分析,获得知识点预测模型,包括如下步骤:
步骤001.将数据库中的各个文本类教育资源按照知识点进行分类,并将按知识点分类的各个文本类教育资源,分别导出为预设格式文本类教育资源,按知识点分类构成语料库;
步骤002.针对语料库中的各个预设格式文本类教育资源,分别提取各个预设格式文本类教育资源中的信息元,由分别对应于各个预设格式文本类教育资源的各个信息元,分别构成对应于各个预设格式文本类教育资源的词料,并且由分别对应于各个预设格式文本类教育资源的词料构成词料库;
步骤003.针对语料库中各个预设格式文本类教育资源,进行知识点分布统计,格式校验,合理度检验,更新语料库,并按语料库,针对词料库进行相应更新;
步骤004.根据预设的特定文本判别规则,获得词料库中的公式特定文本,并根据预设的公式字典和特殊词字典,针对词料库中的公式特定文本进行文字内容转换,更新词料库;
步骤005.根据预设分词分析法,针对词料库中的词料进行分词处理,获得分词结果,包括各个分词单元,以及分别对应于各个分词单元的分词数量,并针对分词结果进行存储;
步骤006.根据人为预设的中文停用词表,针对分词结果进行过滤,更新分词结果;
步骤007.根据预设加权统计算法,获得分词结果中各个分词分别对应的加权统计值,并按照加权统计值由高到低的顺序,针对分词结果中的分词进行排序,获得分词结果加权统计排序;
步骤008.根据预设的加权统计值阈值,获得分词结果加权统计排序中大于该加权统计值阈值的各个分词,构成待处理分词集;
步骤009.根据预设的聚类获取方法,获得待处理分词集中的各个聚类,根据预设聚类分析方法获得各个聚类的统计值,将各个聚类按其对应统计值由高到低顺序进行排序,并通过预设的统计值阈值,获得大于该统计值阈值的各个聚类,构成待处理聚类集;
步骤010.分别获得待处理聚类集中各个聚类中对应加权统计值最小的分词,构成删减分词集,针对待处理分词集,删除其中属于删减分词集的分词,获得筛检分词集;
步骤011.根据预设的知识点分层结构和预设级数的数据层级整理规则,针对筛检分词集中各个分词所对应的知识点,进行分层级数据整理,获得预设级数的层级知识点数据;
步骤012.根据预设嵌套特征选择方法,分别针对各级知识点数据进行特征选取,分别获得各级知识点数据的特征结果,并分别通过预设的分类器组装进行机器学习,分别建立获得各级知识点数据的知识点预测模型;
步骤013.针对各级知识点数据的知识点预测模型,分别进行模型评估,并根据预设嵌套特征选择方法调整建模过程中的加权统计值阈值和统计值阈值,直到达到预设的最优表现值,存储该最优表现值所对应的知识点预测模型,更新获得各级知识点数据的知识点预测模型。
作为本发明的一种优选技术方案:所述步骤001、步骤002和步骤003中,所述预设格式文本类教育资源为JSON格式文本类教育资源。
作为本发明的一种优选技术方案:所述步骤005中,所述预设分词分析法为NGRAM分词分析法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于蓝舰信息科技南京有限公司,未经蓝舰信息科技南京有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510289318.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种畜牧用可运输牲畜的清洁型洒水车
- 下一篇:双层同步液压升降畜禽车