[发明专利]文本类教育资源知识点预测模型获得方法及模型应用方法有效
申请号: | 201510289318.0 | 申请日: | 2015-05-29 |
公开(公告)号: | CN104820724B | 公开(公告)日: | 2017-12-08 |
发明(设计)人: | 沙龙;洪鹏宇;余海涛 | 申请(专利权)人: | 蓝舰信息科技南京有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京经纬专利商标代理有限公司32200 | 代理人: | 杨海军 |
地址: | 210000 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 教育 资源 知识点 预测 模型 获得 方法 应用 | ||
1.文本类教育资源知识点预测模型获得方法,其特征在于,基于针对数据库中文本类教育资源的分析,获得知识点预测模型,包括如下步骤:
步骤001.将数据库中的各个文本类教育资源按照知识点进行分类,并将按知识点分类的各个文本类教育资源,分别导出为预设格式文本类教育资源,按知识点分类构成语料库;
步骤002.针对语料库中的各个预设格式文本类教育资源,分别提取各个预设格式文本类教育资源中的信息元,由分别对应于各个预设格式文本类教育资源的各个信息元,分别构成对应于各个预设格式文本类教育资源的词料,并且由分别对应于各个预设格式文本类教育资源的词料构成词料库;
步骤003.针对语料库中各个预设格式文本类教育资源,进行知识点分布统计,格式校验,合理度检验,更新语料库,并按语料库,针对词料库进行相应更新;
步骤004.根据预设的特定文本判别规则,获得词料库中的公式特定文本,并根据预设的公式字典和特殊词字典,针对词料库中的公式特定文本进行文字内容转换,更新词料库;
步骤005.根据预设分词分析法,针对词料库中的词料进行分词处理,获得分词结果,包括各个分词单元,以及分别对应于各个分词单元的分词数量,并针对分词结果进行存储;
步骤006.根据人为预设的中文停用词表,针对分词结果进行过滤,更新分词结果;
步骤007.根据预设加权统计算法,获得分词结果中各个分词分别对应的加权统计值,并按照加权统计值由高到低的顺序,针对分词结果中的分词进行排序,获得分词结果加权统计排序;
步骤008.根据预设的加权统计值阈值,获得分词结果加权统计排序中大于该加权统计值阈值的各个分词,构成待处理分词集;
步骤009.根据预设的聚类获取方法,获得待处理分词集中的各个聚类,根据预设聚类分析方法获得各个聚类的统计值,将各个聚类按其对应统计值由高到低顺序进行排序,并通过预设的统计值阈值,获得大于该统计值阈值的各个聚类,构成待处理聚类集;
步骤010.分别获得待处理聚类集中各个聚类中对应加权统计值最小的分词,构成删减分词集,针对待处理分词集,删除其中属于删减分词集的分词,获得筛检分词集;
步骤011.根据预设的知识点分层结构和预设级数的数据层级整理规则,针对筛检分词集中各个分词所对应的知识点,进行分层级数据整理,获得预设级数的层级知识点数据;
步骤012.根据预设嵌套特征选择方法,分别针对各级知识点数据进行特征选取,分别获得各级知识点数据的特征结果,并分别通过预设的分类器组装进行机器学习,分别建立获得各级知识点数据的知识点预测模型;
步骤013.针对各级知识点数据的知识点预测模型,分别进行模型评估,并根据预设嵌套特征选择方法调整建模过程中的加权统计值阈值和统计值阈值,直到达到预设的最优表现值,存储该最优表现值所对应的知识点预测模型,更新获得各级知识点数据的知识点预测模型。
2.根据权利要求1所述文本类教育资源知识点预测模型获得方法,其特征在于:所述步骤001、步骤002和步骤003中,所述预设格式文本类教育资源为JSON格式文本类教育资源。
3.根据权利要求1所述文本类教育资源知识点预测模型获得方法,其特征在于:所述步骤005中,所述预设分词分析法为NGRAM分词分析法。
4.根据权利要求1所述文本类教育资源知识点预测模型获得方法,其特征在于:所述步骤007中,将针对分词结果中词料长度的正则处理,作为词频参数引入预设加权统计算法中之后,同时将反文档频率的光滑处理引入预设加权统计算法中,构成改进型加权统计算法;根据改进型加权统计算法,获得分词结果中各个分词分别对应的加权统计值,并按照加权统计值由高到低的顺序,针对分词结果中的分词进行排序,获得分词结果加权统计排序。
5.根据权利要求4所述文本类教育资源知识点预测模型获得方法,其特征在于:所述步骤007、步骤008和步骤013中,所述预设加权统计算法为TF-IDF算法,所述改进型加权统计算法为改进型TF-IDF算法,所述加权统计值为TF-IDF值,所述分词结果加权统计排序为分词结果TF-IDF排序,所述加权统计值阈值为TF-IDF值阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于蓝舰信息科技南京有限公司,未经蓝舰信息科技南京有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510289318.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种畜牧用可运输牲畜的清洁型洒水车
- 下一篇:双层同步液压升降畜禽车