[发明专利]数据处理方法、介质、系统和电子设备在审
申请号: | 201711183776.1 | 申请日: | 2017-11-23 |
公开(公告)号: | CN107943940A | 公开(公告)日: | 2018-04-20 |
发明(设计)人: | 朱臻;杜靖 | 申请(专利权)人: | 网易(杭州)网络有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中科专利商标代理有限责任公司11021 | 代理人: | 吕雁葭 |
地址: | 310052 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 介质 系统 电子设备 | ||
技术领域
本发明的实施方式涉及信息技术领域,更具体地,本发明的实施方式涉及一种数据处理方法、介质、系统和电子设备。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
考试作为一种测评/选拔方式,具有公平无歧视和测评/选拔效果好的优势而被广泛运用,无论是学生时代还是成年以后,人们经常需要面对各种考试。为了在考试过程中取得期望的成绩,应试者需要在考试前使用辅导资源进行复习,例如选取与考试题型和内容类似的试题训练。为了提高训练效果,通常还请有经验的人士对辅导资源进行分类,以达到针对性训练的效果。
发明内容
但是,出于人工定义规则的原因,现有技术通常需要多人交叉校对,不仅人力成本大大增加,同时也造成解决评判标准无法统一的问题。
因此在现有技术中,人力成本高以及评判标准无法统一是非常令人烦恼的过程。
为此,非常需要一种改进的数据处理方法,以通过机器智能化地对辅导资源进行分类。
在本上下文中,本发明的实施方式期望提供一种数据处理方法、介质、系统和电子设备。
在本发明实施方式的第一方面中,提供了一种数据处理方法,包括,获取辅导资源的数据,基于所述数据,确定所述辅导资源的特征向量,以及基于所述特征向量,以多级分类的方式对所述辅导资源进行分类。其中,在每个级别中,基于当前类别在下一级别中的任意两个子类的各种组合方式,分别确定所述辅导资源在每个组合方式中属于每个子类的概率,以及对于每个子类,计算所述辅导资源在每种组合方式下属于该子类的概率之和,确定辅导资源所属的子类。
在本发明的一个实施例中,所述辅导资源包括视频类辅导资源。
在本发明的另一实施例中,所述基于所述数据,确定所述辅导资源的特征向量包括将音频转换成文字,并基于所述文字,确定以下至少一种特征向量,标题名词特征向量,以TF-IDF方法确定的多个词的特征向量,或者关键词特征向量。
在本发明的另一实施例中,所述辅导资源包括试题,所述获取辅导资源的数据包括通过网络爬虫从互联网上获取试题的数据和/或通过电子文档类材料中获取试题的数据。
在本发明的另一实施例中,所述特征向量包括以下一种向量或者多种向量的拼接,关键词特征向量,由多个连续字符的词性和/或命名实体表征的特征向量,或者在所述试题的数据包含参考答案的情况下,由所述参考答案和/或参考答案临近词的字符表征的特征向量。
在本发明的另一实施例中,所述对所述辅导资源进行分类包括对所述试题的题目属性进行分类,所述题目属性包括知识点或难易度中的至少一种。
在本发明的另一实施例中,所述基于所述特征向量,以多级分类的方式对所述辅导资源进行分类包括若所述辅导资源的特征向量具有特定特征,则越级确定所述辅导资源所属的子类。
在本发明的另一个实施例中,所述分类采用支持向量机的分类方法。
在本发明的另一实施例中,所述辅导资源包括非试题类文本辅导资源,所述方法还包括,确定非试题类文本辅导资源的标题名词特征向量和/或出现频率最高的多个词的特征向量作为该非试题类文本辅导资源的特征向量,计算所述试题类文本辅导资源的特征向量与各个类别的标准向量的余弦相似度,以及根据所述余弦相似度,确定所述试题类文本辅导资源所属的类别。
在本发明的另一实施例中,所述方法还包括获取用户属性信息,以及基于所述用户属性信息和所述辅导资源的分类结果,向所述用户推送辅导资源。
在本发明实施方式的第二方面中,提供了一种计算机可读存储介质,所述指令被处理单元执行时使所述处理单元执行根据如上所述任一项方法。
在本发明实施方式的第三方面中,提供了一种数据处理系统,包括第一获取模块、第一确定模块以及分类模块。第一获取模块,用于获取辅导资源的数据。确定模块,用于基于所述数据,确定所述辅导资源的特征向量。分类模块,用于基于所述特征向量,以多级分类的方式对所述辅导资源进行分类。其中,在每个级别中,基于当前类别在下一级别中的任意两个子类的各种组合方式,分别确定所述辅导资源在每个组合方式中属于每个子类的概率,以及对于每个子类,计算所述辅导资源在每种组合方式下属于该子类的概率之和,确定辅导资源所属的子类。
在本发明的一个实施例中,所述辅导资源包括视频类辅导资源。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易(杭州)网络有限公司,未经网易(杭州)网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711183776.1/2.html,转载请声明来源钻瓜专利网。