[发明专利]数据处理方法、介质、系统和电子设备在审
申请号: | 201711183776.1 | 申请日: | 2017-11-23 |
公开(公告)号: | CN107943940A | 公开(公告)日: | 2018-04-20 |
发明(设计)人: | 朱臻;杜靖 | 申请(专利权)人: | 网易(杭州)网络有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中科专利商标代理有限责任公司11021 | 代理人: | 吕雁葭 |
地址: | 310052 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 介质 系统 电子设备 | ||
1.一种数据处理方法,包括:
获取辅导资源的数据;
基于所述数据,确定所述辅导资源的特征向量;以及
基于所述特征向量,以多级分类的方式对所述辅导资源进行分类,其中,在每个级别中:
基于当前类别在下一级别中的任意两个子类的各种组合方式,分别确定所述辅导资源在每个组合方式中属于每个子类的概率;以及
对于每个子类,计算所述辅导资源在每种组合方式下属于该子类的概率之和,确定辅导资源所属的子类。
2.根据权利要求1所述的方法,其中,所述辅导资源包括视频类辅导资源。
3.根据权利要求2所述的方法,其中,所述基于所述数据,确定所述辅导资源的特征向量包括将音频转换成文字,并基于所述文字,确定以下至少一种特征向量:
标题名词特征向量;
以TF-IDF方法确定的多个词的特征向量;或者
关键词特征向量。
4.根据权利要求1所述的方法,其中,所述辅导资源包括试题,所述获取辅导资源的数据包括通过网络爬虫从互联网上获取试题的数据和/或通过电子文档类材料中获取试题的数据。
5.根据权利要求4所述的方法,其中,所述特征向量包括以下一种向量或者多种向量的拼接:
关键词特征向量;
由多个连续字符的词性和/或命名实体表征的特征向量;或者
在所述试题的数据包含参考答案的情况下,由所述参考答案和/或参考答案临近词的字符表征的特征向量。
6.根据权利要求1所述的方法,其中,所述基于所述特征向量,以多级分类的方式对所述辅导资源进行分类包括:
若所述辅导资源的特征向量具有特定特征,则越级确定所述辅导资源所属的子类。
7.根据权利要求1所述的方法,其中,所述辅导资源包括非试题类文本辅导资源,所述方法还包括:
确定非试题类文本辅导资源的标题名词特征向量和/或出现频率最高的多个词的特征向量作为该非试题类文本辅导资源的特征向量;
计算所述试题类文本辅导资源的特征向量与各个类别的标准向量的余弦相似度;以及
根据所述余弦相似度,确定所述试题类文本辅导资源所属的类别。
8.一种计算机可读存储介质,其上存储有可执行指令,所述指令被处理单元执行时使所述处理单元执行根据权利要求1-7中任一项所述的方法。
9.一种数据处理系统,包括:
第一获取模块,用于获取辅导资源的数据;
第一确定模块,用于基于所述数据,确定所述辅导资源的特征向量;以及
分类模块,用于基于所述特征向量,以多级分类的方式对所述辅导资源进行分类,其中,在每个级别中:
基于当前类别在下一级别中的任意两个子类的各种组合方式,分别确定所述辅导资源在每个组合方式中属于每个子类的概率;以及
对于每个子类,计算所述辅导资源在每种组合方式下属于该子类的概率之和,确定辅导资源所属的子类。
10.一种电子设备,包括:
处理单元;以及
存储单元,其上存储有可执行指令,所述指令被所述处理单元执行时使所述处理单元执行根据权利要求1-7中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易(杭州)网络有限公司,未经网易(杭州)网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711183776.1/1.html,转载请声明来源钻瓜专利网。