[发明专利]一种基于在线教育大数据的深度学习样本标注方法在审
申请号: | 201811488434.5 | 申请日: | 2018-12-06 |
公开(公告)号: | CN109783661A | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | 阮怀伟;杨小红;吴雷;王鹏飞;吴立辉;王瑞丽;程桃莉 | 申请(专利权)人: | 安徽教育网络出版有限公司;时代新媒体出版社有限责任公司 |
主分类号: | G06F16/48 | 分类号: | G06F16/48;G06F16/44 |
代理公司: | 合肥鼎途知识产权代理事务所(普通合伙) 34122 | 代理人: | 徐然 |
地址: | 230601 安徽省合*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标注 大数据 在线教育 学习样本 在线教育系统 标注系统 海量数据 数据分组 数据排序 数据展示 重新分组 互联网 人工的 有效地 主观性 制备 数据库 分组 清晰 发动 | ||
本发明涉及互联网在线教育系统,尤其涉及一种基于在线教育大数据的深度学习样本标注方法,其制备步骤为:(1)数据的导入(2)初步标注(3)数据分组(4)数据展示(5)数据排序(6)不符合的数据重新分组(7)得到不同类型的数据库。本发明通过设计一种基于在线教育大数据的深度学习样本标注方法,解决了现有技术的不足,无需人工的体力劳动,且避免了个人的主观性判断,通过数据的初步标注和分组标注,使得数据的准确性更高,通过在线教育大数据的标注系统,可以发动互联网上的大量人员协助对于海量数据的标注,整个发明思路清晰明确,能够有效地提高大数据的标注精度,同时缩短了标注时间,过程简单,实用性高。
技术领域
本发明涉及互联网在线教育系统,尤其涉及一种基于在线教育大数据的深度学习样本标注方法。
背景技术
随着信息技术迅速发展,特别是从互联网到移动互联网,创造了跨时空的生活、工作和学习方式,使知识获取的方式发生了根本变化。教与学可以不受时间、空间和地点条件的限制,知识获取渠道灵活与多样化。
对于在线教育文件的标注方法主要是通过单个人对文件进行甄别以实现标注,是一个纯体力劳动,耗时耗力,而且单个人的主观性太强,导致标注不准确。
现有技术的缺点就是如果对成千上万的文件进行标注,需要反复观看音频、视频或者图片进行筛选,耗费大量的人力物力,非常的主观。从而造成标注的样本不够准确,最后导致深度学习的输出不准。
发明内容
本发明的目的在于提供一种基于在线教育大数据的深度学习样本标注方法,以解决上述技术问题。
本发明为解决上述技术问题,采用以下技术方案来实现:
一种基于在线教育大数据的深度学习样本标注方法,其特征在于:
第一步:输入需标注的在线教育数据A个,且输入的数据均为同一类别;将需标注的在线教育数据存储到数据库中;
第二步:初步标注,对在线教育数据进行初步标注,然后分类,分为Q、W、E、R;
第三步:将Q类的数据导出,共有N个数据,将Q类的数据进行分组,共有m组,每组有n个数据,最后一组有N-n*m个数据;
第四步:对每一组中的m个数据进行展示,并仅对其中的一个数据进行标注;
当N<n时,只需要进行一次展示;
当N个数据全部完成第一轮展示后,统计出每个数据被标记的次数;
第五步:按照从高到低的顺序,对所有数据被标记的次数进行排列;
第六步:取数据被标注的次数大于B为符合该分类的有效数据;
第七步:标记次数小于B的数据,平均分成3组,分别放入W、E、R组中,参与接下来剩余组的展示标注;
第八步:W组的标注方法与Q组相同,当W组标记结束后,将标记次数小于K的数据平均分成两组,放入E和R组中;E和R标注时重复步骤三;
第九步:得到不同类型的数据库。
优选的,所述在线教育数据为音频、视频或图片中的一种。
优选的,第七步中的B值大于60。
A个数据全部类型完成了一次展示步骤如下:
S1:输入需标注的在线教育数据A个,保证输入的数据为同一种类别;
S2:将数据存储于数据库,设定数据标注类型,将A个数据初步标注,数据类型为Q、W、E、R;
S3:先将Q类数据导出,将Q类数据N个数据分成m组,每组有n个数据,最后一组有N-n*m个数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽教育网络出版有限公司;时代新媒体出版社有限责任公司,未经安徽教育网络出版有限公司;时代新媒体出版社有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811488434.5/2.html,转载请声明来源钻瓜专利网。