[发明专利]一种基于众包反馈和主动学习的文本分类模型优化方法在审

专利信息
申请号: 201710205306.4 申请日: 2017-03-31
公开(公告)号: CN107169001A 公开(公告)日: 2017-09-15
发明(设计)人: 杨静;陈博闻;江雨 申请(专利权)人: 华东师范大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 上海麦其知识产权代理事务所(普通合伙)31257 代理人: 董红曼
地址: 200062 上*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 反馈 主动 学习 文本 分类 模型 优化 方法
【说明书】:

技术领域

发明涉及众包和机器学习领域,具体地说是一种基于众包反馈和主动学习的文本分类模型优化方法。

背景技术

众包是近年来兴起的一个研究点,大量机器难以处理的问题都可以通过众包平台将其分配给互联网上的在线用户来完成。目前已有的利用众包来优化文本分类的方法,往往只是通过众包收集一部分未标注数据的标签,加入到训练集中,并没有深入学习到人的主观感受及其理解能力,限制了分类模型的最终性能。因此本发明提出一种关于文本分类模型的优化方法,通过收集人工标注理由从而优化模型,在有限的预算下能够尽可能的提高文本分类准确率。

主动学习作为一种新的机器学习算法,其主要目标是在大量未标注数据集中有效地发现最有价值信息量最大的一部分样本交由人工标注,从而扩充训练集提高分类模型性能。与传统的监督方法相比,主动学习能够很好地处理较大数据集、从中选择有辨别能力的样本并且减少人工标注成本。当面对一个仅有少量训练集却要对大量测试集进行预测的文本分类任务时,本发明引入主动学习算法,挑选最优的样本交由众包平台进行人工标注,从而降低标注成本,实现在有限的预算下,提高模型分类准确率。

发明内容

本发明的目的是解决一个现实情况下的常见分类问题,只包含少量含标签数据的文本分类任务,克服现有的基于众包的文本分类方法的不足之处,利用众包平台收集的标注理由,提出了一种模型优化方法,并且引入主动学习减少开销。

本发明提出了一种基于众包反馈和主动学习的文本分类模型优化方法,包括以下步骤:

步骤一:选取文本数据集,将文本数据集分为初始训练集和剩余数据集;

步骤二:对所述文本数据集进行预处理,从中获得词;

步骤三:以每个词为特征,构建所述文本数据集的特征集,并计算特征对应的权重值以向量化所述文本数据集;

步骤四:在分类模型上引入主动学习,对已向量化的所述文本数据集进行情感极性预测,并且结合众包反馈信息优化模型,获得优化的文本分类结果。

本发明提出的所述基于众包反馈和主动学习的文本分类模型优化方法中,步骤四包含如下步骤:

使用初始训练集训练原始的分类模型,使用所述分类模型对所述剩余数据集进行预测;

在所述分类模型中引入主动学习,在所述剩余数据集中挑选出若干最有价值的样本,交给众包平台,进行人工标注并收集标注理由;

获取人工标注理由中的关键词,提升关键词对应词的权重,同时将已标注的样本从剩余数据集中剔除,放入初始训练集中;

使用更新后的初始训练集和已向量化的所述文本数据集重新训练所述分类模型,所述分类模型继续用于预测所述剩余数据集;

返回进行步骤b到d并迭代,直至用完预算或满足预先设置的终止学习指标为止,得到优化的文本分类结果。

本发明提出的所述基于众包反馈和主动学习的文本分类模型优化方法中,所述最有价值的样本是对于所述分类模型最不确定的样本,所述分类模型所述最有价值的样本所预测出的分类结果的置信度低。

本发明提出的所述基于众包反馈和主动学习的文本分类模型优化方法中,所述挑选样本的方法包括随机选择策略、基于边缘的选择策略和基于后验概率的选择策略。

本发明提出的所述基于众包反馈和主动学习的文本分类模型优化方法中,所述众包反馈是通过众包平台获取的人工标注结果以及标注理由。

本发明提出的所述基于众包反馈和主动学习的文本分类模型优化方法中,所述标注理由是在由自动化的方式对原始文本进行处理后形成的若干个特征词中,通过众包平台人工地筛选出的少量特征词。

本发明提出的所述基于众包反馈和主动学习的文本分类模型优化方法中,计算特征对应的权重值的方法包括:基于词的方法、基于词频的方法和基于TFIDF的方法。

本发明提出的所述基于众包反馈和主动学习的文本分类模型优化方法中,所述分类模型包括:支持向量机SVM、K最邻近结点算法kNN以及朴素贝叶斯NB。

本发明提出的所述基于众包反馈和主动学习的文本分类模型优化方法中,所述的权重值根据众包反馈的内容进行改进,权重值以w=w0×k×ε表示,其中w0为上一次迭代中的权重值,k为所述众包反馈中特征词出现的次数,ε为经验系数。

本发明的有益效果在于:本发明引入众包,在让用户给出标签的同时,收集用户的标注理由,扩充众包平台收集的内容形式,挖掘更多用户信息,以合理的方式将用户信息融入分类模型,从而优化模型提升数据标注准确率。

附图说明

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710205306.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top