[发明专利]一种基于主动学习的文本数据自动标注方法有效
申请号: | 201710081921.9 | 申请日: | 2017-02-15 |
公开(公告)号: | CN107067025B | 公开(公告)日: | 2020-12-22 |
发明(设计)人: | 王进;张登峰;卜亚楠;李颖;范磊;李智星;欧阳卫华;孙开伟;陈乔松;邓欣;胡峰;雷大江 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 刘小红 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明请求保护一种基于主动学习的文本数据自动标注方法,属于主动学习领域,包括以下步骤:101对已标记和未标记数据进行处理;102利用多个不同分类器对未标记数据进行分类;103选出分歧熵低的数据;104对分歧熵低的数据进行人工标记;105对人工标记结果进行自检。本发明针对如何在减少人工标注数据的数量的同时,尽量保证人工标注数据的准确性问题,通过结合主动学习方法发明一个附带自检功能的数据自动标注系统,达到缩减工作量且提高人工标注数据准确性的目的。 | ||
搜索关键词: | 一种 基于 主动 学习 文本 数据 自动 标注 方法 | ||
【主权项】:
一种基于主动学习的数据自动标注方法,其特征在于,包括以下步骤:101、对已标记数据和未标记数据进行处理:首先分别对已人工标记样本数据和未标记样本数据做聚类处理,保存聚类后所得的K个聚簇中心点(C1,C2,C3,...,Ck)和每个聚簇内点到聚类中心的距离d,总数K下文的X和Y的值和等于以及每个聚簇的聚类半径(r1,r2,...,rk);102、利用多个不同的基分类器对未标记数据进行分类:根据步骤101中经过聚类处理的部分已标记数据训练M个不同的分类器(M1,M2,...,MM),并根据另外一部分数据使用线性回归模型对M个不同基分类器的分类结果做模型融合,得到每个基分类器的权重(i1,i2,...,iM),使用这M个分类器结合各自权重对未标记数据进行分类并根据标记结果,将已确定标记无误的样本加入已标记样本并不断定时重新训练当前各分类器模型,未标记数据确认类别后加入到已标记数据中,随着已标记数据量的增加,分类器模型应不断重新训练更新;103、将步骤102未标记数据的最终分类结果P和每个基分类器的分类结果(p1,p2,...,pM)进行结合获取该样本的分类分歧和:将分歧定义为样本融合后的最终分类类别和基分类器分类类别是否相同,相同则分歧为0,不相同为1,最后,计算并选取出分歧和大于k/2的未标记数据,分歧和指前面所有的0和1相加不同的分类器个数,并做标记处理;104、对分歧大的数据进行人工标记;105、对人工标记结果进行自检,如果自检结果与人工标记的存在差异,则重新将该样本放入队列提醒进行重新人工标记。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710081921.9/,转载请声明来源钻瓜专利网。
- 上一篇:高压断路器机械状态识别方法
- 下一篇:基于深度神经网络的电力设备故障检测方法