[发明专利]一种基于主动学习的文本数据自动标注方法有效

申请号：	201710081921.9	申请日：	2017-02-15
公开（公告）号：	CN107067025B	公开（公告）日：	2020-12-22
发明（设计）人：	王进;张登峰;卜亚楠;李颖;范磊;李智星;欧阳卫华;孙开伟;陈乔松;邓欣;胡峰;雷大江	申请（专利权）人：	重庆邮电大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	重庆市恒信知识产权代理有限公司 50102	代理人：	刘小红
地址：	400065 重***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明请求保护一种基于主动学习的文本数据自动标注方法，属于主动学习领域，包括以下步骤：101对已标记和未标记数据进行处理；102利用多个不同分类器对未标记数据进行分类；103选出分歧熵低的数据；104对分歧熵低的数据进行人工标记；105对人工标记结果进行自检。本发明针对如何在减少人工标注数据的数量的同时，尽量保证人工标注数据的准确性问题，通过结合主动学习方法发明一个附带自检功能的数据自动标注系统，达到缩减工作量且提高人工标注数据准确性的目的。
搜索关键词：	一种基于主动学习文本数据自动标注方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于主动学习的数据自动标注方法，其特征在于，包括以下步骤：101、对已标记数据和未标记数据进行处理：首先分别对已人工标记样本数据和未标记样本数据做聚类处理，保存聚类后所得的K个聚簇中心点(C1，C2，C3，...，Ck)和每个聚簇内点到聚类中心的距离d，总数K下文的X和Y的值和等于以及每个聚簇的聚类半径(r1，r2，...，rk)；102、利用多个不同的基分类器对未标记数据进行分类：根据步骤101中经过聚类处理的部分已标记数据训练M个不同的分类器(M1，M2，...，MM)，并根据另外一部分数据使用线性回归模型对M个不同基分类器的分类结果做模型融合，得到每个基分类器的权重(i1，i2，...，iM),使用这M个分类器结合各自权重对未标记数据进行分类并根据标记结果，将已确定标记无误的样本加入已标记样本并不断定时重新训练当前各分类器模型，未标记数据确认类别后加入到已标记数据中，随着已标记数据量的增加，分类器模型应不断重新训练更新；103、将步骤102未标记数据的最终分类结果P和每个基分类器的分类结果(p1，p2，...，pM)进行结合获取该样本的分类分歧和：将分歧定义为样本融合后的最终分类类别和基分类器分类类别是否相同，相同则分歧为0，不相同为1，最后，计算并选取出分歧和大于k/2的未标记数据，分歧和指前面所有的0和1相加不同的分类器个数，并做标记处理；104、对分歧大的数据进行人工标记；105、对人工标记结果进行自检，如果自检结果与人工标记的存在差异，则重新将该样本放入队列提醒进行重新人工标记。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆邮电大学，未经重庆邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710081921.9/，转载请声明来源钻瓜专利网。

上一篇：高压断路器机械状态识别方法
下一篇：基于深度神经网络的电力设备故障检测方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于主动学习的文本数据自动标注方法有效

专利文献下载