[发明专利]一种基于标记置信度的弱监督文档分类方法在审
申请号: | 201710690612.1 | 申请日: | 2017-08-14 |
公开(公告)号: | CN107633009A | 公开(公告)日: | 2018-01-26 |
发明(设计)人: | 张敏灵;唐才智 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 南京苏高专利商标事务所(普通合伙)32204 | 代理人: | 李玉平 |
地址: | 211189 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 标记 置信 监督 文档 分类 方法 | ||
1.一种基于标记置信度的弱监督文档分类方法,其特征在于:包括以下步骤:
1)用户从包含主题的歧义的文档库中选择样例文档,其中样例文档需要涵盖各个类型文档,且数目均衡;
2)使用标记置信度的方式表示标记信息;
3)使用预设的分类方法对转换后的文档对象进行学习;
4)根据学习所得的预测模型对文档存储设备中的文档进行分类;
5)如果用户对上一步预测的结果满意则转到步骤6,否则从有歧义的文档库中选择更多的样例进行反馈,转到步骤2;
6)结束。
2.如权利要求1所述的基于标记置信度的弱监督文档分类方法,其特征在于:步骤2使用标记置信度表示主题有歧义的文档的标记信息,具体包括:
假设用户提交的样例文档对应集合其中Si是与文档xi对应的候选标记集合(Si={1,…,ri},ri是样本xi的对应的候选标记数目),文档xi的真实标记记为yi(yi∈Si),是未知的;记pij为样本xi的标记为yj的概率,计算公式如下所示:
3.如权利要求1所述的基于标记置信度的弱监督文档分类方法,其特征在于:步骤3使用预设的算法对转换后的文档进行学习;具体过程如下所示:循环调整的标记置信度,每一轮利用上轮经过调整的标记置信度进行训练,得到一个基分类模型;如此经过T轮迭代后得到T个基分类模型,将这T个基分类模型组合起来得到最终的分类模型。
4.如权利要求3所述的基于标记置信度的弱监督文档分类方法,其特征在于:初始化权重矩阵w(0):
优化基于标记置信度的损失函数
计算上一步中计算得到的模型在训练集上的误差率r(t)和因子α(t):
5.如权利要求4所述的基于标记置信度的弱监督文档分类方法,其特征在于:在训练集上的误差率在一定程度上表示了本轮训练得到的基分类器在用户提交的文档库的拟合程度;根据本轮训练的结果对样本权重(w(t))和置信度(P(t))矩阵进行更新:
经过T轮迭代学习后最终的分类模型是前面T次学习的基分类模型的线性组合:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710690612.1/1.html,转载请声明来源钻瓜专利网。