[发明专利]一种基于标记置信度的弱监督文档分类方法在审
申请号: | 201710690612.1 | 申请日: | 2017-08-14 |
公开(公告)号: | CN107633009A | 公开(公告)日: | 2018-01-26 |
发明(设计)人: | 张敏灵;唐才智 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 南京苏高专利商标事务所(普通合伙)32204 | 代理人: | 李玉平 |
地址: | 211189 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 标记 置信 监督 文档 分类 方法 | ||
技术领域
本发明涉及一种文档分类方法,具体是一种基于标记置信度的弱监督文档分类方法,属于弱监督文档分类技术领域。
背景技术
随着互联网技术的高速发展与普及,web文档以指数量级增长。海量的文档更好更准确地满足用户的需求的同时,文档的管理和分类已然成为一个重要的研究课题。文档分类技术是一种高效地对未分类文档进行归类的技术,该方法根据用户提交给分类装置的样例文档,对文档库中未被分类的文档进行快速、准确地分类。一种行之有效的策略是将分类过程看成学习的过程,使用机器学习的技术对用户提交的样例文档进行学习,最终得到一个分类模型。最后使用这个经过训练得到的模型对文档进行分类。
使用机器学习的技术进行文档分类需要有大量的已分类样例文档,而这些已分类文档需要耗费人力进行标注。但是实际上获取大量主题不明确或者是有歧义的样例文档很容易,例如一篇新闻报道中出现了经济、体育和科技等领域词汇,可以很容易确定这篇报道是属于经济、体育或者科技三者之一为主题的文档,但是更加精确的主题则需要人工标注。而现有的一些文档分类技术需要类别明确的样例文档,需要耗费较大的代价,无法利用这类主题有歧义的样例文档实现文档自动分类。
发明内容
发明目的:本发明针对现有的文档分类技术依赖大量的已正确、精确分类的样例文档的问题,提出一种能够利用有歧义类别的样例文档的文档分类方法。该方法使用置信度的方式表示样例文档的各个候选类别是其真实类别的概率,使用迭代学习的方法在每轮学习过程中更新各个样例文档的候选类别置信度,然后再在更新标记置信度后的样例文档上进行学习如此进行T次,从而提高文档分类装置的性能。
技术方案:一种基于标记置信度的弱监督文档分类方法,利用大量的具有模糊类别的样例文档,采用适用于文档类别信息较少的弱监督文档分类技术。该方法包括以下步骤:(1)用户从已有的具有模糊类别的文档库中选择样例文档,其中样例文档需涵盖各种类型的文档;(2)在这些类别信息模糊的样例文档上使用弱监督学习技术进行学习得到一个预测模型;(3)利用上一步中得到的预测模型对用户提交的类别未知的文档进行预测,得到一个预测类别;(4)如果用户对分类结果满意,则执行步骤5,否则从多主题文档库中选择更多的样例文档进行反馈,执行步骤2;(5)结束。
有益效果:现有的基于机器学习的文档分类技术都需要大量的正确、精确分类的样例文档。本发明基于标记置信度的弱监督文档分类方法,其使用大量主题有歧义的样例文档进行学习,最后获得性能较好的模型。由于这些主题有歧义的样例文档不需要人工标注,相比于其他基于传统监督学习的方法节省了大量人力成本。
附图说明
图1是文档分类装置的工作流程图;
图2是本发明方法的流程图;
图3是对初始样本构造标记置信度的流程图;
图4是本发明采用的分类方法流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,文档存储设备中存放的是待分类的文档,此外有一个包含大量主题有歧义的文档库,每篇主题有歧义的文档对应多个概念标记但是其中只有一个是该文档的真实标记。用户从主题有歧义的文档库中选取M篇样例文档提交给文档分类装置,选取的各个类型的文档数目应大致均衡。目前大多数中文文本分类系统都采用词作为特征项,而实际由于将所有的词作为特征词将会使得特征向量的维度很大给计算带来很大的困扰,常常会使用一些针对文本的特征降维的技术例如词频(Term Frequency,记为TF)、词频-逆文档词频(Term Frequency-Inverse Document Frequency,记为TF-IDF)等。在文档特征抽取后,将主题有歧义的样例文档的类别信息转化成标记置信度形式,然后使用预设的分类方法训练得到相应的预测模型,最后利用上一步得到的模型对文档存储设备中未分类的文档进行分类,如图1所示。如果用户对所得结果不满意,可以从文档库中选取更多的样例文档反馈给文档分类装置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710690612.1/2.html,转载请声明来源钻瓜专利网。