[发明专利]一种基于扩充标记样本的文本分类方法及系统在审
申请号: | 201711086110.4 | 申请日: | 2017-11-07 |
公开(公告)号: | CN107943856A | 公开(公告)日: | 2018-04-20 |
发明(设计)人: | 沈雅婷;汪云云 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/21 |
代理公司: | 南京经纬专利商标代理有限公司32200 | 代理人: | 朱小兵 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 扩充 标记 样本 文本 分类 方法 系统 | ||
技术领域
本发明属于文本分类处理领域,具体涉及模式识别和机器学习在数据挖掘领域的应用。
背景技术
文本分类问题与其它分类问题没有本质上的区别,其方法可以归结为根据待分类数据的某些特征来进行匹配,当然完全的匹配是不太可能的,因此必须(根据某种评价标准)选择最优的匹配结果,从而完成分类。其中分类器的选择与训练、分类结果的评价与反馈十分重要。文本分类是机器学习的基本任务。
文本分类可分为两大类,即监督分类和半监督分类。监督分类是文本样本全部具有标号,半监督分类是部分文本样本具有标号,部分文本样本不具有标号。在实际中,无标号的文本比有标号的文本成本低、易获取,因此,从可应用的信息量角度可以看出,半监督文本分类在现实应用中有很强的需求并且已经引起了相当大的关注,它是通过结合已标记和未标记文本来学习的,取得比单独使用已标记文本更好的性能。流形正则化方法MR是一种已被深入研究且常被使用的半监督分类方法,利用正则化的方式约束流形结构图上相似样本具有相似的分类输出。
然而,已标记样本是随机选择的,例如在边界区域,甚至是在相反的类别区域。从这些样本进行标记传播到它们的近邻样本,尽管考虑到未标记样本的结构,但也可能误导MR分类。在图1中可以看到一个例子,其中单个类中的未标记样本分别由和表示,并且相应的已标记样本分别由和"●"表示,MR的决策边界被描绘来与真实边界进行比较。从图1可以很容易地观察到,class1中的已标记样本比class2中的已标记样本更加靠近类边界。尤其是点x1位于两类的重叠区域。在这种情况下,已标记样本可能“误导”分类,使得MR的决策边界更加靠近class2从而偏离真实边界。当然,MR也考虑了未标记样本的结构。分配更少的权重给已标记样本并且分配更多的权重给未标记样本可能获得更加接近真实的边界,但是在半监督学习中正则化参数的选择仍然是一个开放的问题。因此,已标记样本的位置对于MR分类来说是至关重要的,然而在半监督分类中已标记样本往往是稀缺的并且是随机选择的。一旦已标记样本有点误导,MR的表现可能就会令人不满意。
发明内容
本发明所要解决的技术问题是:针对上述现有技术存在的问题和不足,本发明的目的是对于文本数据集进行文本分类,通过扩充已标记样本集来减少“误导的”已标记样本的影响以解决现有技术在有标记样本较少且不准确的文本上的分类精度低的问题。
本发明为解决上述技术问题采用以下技术方案:
一种基于扩充标记样本的半监督流形正则化文本分类方法,包括以下步骤:
步骤1,采集文本真实样本数据集,包含已标记文本样本、未标记文本样本,其中已标记文本样本包括文本类别标签;
步骤2,通过聚类算法获取所有文本隶属度信息,由聚类隶属度选出高可信度文本样本,利用高可信度文本样本及其类别标号构成扩充标记文本样本集;
步骤3,基于流行正则化方法MR,根据平方损失函数对已标记文本样本、未标记文本样本以及扩充标记文本样本数据统一设定目标函数,利用步骤2获取的扩充标记样本训练目标函数获得最优的正则化参数以及核函数,得到最终的文本分类函数;
步骤4,输入待分类文本数据,利用步骤3得到的文本分类函数进行分类,获得文本的类别:有用文本和无用文本。
进一步的,本发明提出的方法中,步骤2中是采用模糊核聚类算法KFCM获取文本隶属度信息,假设从KFCM获得的聚类隶属度矩阵是
首先,根据该矩阵的上下任意一行中每个已标记样本的类别隶属度与该已标记样本实际类别相匹配的统计个数,来判断出该行的隶属度类别,进而得到另一行的隶属度类别;
然后,在隶属度类别为正类的该行中,选择u+i≥δ或u+i≤1-δ的未标记文本样本作为高可信度文本样本,其中δ是[0.5,1]中的一个阈值,i=1...n,n表示样本总数;利用高可信度文本样本及所得的簇或类别标记构成扩充的标记文本样本集。
进一步的,本发明提出的方法中,步骤2中,在聚类后,对于每个簇,如果其正标记样本个数大于负标记样本个数,那么该簇被视为正簇或正类,否则为负簇或负类;由此,获得正负簇与真实的正负类别一致。
进一步的,本发明提出的方法中,步骤3所述目标函数为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711086110.4/2.html,转载请声明来源钻瓜专利网。