[发明专利]一种基于扩充标记样本的文本分类方法及系统在审
申请号: | 201711086110.4 | 申请日: | 2017-11-07 |
公开(公告)号: | CN107943856A | 公开(公告)日: | 2018-04-20 |
发明(设计)人: | 沈雅婷;汪云云 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/21 |
代理公司: | 南京经纬专利商标代理有限公司32200 | 代理人: | 朱小兵 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 扩充 标记 样本 文本 分类 方法 系统 | ||
1.一种基于扩充标记样本的半监督流形正则化文本分类方法,其特征在于,包括以下步骤:
步骤1,采集文本真实样本数据集,包含已标记文本样本、未标记文本样本,其中已标记文本样本包括文本类别标签;
步骤2,通过聚类算法获取所有文本隶属度信息,由聚类隶属度选出高可信度文本样本,利用高可信度文本样本及其类别标号构成扩充标记文本样本集;
步骤3,基于流行正则化方法MR,根据平方损失函数对已标记文本样本、未标记文本样本以及扩充标记文本样本数据统一设定目标函数,利用步骤2获取的扩充标记样本训练目标函数获得最优的正则化参数以及核函数,得到最终的文本分类函数;
步骤4,输入待分类文本数据,利用步骤3得到的文本分类函数进行分类,获得文本的类别:有用文本和无用文本。
2.根据权利要求1所述的方法,其特征在于,步骤2中是采用模糊核聚类算法KFCM获取文本隶属度信息,假设从KFCM获得的聚类隶属度矩阵是
首先,根据该矩阵的上下任意一行中每个已标记样本的类别隶属度与该已标记样本实际类别相匹配的统计个数,来判断出该行的隶属度类别,进而得到另一行的隶属度类别;
然后,在隶属度类别为正类的该行中,选择u+i≥δ或u+i≤1-δ的未标记文本样本作为高可信度文本样本,其中δ是[0.5,1]中的一个阈值,i=1...n,n表示样本总数;利用高可信度文本样本及所得的簇或类别标记构成扩充的标记文本样本集。
3.根据权利要求1或2所述的方法,其特征在于,步骤2中,在聚类后,对于每个簇,如果其正标记样本个数大于负标记样本个数,那么该簇被视为正簇或正类,否则为负簇或负类;由此,获得正负簇与真实的正负类别一致。
4.根据权利要求1所述的方法,其特征在于,步骤3所述目标函数为:
其中f为待求解的局部分类函数,位于核函数K定义的再生核希尔伯特空间HK中,γA、γI分别代表正则化参数,γP代表KFCM参数,xi∈Rd,yi∈{+1,-1},nu=n-nl,nu表示未标记样本数,nl表示已标记样本数,n表示样本总数,L是由L=D-W给定的图拉普拉斯,W是图G的权重矩阵,D是由给定的对角分量组成的对角矩阵,权重Wij代表了连接样本xi和xj之间的相似度,f(xi)表示经过分类后赋给已标记样本的文本类别,正则化项用来控制分类面的复杂度以避免过学习;其中第四项为扩充标记文本样本的分类损失,pi表示每个无标记样本被指定的标签,它被定义为
其中,u+i和u-i分别是样本xi获得的正、负隶属度,并且u+i+u-i=1,i=1...n,n表示样本总数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711086110.4/1.html,转载请声明来源钻瓜专利网。