[发明专利]半监督分类方法及系统有效
申请号: | 201310202411.4 | 申请日: | 2013-05-27 |
公开(公告)号: | CN103268346A | 公开(公告)日: | 2013-08-28 |
发明(设计)人: | 张长水;宋扬磊;杨逸飞;窦维蓓;翁时锋 | 申请(专利权)人: | 翁时锋;张长水;窦维蓓 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海唯源专利代理有限公司 31229 | 代理人: | 曾耀先 |
地址: | 315194 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 监督 分类 方法 系统 | ||
1.一种半监督分类方法,其特征在于,包括以下步骤:
构建词典,所述词典中包括所有文本数据中出现的词;
采集当前时刻文本数据,所述当前时刻的一部分文本数据未标注类别标签;
计算当前时刻每一个文本数据相对于所述词典的特征向量;
根据计算出的当前时刻文本数据相对于所述词典的特征向量,计算当前时刻各个文本数据之间的相似性;
获取预存的前一时刻文本数据及前一时刻数据相对于所述词典的特征向量;
根据当前时刻和前一时刻文本数据相对于所述词典的特征向量,计算前一时刻的各个文本数据与当前时刻各个文本数据之间的相似性;
根据当前时刻文本数据之间的相似性以及前一时刻与当前时刻的文本数据之间的相似性,获取当前时刻未标注类别标签的文本数据的类别标签。
2.如权利要求1所述的半监督分类方法,其特征在于,构建词典时,去掉所述词典中的定冠词。
3.如权利要求1所述的半监督分类方法,其特征在于,构建词典时,合并派生词以及合并词的不同形式。
4.如权利要求1所述的半监督分类方法,其特征在于,采集当前时刻文本数据时,将采集到文本数据中的新词加入所述词典,并对词典进行更新。
5.如权利要求1所述的半监督分类方法,其特征在于,计算当前时刻各个文本数据之间的相似性时包括以下步骤:
根据计算出的当前时刻文本数据相对于所述词典的特征向量,通过近邻法获取当前时刻的各个文本数据在当前时刻的所有文本数据中相近的文本数据;
计算当前时刻各个文本数据与其当前时刻相近的文本数据之间的相似值;
构建当前时刻文本数据之间相似关系的权值矩阵。
6.如权利要求1所述的半监督分类方法,其特征在于,计算前一时刻的各个文本数据与当前时刻各个文本数据之间的相似性时包括以下步骤:
根据当前时刻和前一时刻文本数据相对于所述词典的特征向量,通过近邻法获取当前时刻的各个文本数据在前一时刻的所有文本数据中相近的文本数据;
计算当前时刻各个文本数据与其前一时刻相近的文本数据之间的相似值;
构建当前时刻文本数据与前一时刻文本数据之间相似关系的演化权值矩阵。
7.如权利要求1所述的半监督分类方法,其特征在于,获取预存的前一时刻文本数据及前一时刻数据相对于所述词典的特征向量时包括以下步骤:
提取前一时刻各个文本数据的类别标签的函数值;
计算提取的各个函数值的绝对值;
保留预设数量个函数值绝对值最大的类别标签所对应的文本数据;
获取保留的前一时刻文本数据及前一时刻数据相对于所述词典的特征向量。
8.如权利要求7所述的半监督分类方法,其特征在于,所述预设数量为前一时刻文本数据总数量的60%。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于翁时锋;张长水;窦维蓓,未经翁时锋;张长水;窦维蓓许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310202411.4/1.html,转载请声明来源钻瓜专利网。