[发明专利]文档分类、支持向量机模型生成的方法和装置有效
申请号: | 201310033125.X | 申请日: | 2013-01-28 |
公开(公告)号: | CN103106262A | 公开(公告)日: | 2013-05-15 |
发明(设计)人: | 戴明洋 | 申请(专利权)人: | 新浪网技术(中国)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 黄启行;方晓明 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种文档分类、支持向量机模型生成的方法和装置,所述方法包括:根据待分类文档的特征向量、以及根据经过类别扁平化处理的训练集生成的支持向量机模型,确定该待分类文档所属类别,其中,训练集的类别扁平化处理过程包括:针对训练集中的每个训练样本,对该训练样本预先设置的所属类别,按类别的层级高低进行排序;针对该训练样本所属的每个类别,从层级较高的类别开始,判断该训练样本所属类别中是否有该类别的子类类别;若有,则将该类别从该训练样本所属类别中剔除。由于根据类别之间的层级关系先对训练集进行类别扁平化处理,从而使得得到的支持向量机模型可适用于对多层级类别的文档进行分类,使得分类结果具有较好的精确性。 | ||
搜索关键词: | 文档 分类 支持 向量 模型 生成 方法 装置 | ||
【主权项】:
一种文档分类方法,其特征在于,包括:对待分类文档进行分词后,确定该待分类文档的特征向量;根据该待分类文档的特征向量、以及根据经过类别扁平化处理的训练集生成的支持向量机模型,确定该待分类文档所属类别,其中,所述训练集的类别扁平化处理过程,包括:针对所述训练集中的每个训练样本,对该训练样本预先设置的所属类别,按类别的层级高低进行排序;针对该训练样本所属的每个类别,从层级较高的类别开始,判断该训练样本所属类别中是否有该类别的子类类别;若有,则将该类别从该训练样本所属类别中剔除。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新浪网技术(中国)有限公司,未经新浪网技术(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310033125.X/,转载请声明来源钻瓜专利网。