[发明专利]一种文本分类方法和系统有效
申请号: | 201310009087.4 | 申请日: | 2013-01-10 |
公开(公告)号: | CN103927302B | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 陈俊波;李华康;曾鹏程;薛贵荣 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京国昊天诚知识产权代理有限公司11315 | 代理人: | 许志勇 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 分类 方法 系统 | ||
技术领域
本申请专利申请涉及文本处理领域,尤其涉及一种文本分类的方法和系统。
背景技术
文本处理中最常见的是进行文本分类处理。文本分类一般包括文本的表达、分类器的选择与训练、结果分类的评价与反馈等过程,其中文本的表达又可以细分为文本预处理、索引和统计、特征抽取等步骤。如图1所示的文本分类流程图。预处理是将原始语料格式化为同一格式,便于后续的统一处理;索引主要将文档分解为基本处理单元,同时降低后续处理的开销;统计的主要工作是总结出词频、项与分类的相关概率,生成关联规则库;特征抽取是从文档中抽取出反应特征文档主题的特征;而分类器的主要工作是把测试文本的特征向量基于生成的关联规则库,进行文本的分类。在完成文本的分类后,要对分类器分类结果进行分析,进一步优化分类规则,充实训练库等。
目前文本分类技术的研究主要放在特征值抽取和分类器建模方面,以下是国内现有的集中关于文本分类方面的专利技术:
一种基于领域知识的短文本分类方法及文本分类系统,用于解决信息技术领域中传统文本分类方法不能较好的对对短文本进行分类的缺点。训练数据获取模块用来获取进行训练的数据得到学习库;数据与处理模块,对所述学习库进行信息抽取将无结构化的数据处理为结构化数据;文本表示模块采用向量空间模型对数据进行数学化表示;特征抽取模块依据TFIDF算法对词项集的重要性进行排序;模型建立模块对每个词项权值赋予不同的权重,并根据预先设定的分类规则分类。该方法和系统,对传统的分类器进行了一定的创新,在分类器中引入了领域词语的概念,有效地增加了短文本的信息量,对短文本数据特别是网页商品数据做基于不同词项集的语义分析,并将语义分析的结果注入到分类器中,为商品数据信息注入了新的信息,从而提高文本分类的准确率。
一种基于块划分及位置权重的文本分类方法包括:对输入的训练或测试文本经过基本的预处理后,提取文本中的段信息;将每一段视为一个基本的文本块,对块信息做统计分析,根据块大小分布或预定义的块比率,对文本内容重新进行块划分,包括文本块的合并等操作。提取特征词、量化权重,并获取特征词对类别的后验概率,然后分析具有最大后验概率类别与文本类别标签相符的特征词的分布,最后生成文本向量;利用分类器完成分类模型训练或文本分类。该方法可用于文本分类系统的文本表示阶段,通过丰富传统的利用特征词构建文本向量时对文本内容信息的表达,提升文本分类效果。
一种基于领域知识的文本分类特征选择及权重计算方法,该方法结合样本统计与领域术语构造领域分类特征空间,利用领域内部知识关系,计算术语间的相似度,依此来调整分类特征向量相应特征维权重。并采用支持向量机学习算法,建立领域文本分类模型,实现领域文本分类。对云南旅游领域与非旅游领域文本分类实验结果表明,该方法分类准确率比改进TFIDF特征权重方法的文本分类效果提高了4个百分点。
一种基于概率主题词的两级组合文本分类方法采用的:一级分类:基于朴素贝叶斯分类方法,利用概率主题词特征和拒绝条件判断对测试文本分类;二级分类:再基于传统特征提取方法提取出特征词对被第一级拒绝分类的测试文本进行分类。此分级组合方法对文本进行分类,融和不同分类器的特点能够非常快的在一级分类中对很多文本进行正确分类,大大提高文本分类系统效率,为文本分类系统实用化提供很好的处理方式;考虑文本特点提出概率主题词,在适当的拒绝条件下,概率主题词以很高的正确率完成大量文本分类任务。实验证明本申请两级组合与传统单一分类相比,能够大大减少时间消耗并能提高系统分类正确率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310009087.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种无界触摸技术的实现方法与系统
- 下一篇:触感反馈的方法及电子设备