[发明专利]一种中文文本分类方法在审

申请号：	201710359493.1	申请日：	2017-05-19
公开（公告）号：	CN108509471A	公开（公告）日：	2018-09-07
发明（设计）人：	姚国平	申请（专利权）人：	苏州纯青智能科技有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	北京华识知识产权代理有限公司 11530	代理人：	陈敏
地址：	215400 江苏省苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	中文文本算法分类预处理高斯径向基函数输出结果合并分类效果特征表示特征提取分类器隐藏层中心点推导准确率测量文本
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提出了一种中文文本分类方法，包括以下步骤：⑴文本的预处理，⑵特征表示和特征提取，⑶分类器的设计，⑷性能指标。本发明采用一种新的RBF神经网络算法，通过高斯径向基函数，使用K均值推导出隐藏项的中心点及宽度，并将由隐藏层得到的输出结果合并起来，从而得到分类的结果，这种算法准确率、召回率、F测量的值都很高，分类效果好。

技术领域

本发明涉及数据采集技术领域，具体涉及一种中文文本分类方法。

背景技术

本分类一般包括了文本的表达、分类器的选择与训练、分类结果的评价与反馈等过程，其中文本的表达又可细分为文本预处理、索引和统计、特征抽取等步骤。

传统的文本分类方法，通常对类别间区别较为明显的长文档进行分类，譬如网页内容分类(体育、新闻、财经和军事等)。然而在某些特定领域，如公安的接警信息自动化分类、微博情感分析等短文档分类中，类别之间的差距十分细微，对文本类别精细程度要求越高，分类的准确性就变得越低。

以朴素贝叶斯算法为例，贝叶斯算法关注的是文档属于某类别的概率。文档属于某个类别的概率等于文档中每个词属于该类别的概率的综合表达式。而每个词属于该类别的概率又在一定程度上可以用这个词在该类别训练文档中出现的次数(词频信息)来粗略估计，因而使得整个计算过程成为可行的。使用朴素贝叶斯算法时，在训练阶段的主要任务就是估计这些值。但是，在公安接警信息中，类别之间的差距十分细微，表达文档主题的关键词可能只有1至2 个，这样一来其他噪声词汇对分类结果的干扰就十分明显。特别是，随着分类精细程度的提高，如将盗窃案细分为撬门入户盗窃案、溜门入户盗窃案、插门入户盗窃案等等，此时，分类的准确率将急剧下降，远远无法满足实际应用的需要。

因此，针对上述问题，本发明提出了一种新的技术方案。

发明内容

本发明的目的是提供一种算法准确率、召回率、F测量的值都很高，分类效果好的中文文本分类方法。

本发明是通过以下技术方案来实现的：

一种中文文本分类方法，包括以下步骤：

⑴文本的预处理，其包括语料的选择、文本分词、词频统计和文本表示；

⑵特征表示和特征提取

文本的特征表示方法也就是文本的模型，采用向量空间模型，将文本简化为特征项的权重为分量的向量表示；

特征提取是指去除不能表示信息的词，以提高分类效率和减少计算复杂度，本方法采用信息增益，所述信息增益来源于信息论，它表示特征在文本中出现或者不出现为确定文本的类型所提供信息量的在大小，在文本分类中，特征t_k的信息增益公式如下所示：

其中：P(c_i)为训练中属于类型c_i的文本所占的比例，P(t_k)训练集中出现t_k的文本数除以训练集的大小，P(c_i|t_k)为c_i中出现特征t_k的文本数除以训练集中出现t_k的文本数，为训练集中不出现特征t_k的文本数除以训练集的大小，为类型c_i中不出现t_k的文本数除以训练集中不出现t_k的文本数；

⑶分类器的设计

分类器的设计即为选泽分类算法，本方法采用径向基函数RBF 网络分类算法，RBF网络是一种非线性层状前馈网络，通过学习等价于在多维空间中寻找一个能够量佳拟合训练数据的曲面，也即利用这个多维曲面对测试数据进行插值，这是径向基函数方法的出发点；

⑷性能指标

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于苏州纯青智能科技有限公司，未经苏州纯青智能科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710359493.1/2.html，转载请声明来源钻瓜专利网。

上一篇：一种图片元数据快速批处理模块及批处理方法
下一篇：一种网页分块提取分块节点的方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种中文文本分类方法在审

专利文献下载