[发明专利]一种中文文本分类方法在审

申请号：	201710359493.1	申请日：	2017-05-19
公开（公告）号：	CN108509471A	公开（公告）日：	2018-09-07
发明（设计）人：	姚国平	申请（专利权）人：	苏州纯青智能科技有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	北京华识知识产权代理有限公司 11530	代理人：	陈敏
地址：	215400 江苏省苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提出了一种中文文本分类方法，包括以下步骤：⑴文本的预处理，⑵特征表示和特征提取，⑶分类器的设计，⑷性能指标。本发明采用一种新的RBF神经网络算法，通过高斯径向基函数，使用K均值推导出隐藏项的中心点及宽度，并将由隐藏层得到的输出结果合并起来，从而得到分类的结果，这种算法准确率、召回率、F测量的值都很高，分类效果好。
搜索关键词：	中文文本算法分类预处理高斯径向基函数输出结果合并分类效果特征表示特征提取分类器隐藏层中心点推导准确率测量文本
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种中文文本分类方法，其特征在于：包括以下步骤：⑴文本的预处理，其包括语料的选择、文本分词、词频统计和文本表示；⑵特征表示和特征提取文本的特征表示方法也就是文本的模型，采用向量空间模型，将文本简化为特征项的权重为分量的向量表示；特征提取是指去除不能表示信息的词，以提高分类效率和减少计算复杂度，本方法采用信息增益，所述信息增益来源于信息论，它表示特征在文本中出现或者不出现为确定文本的类型所提供信息量的在大小，在文本分类中，特征tk的信息增益公式如下所示：其中：P(c_i)为训练中属于类型c_i的文本所占的比例，P(t_k)训练集中出现t_k的文本数除以训练集的大小，P(c_i|t_k)为c_i中出现特征t_k的文本数除以训练集中出现t_k的文本数，为训练集中不出现特征t_k的文本数除以训练集的大小，为类型c_i中不出现t_k的文本数除以训练集中不出现t_k的文本数；⑶分类器的设计分类器的设计即为选泽分类算法，本方法采用径向基函数RBF网络分类算法，RBF网络是一种非线性层状前馈网络，通过学习等价于在多维空间中寻找一个能够量佳拟合训练数据的曲面，也即利用这个多维曲面对测试数据进行插值，这是径向基函数方法的出发点；⑷性能指标文本分类型的性能指标有准确率(Pr)、召回率(Re)和F测量，准确率和召回率的公式如下：其中：PT为正确的肯定，PF为错误的肯定，NF为错误的否定。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于苏州纯青智能科技有限公司，未经苏州纯青智能科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710359493.1/，转载请声明来源钻瓜专利网。

上一篇：一种图片元数据快速批处理模块及批处理方法
下一篇：一种网页分块提取分块节点的方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种中文文本分类方法在审

专利文献下载