[发明专利]一种基于改进互信息和熵的文本分类特征提取方法在审

申请号：	201310129008.3	申请日：	2013-04-15
公开（公告）号：	CN103678274A	公开（公告）日：	2014-03-26
发明（设计）人：	成卫青;唐旋;范恒亮;杨庚;梁胜	申请（专利权）人：	南京邮电大学
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	南京知识律师事务所 32207	代理人：	汪旭东
地址：	210003 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供一种用于文本分类的特征提取方法，用于解决文本分类存在的准确率和召回率有待进一步提高的问题。本发明是一种策略性方法。考虑到统计热力学中熵的概念，熵用来描述体系的混乱程度，它在控制论、概率论、数论、天体物理、生命科学、信息论等领域都有重要应用。本发明认为熵同样可以用在文本分类中，可以将特征看成是一个事件，文本的类集就是一个系统，这样熵就可以衡量特征和类别的混乱程度，进而转化为它们之间关系的紧密程度。本发明在改进互信息的基础上，结合熵的概念，提出一种新的特征评估函数，并基于该函数进行特征提取，能选取更优特征子集，用以表示文本和构建分类器，以提高文本分类的准确率与召回率。
搜索关键词：	一种基于改进互信文本分类特征提取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于改进互信息和熵的文本分类特征提取方法，其特征在于，包含如下步骤：步骤1) 将数据集中的训练文本进行预处理，分词后去掉一些停用词，得到特征词，计算每个特征词在文档中出现的频度，统计全部的文档数，包含每个特征词的文档数，根据公式（5）计算每个特征的权重，并将文本表示为向量：，公式（5）为：，其中为特征(词条)t_i在文档d中的频度，N为全部的文档数量，为包含词条t_i的文档数，为一常量，其值通常取0.01，为反文档频率，分母是归一化因子；步骤2) 基于训练文本集，利用特征评估函数TFMIIE对每个特征词t进行评分；步骤21) 计算含有特征t的文档数，及其与整个训练集文档数的比值；步骤22) 对每个类别c_i，分别计算训练文本集中c_i 类文档数、含有特征t的c_i类文档数与整个训练集文档数的比值，计算训练文本集中含有特征t的c_i类文档数与含有特征t 的文档数的比值；步骤23) 按公式（8）计算特征词t的评分，公式（8）为：，其中，t为特征词，简称特征，C为训练文本的类别集合，m是文本分类类别的个数，， p(c_i)、p(t)、p(t, c_i)分别是训练文本集中c_i 类文档数、含有特征t 的文档数、含有特征t的c_i类文档数与整个训练集文档数的比值，是训练文本集中含有特征t的c_i类文档数与含有特征t 的文档数的比值；步骤3) 按照评分值从高到低的顺序对特征词进行排序；步骤4) 根据需要，选取前若干个特征词组成特征子集，用以构建文本的向量和文本分类器；根据得到的特征子集，压缩所有训练集文本向量的维数，并将特征权重再进行归一化。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京邮电大学，未经南京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201310129008.3/，转载请声明来源钻瓜专利网。

上一篇：基于视频精确识别的变电站内设备状态巡视管理系统
下一篇：用于钙法脱硫的连续制浆装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于改进互信息和熵的文本分类特征提取方法在审

专利文献下载