[发明专利]一种基于文本类特征选择进行降维的方法和装置有效

申请号：	201610639904.8	申请日：	2016-08-05
公开（公告）号：	CN106294689B	公开（公告）日：	2018-09-25
发明（设计）人：	张达;亓开元;苏志远	申请（专利权）人：	浪潮电子信息产业股份有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	济南信达专利事务所有限公司 37100	代理人：	李世喆
地址：	250100 山东***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供一种基于文本类特征选择进行降维的方法和装置，该方法包括步骤：获取待处理的文本；采用HanLP进行分词得到多个词项，去除所述词项中的停用词；统计词频、词项文档频率以及文档词数；将词项、词频和词项文档频率以及文档词数存储并形成初级文本向量；对初级文本向量进行信息增益计算，按照信息增益量的大小排序，将满足预设要求的词汇形成特征选择的基准向量；将待处理的文本按照基准向量进行降维，形成降维后的文本向量。该装置包括：获取模块、分词模块、统计模块、向量模块、信息增益计算模块和降维模块。该方法和装置，基于信息增益算法进行文本特征选择，对特征词集合向量进行降维处理，减少了维度过大造成的计算负担。
搜索关键词：	一种基于文本特征选择进行方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于文本类特征选择进行降维的方法，其特征在于，包括步骤：步骤A，获取待处理的数据源文本的详细信息并存储；步骤B，对所述数据源文本进行分词得到多个词项，去除所述词项中的停用词；步骤C，统计词频、词项文档频率以及文档词数；步骤D，将所述词项、词频和词项文档频率以及文档词数存储并形成初级文本向量；步骤E，对所述初级文本向量进行信息增益计算，得到各词项的信息增益量，按照所述信息增益量的大小排序，将满足预设要求的多个词汇形成特征选择的基准向量；步骤F，将待处理的文本按照所述基准向量进行降维，形成降维后的文本向量；所述步骤E中进行信息增益计算包括步骤：将每篇文本作为一个类别，将文本中的词项作为特征，按照如下公式计算信息增益量所述步骤E中，其中DF_T表示特征(T)的文档频率；其中TF_i表示每个词项的出现频率；N，表示总文本数，即总类别数；P(C_i)，表示类别C_i出现的概率，即文本D_i出现的概率，等于P(t)，表示特征(T)出现的概率，采用包含特征(T)的文本数量除以总文本数量N，即：其中DF_T表示特征(T)的文档频率；，表示特征(T)不出现的概率，等于1‑P(t)；P(Ci|t)，表示文本包含特征(T)且属于类别Ci的概率；这里，存在两种估计方式：采用包含特征(T)且属于类别C_i的文本数量除以总文本数，值为0或按贝叶斯公式展开，P(t|C_i)表示类别C_i中特征(T)出现的概率，即特征(T)在文档D_i中出现的概率，采用其中TF_i表示每个词项的出现频率；TF_T表示每个特征T出现的频率；表示文本不包含特征(T)且属于类别C_i的概率；这里，存在两种估计方式：采用不包含特征(T)且属于类别C_i的文本数量除以总文本数，值为0或按贝叶斯公式展开，其中需要注意的是：在估计P(t)时，P(t)可能为1，这将造成的值为0，从而使无法计算；所以P(t)实际采用进行估计；根据如果TF_T的值为0，这将使P(t|C_i)的值为0；所以P(t|C_i)实际采用进行估计。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司，未经浪潮电子信息产业股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610639904.8/，转载请声明来源钻瓜专利网。

上一篇：一种市电直接输入的高亮度LED驱动电路
下一篇：智能调光LED植物灯

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于文本类特征选择进行降维的方法和装置有效

专利文献下载