[发明专利]文本特征向量的确定方法及系统、文本分类方法及系统在审
申请号: | 201810092766.5 | 申请日: | 2018-01-31 |
公开(公告)号: | CN108280211A | 公开(公告)日: | 2018-07-13 |
发明(设计)人: | 陈宏伟;侯亚君;宗欣露;叶志伟;罗启星;胡周;韩麟;符恒 | 申请(专利权)人: | 湖北工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 王戈 |
地址: | 430000 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种文本特征向量的确定方法及系统、文本分类方法及系统。确定方法包括:获取训练文本集;采用卡方检验方法提取文本特征;构建水波群并初始化;选出当前最优水波并判断适应度值是否小于适应度阈值;若否,确定最优文本特征向量;若是,进行传播处理并计算适应度值;判断水波适应度值是否增大;若是,用传播处理后的水波代替传播处理前的水波;否则保留传播处理前的水波;根据各第二判断结果更新水波群及迭代次数,并重新确定当前最优水波;判断迭代次数是否小于迭代阈值;若是则判断当前最优水波的适应度值是否达到适应度阈值;否则确定最优文本特征向量。本发明提供的方法及系统能够在保证分类的精度的前提下降低文本特征向量的维数。 | ||
搜索关键词: | 水波 适应度 文本特征向量 迭代 文本分类 传播 训练文本集 方法提取 判断结果 文本特征 重新确定 初始化 构建 维数 分类 保留 更新 检验 保证 | ||
【主权项】:
1.一种文本特征向量的确定方法,其特征在于,所述确定方法包括:获取训练文本集,所述训练文本集包括若干训练文本;采用卡方检验方法提取每个所述训练文本的文本特征;根据各个所述训练文本的文本特征生成预选文本特征集,所述预选文本特征集包括若干预选文本特征;构建包括若干多维水波的水波群,并初始化各所述多维水波的位置、波高和波长,其中,每个所述多维水波的位置对应一个所述预选文本特征集的文本特征向量;计算所述水波群中每个多维水波的适应度值,并选出适应度值最大的多维水波作为当前最优水波;判断所述当前最优水波的适应度值是否大于或者等于适应度阈值,获得第一判断结果;若所述第一判断结果表示所述当前最优水波的适应度值大于或者等于适应度阈值,则根据所述当前最优水波的位置确定所述预选文本特征集的最优文本特征向量;若所述第一判断结果表示所述当前最优水波的适应度值小于适应度阈值,则对所述水波群中的各所述多维水波进行传播处理,并计算所述传播处理后的多维水波的适应度值;判断所述传播处理后的多维水波的适应度值是否大于所述传播处理前的多维水波的适应度值,获得第二判断结果;若所述第二判断结果表示传播处理后的多维水波的适应度值大于传播处理前的多维水波的适应度值,则用传播处理后的多维水波代替所述水波群中与所述传播处理后的多维水波对应的传播处理前的多维水波;若所述第二判断结果表示传播处理后的多维水波的适应度值小于或者等于传播处理前的多维水波的适应度值,则保留所述水波群中与所述传播处理后的多维水波对应的传播处理前的多维水波;根据各个所述第二判断结果更新所述水波群,并更新所述水波群的迭代次数;计算更新后的所述水波群中的每个多维水波的适应度值,并将更新后的适应度值最大的多维水波作为当前最优水波;判断所述迭代次数是否小于迭代阈值,获得第三判断结果;若所述第三判断结果表示所述迭代次数小于迭代阈值,则返回所述步骤“判断所述当前最优水波的适应度值是否大于或者等于适应度阈值”;若所述第三判断结果表示所述迭代次数大于或者等于迭代阈值,则根据所述当前最优水波的位置确定所述预选文本特征集的最优文本特征向量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北工业大学,未经湖北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810092766.5/,转载请声明来源钻瓜专利网。