[发明专利]一种基于蚁群算法的网页类特征向量提取方法有效
申请号: | 201410004815.7 | 申请日: | 2014-01-06 |
公开(公告)号: | CN103744959B | 公开(公告)日: | 2017-01-25 |
发明(设计)人: | 蒋昌俊;陈闳中;闫春钢;丁志军;王鹏伟;孙海春;邓晓栋;刘俊俊 | 申请(专利权)人: | 同济大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海天协和诚知识产权代理事务所31216 | 代理人: | 叶凤 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种利用改进的蚁群算法提取特征词,具体过程在预处理时,将所有信息存取到hash表中,其中coco_prepare存取每篇文章的信息,包括文章的id和每个词及其出现的次数;readhdfs_prepare存取每个类的训练集的统计信息,包括每个词的词频,文档数,和类名共现的次数;设置蚁群算法的参数蚂蚁个数M;迭代次数N;蚂蚁走的步数即特征词个数K;初始化路径信息素矩阵adMatrixs;局部更新衰减速率p1和全局更新衰减速率p2;蚂蚁释放信息素量m;本发明首次引入蚁群算法解决在没有准确样本集的情况下为类提取准确的特征向量的问题。 | ||
搜索关键词: | 一种 基于 算法 网页 特征向量 提取 方法 | ||
【主权项】:
一种基于蚁群算法的网页类特征向量提取方法,其特征在于,具体过程:在预处理时,将所有信息存取到hash表中,其中coco_prepare存取每篇文章的信息,包括文章的id和每个词及其出现的次数;readhdfs_prepare存取每个类的训练集的统计信息,包括每个词的词频,文档数,和类名共现的次数;设置蚁群算法的参数:蚂蚁个数M;迭代次数N;蚂蚁走的步数即特征词个数K;初始化路径信息素矩阵adMatrixs;局部更新衰减速率p1和全局更新衰减速率p2;蚂蚁释放信息素量m;第一步,将M只蚂蚁随机放到第一个词上,由于候选集合大,人为的限制蚂蚁的随机范围,具体做法为:计算每个特征词的tf*Idf值,取出值最大的前20~30个作为蚂蚁第一条路径的随机范围;第二步,对每个蚂蚁,维护一张禁忌表result,该表中存有蚂蚁走过的词,在下一步的候选集candidate中排除该表中的所有词;在选择的过程中,按照以下步骤计算被选择的可能性:(1)从表readhdfs_prepare中取出该词的词频tf,并获得所有词中最大的词频tf_max和最小的词频tf_min,进行归一化处理:tf=(tf‑tf_min)/(tf_max‑tf_min);(2)从表readhdfs_prepare中取出该词的文档数df,并获得所有词中最大的文档数df_max和最小的文档数df_min,进行归一化处理:df=(df‑df_min)/(df_max‑df_min);(3)从表readhdfs_prepare中取出该词同类名的共现数co,并获得所有词中最大的共现数co_max和最小的共现数co_min,进行归一化处理:co=(co‑co_min)/(co_max‑co_min);(4)从表coco_prepare中获得result表中所有的词和该词的共现次数之和coco,并计算得出所有的词中共现的最大值coco_max和最小值coco_min,并进行归一化处理:coco=(coco‑coco_min)/(coco_max‑coco_min);(5)获得对应路径上的信息素值r;(6)根据四部分所占的比例tf_per,df_per,co_per,coco_per计算被选择的可能性p=tf_per*tf+df_per*df+co_per*co+coco_per*coco+r;第三步,在所有候选词计算完成之后,选择p值最大的那个词作为蚂蚁此次所选的词,并记录下该词的权重值,将该词加进该蚂蚁的禁忌表result中,从该蚂蚁的候选集中删除该词,继续走下一步;第四步,当所有蚂蚁完成K步之后,获得M条路径更新路径的信息素含量,更新公式为:r=(1‑p1)*r+p1*m;第五步,从M条路径中选取最优的一条路径并记录最优路径的适应度值为fit_best进行全局更新,更新该路径上没个特征词的信息素含量为:r=(1‑p2)*r+p2*(1/fit_best);第六步,判断迭代次数是否小于N,如果是,继续下一次迭代,重复第一到第五步,完成局部特征值提取;如果等于N,则最后一次迭代的最优路径中的词即为实际所要的能够代表该类的特征词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410004815.7/,转载请声明来源钻瓜专利网。