[发明专利]倾向性分析的蚁群文本组合的处理方法无效
申请号: | 201010200727.6 | 申请日: | 2010-06-13 |
公开(公告)号: | CN101859327A | 公开(公告)日: | 2010-10-13 |
发明(设计)人: | 李建华;张月国;李生红;李燕;李海燕 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海交达专利事务所 31201 | 代理人: | 王锡麟;王桂忠 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 倾向性 分析 文本 组合 处理 方法 | ||
1.一种倾向性分析的蚁群文本组合的处理方法,其特征在于,包括以下步骤:
第一步,对标准库作倾向性分析:对标准库的特征词集作倾向性分析,每一类别均分为正面、负面和中立面三个特征子类,即将原A类别的特征词集分为A+、A-和Ao三个子类,原B类别的特征词集分为B+、B-和Bo三个子类,以此论推,
第二步,初始化参数并将信息装入蚂蚁:初始化文本处理方法中用到的阈值参数,并将A+、A-和Ao以及B+、B-和Bo等特征子类分别装入蚂蚁,每只蚂蚁只携带一个子类的特征词,蚂蚁个数大于标准库中子类别个数,
第三步,应用蚁群算法进行处理:
步骤1)将待处理文本经过分词、特征选择与提取等预处理后散置在平面上,让蚂蚁在这些节点上爬行;
步骤2)计算蚂蚁当前所在文本特征词向量与其携带特征词向量的相似度;
步骤3)每只蚂蚁对当前节点的处理是,若相似度大于阈值α,则对该节点做出类别标记;
步骤4)若相似度不大于阈值α,则进入选择下一个爬行节点;
步骤5)蚂蚁在选择下一个爬行节点时,先计算周围未爬行节点的相似度,遇到第一个相似度大于阈值α的节点则转步骤4);
步骤6)若与所有未爬行的节点的相似度均不大于阈值α,则此只蚂蚁对所有结节已遍历完,结束迭代;
步骤7)标记类别,并更新信息素,即和上一个爬行节点通道路;
步骤8)转入步骤3)进入选择下一个节点;
第四步,处理结果:此时可以得到内容属别结果,装有A+、A-和Ao类特征词集的所有蚂蚁所连通的文本节点均为A类舆情信息,并且这些信息分别为正面的、负面的和中立面的,对B、C、D等其他类别的结果同理可得,所述方法中的文本节点,以特征词向量表示,同时节点在蚂蚁遍历的过程中储存蚂蚁对其已作的类别标志和连通信息,在所有蚂蚁迭代结束后将具有同类别的节点链聚合即得到处理结果,由此得到的结果既具有类别区分度,又具有倾向性区分度。
2.根据权利要求1所述的倾向性分析的蚁群文本组合的处理方法,其特征是,所述的标准库,是用来训练蚂蚁的特征词库,里面包含了用来判断话题种类的特征词。
3.根据权利要求1所述的倾向性分析的蚁群文本组合的处理方法,其特征是,所述的特征词集,是由能表征文本内容的特征词构成的集合。
4.根据权利要求1所述的倾向性分析的蚁群文本组合的处理方法,其特征是,所述的特征子类是指:正面、负面和中立面,是指特征词的肯定、否定和中立或者褒扬、贬损和中立的特性。
5.根据权利要求1所述的倾向性分析的蚁群文本组合的处理方法,其特征是,所述的倾向性分析,即对主观性特征词所表示的倾向性意见做出肯定/否定/中立或者褒扬/贬损/中立的判断,利用已有的褒贬义词典判定词典中已有的特征词的倾向性,利用同义词词库判定与褒贬义词典中同义词的倾向性,利用语义分析技术判定其他未知词及呈现多倾向性特征词的倾向性。
6.根据权利要求1所述的倾向性分析的蚁群文本组合的处理方法,其特征是,所述的特征子类,包括倾向性特征词和原类别主题词,即除了包括观点性的倾向性特征词外,还包括每类的主题相关特征词。
7.根据权利要求1所述的倾向性分析的蚁群文本组合的处理方法,其特征是,所述蚂蚁装入的信息,包括本蚂蚁所携带的子类别号和子类别特征词集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010200727.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种条码解码芯片
- 下一篇:一种对海量文件进行存取的方法及装置