[发明专利]一种面向中文Web评论的文本情感分类方法无效
申请号: | 201310050250.1 | 申请日: | 2013-02-08 |
公开(公告)号: | CN103116637A | 公开(公告)日: | 2013-05-22 |
发明(设计)人: | 李千目;倪铭;印杰;侯君 | 申请(专利权)人: | 无锡南理工科技发展有限公司;江苏警官学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 214192 江苏省无锡市锡*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 中文 web 评论 文本 情感 分类 方法 | ||
1.一种面向中文Web评论的文本情感分类方法,其特征在于:整个过程可分为两个部分:训练过程和分类过程;
训练过程按照以下步骤进行:
步骤一、训练文本预处理;
步骤二、特征选择:用频数等统计量来计算文本中的词条在类别中的分布情况,经过特征选择,得到该类别的局部特征,所有类别的局部特征词集合的并集构成训练集的全局特征词集合;
步骤三、文本的向量化表示:将每个类别映射到全局特征词集合上,进行向量化表示,便可得到类别的特征向量,特征向量包括权重和特征词个数;
步骤四、训练分类器;
分类过程按照以下步骤进行:
测试文本预处理→特征选择→分类器分类→输出分类结果;具体处理如下:
步骤一、测试文本预处理将测试文本化成全局特征词集合上的特征向量;
步骤二、特征选择;
步骤三、分类器分类:选择相应的分类方法,计算待测文本向量和类别向量之间的相似度,相似度值最大的类别就是待测样本最终的分类;
步骤四、输出分类结果。
2.根据权利要求1所述的面向中文Web评论的文本情感分类方法,其特征在于:所述的训练过程中的步骤一中训练文本预处理使用中文分词器或去除停用词文本预处理方法对评论数据集进行预处理。
3.根据权利要求1或2所述的面向中文Web评论的文本情感分类方法,其特征在于:所述的训练过程中和分类过程的步骤二中的特征选择通过特征选择方法和权重计算方法选择特征以及计算特征权重,将所有评论文本表示为向量。
4.根据权利要求1所述的面向中文Web评论的文本情感分类方法,其特征在于:所述的训练过程中的步骤三中训练分类器通过手工标注褒贬类别包括正面和负面的评论文本对NaiveBayes分类器进行训练。
5.根据权利要求3所述的面向中文Web评论的文本情感分类方法,其特征在于:所述的特征选择方法和权重计算方法如下:
步骤一、使用文档频率的方法对文档进行初步特征选择,并计算各特征的权重,即文档频率;
步骤二、针对中文词组、语句在不同环境下情感倾向不同的特殊性,在特征词的文档频率的统计过程中,运用混合单词特征,否定词特征,情感修饰特征,情感转移特征句法特征的情感分析方法来动态改变特征值的词性或者特征的权重;
步骤三、通过信息增益的方法筛选出对文档情感倾向影响较大的特征词,设定一个阈值,从原始特征空间中移除低于特定阈值的词条,保留高于阈值的词条作为表示文档的特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于无锡南理工科技发展有限公司;江苏警官学院,未经无锡南理工科技发展有限公司;江苏警官学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310050250.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种点钞机
- 下一篇:四雷达光源汽车智能系统