[发明专利]基于领域的中文短文本情感分类方法有效
申请号: | 201510415825.4 | 申请日: | 2015-07-15 |
公开(公告)号: | CN105069021B | 公开(公告)日: | 2018-04-20 |
发明(设计)人: | 舒磊;牛建伟;毛凯莉;傅树霞;赵晓轲 | 申请(专利权)人: | 广东石油化工学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京纵横知识产权代理有限公司32224 | 代理人: | 董建林 |
地址: | 525000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于领域的中文短文本情感分类方法,包括对短文本进行数据预处理,即句子分割、分词、停用词过滤和领域划分;构建面向领域的领域情感词典;利用上述情感词典,并以语料库为数据集,进行情感路径的提取和匹配、候选词的抽取和极性判别以及情感词的TF‑IDF权重计算;提取短文本情感特征;采用随机森林算法对语料库进行训练或对未知情感类型的短文本进行判别。实验表明,本发明所提方案具有很高的准确率。 | ||
搜索关键词: | 基于 领域 中文 文本 情感 分类 方法 | ||
【主权项】:
一种基于领域的中文短文本情感分类方法,其特征在于,包括:对短文本进行数据预处理,包括句子分割、分词、停用词过滤和领域划分;构建不同领域的领域情感词典;利用所述领域情感词典和预处理后数据计算短文本的情感值;提取短文本的情感特征;根据所提取的情感特征采用随机森林为分类工具对语料库进行训练或对未知情感类型的短文本进行判别;所述构建不同领域的领域情感词典,具体包括:从现有情感词典中挑选出与领域无关的情感词,并从中删掉有歧义和不常用的词语,组成基础情感词典;抽取语料库中所有的名词并按词频进行排序,并利用阈值法挑出词频较高的名词作为评价对象;采用依存文法分析抽取所述评价对象和所述基础情感词典中的修饰情感词之间的所有情感路径;根据所述所有情感路径,匹配与所述评价对象相符的情感路径对应的词语,在排除基础情感词典中的词语后,将得到词性为形容词、副词和动词的词汇作为候选情感词;采用词语相似性判别算法对所述候选情感词进行情感极性分类后,与基础词典叠加,构成领域情感词典。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东石油化工学院,未经广东石油化工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510415825.4/,转载请声明来源钻瓜专利网。