[发明专利]一种文本正负类情感分类方法有效
申请号: | 201710532502.2 | 申请日: | 2017-07-03 |
公开(公告)号: | CN107423371B | 公开(公告)日: | 2020-09-08 |
发明(设计)人: | 李光敏;林志伟;王晖;魏欣 | 申请(专利权)人: | 湖北师范大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/30 |
代理公司: | 武汉智嘉联合知识产权代理事务所(普通合伙) 42231 | 代理人: | 黄君军 |
地址: | 435002*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 正负 情感 分类 方法 | ||
本发明是一种文本正负类情感分类方法,包括步骤:对文本集合中的所有文本进行预处理,形成无噪音的正负例文本集合,对正负例文本进行unigram分词和bigram分词,并去掉停用词后,形成无重复的多维特征向量空间,对多维特征向量空间中的各维特征向量进行变体词频逆文档频率计算,最后结合已标注的正负情感类别标签,将形成的词项‑文档矩阵作为监督分类器支持向量机和逻辑回归的输入因子,进行训练后得到最终的文本线性分类器预测模型,即可为新的未知文本进行情感分类。本发明有效利用已标注语料中的情感词先天具备分类能力的特征,提出新的计算方法来最大化这些情感词的类别区分度,提高了计算机对文本情感分类的精确度。
技术领域
本发明涉及自然语言处理及机器学习领域,特别涉及一种文本正负类情感分类方法。
背景技术
随着互联网的飞速发展,Web文本成为交流情感、发表观点的主要载体和热点话题的信息源。用户通过社会化媒体(论坛、博客、微博)分享对所购商品的使用感受、新上映电影的评论、当前热点新闻的个人看法等,这些言论往往包含有喜、怒、哀、乐、肯定、否定、中立等个人丰富的情感和观点。正是这些包含丰富情感的Web评论文本的涌现,一方面可帮助生产厂商通过网络口碑(Electronic Word-of-mouth)了解产品优势和不足,以改进产品设计和服务,调整广告投放策略,获得市场竞争优势;另一方面可帮助消费者了解产品性能,缩短购买决策时间。如果仅靠手工对这些日益增长的海量信息进行归纳、分类,显然是不现实的。因此结合信息检索、自然语言处理、机器学习等领域知识对非结构化的文本进行提取和分类的情感分析技术(Sentiment Analysis)便应运而生。这种研究不仅帮助消费者全面、综合地了解其他消费者对产品的评价和生产厂商来获悉产品的优势以及产品性能在消费者心目中的地位和受欢迎程度,有广阔的市场应用价值,而且有助于推动自然语言处理技术在短文文本情感分析方面的进一步发展,有一定的研究价值。
TFIDF是情感分类任务中最常用的特征权重计算方法,国内外不少学者提出了各种TFIDF变体实现,包括delta TF-IDF[1],TF-RF[2],SentiStrength[3],TF-KL[4],但是这些技术方案主要存在的问题如下:1)未能有效捕获情感表达中的语义信息;2)未能反映出字词本身所携带的情感分类能力。其中Martineau and Finin提出的delta TF-IDF方案能够有效地计算字词分值并通过Support Vector Machine(支持向量机)分类器来提高文本的情感分类准确率,但是这种方式没有考虑到IDF的平滑因子,如果某个情感词没有出现在正类或负类的文本中时,就出现被零除的错误。Tam T提出的TF-RF监督式term权重计算方法有意识地提高了term在正类文本中的重要程度,对文本的正负分类起到了很好的分类效果,但是对于训练样本不足的类的term权重分配很低,这种问题在不平衡语料的分类任务中表现的尤为突出。
[1]Justin Martineau and Tim Finin.2009.Delta TFIDF:An ImprovedFeature Space for Sentiment Analysis.9(2009),106.00183.
[2]M.Lan,C.L.Tan,J.Su,and Y.Lu.2009.Supervised and Traditional TermWeighting Methods for Automatic Text Categorization.IEEE Transactions onPattern Analysis and Machine Intelligence 31,4(April 2009),721–735.
[3]Mike Thelwall,Kevan Buckley,Georgios Paltoglou,Di Cai,and ArvidKappas.2010.Sentiment Strength Detection in Short Informal Text.61,12(2010),2544–2558.00739.
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北师范大学,未经湖北师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710532502.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:复合包装膜
- 下一篇:一种半导体复合聚酯基膜