[发明专利]基于视角的情感分析方法、电子设备、存储介质、系统在审
申请号: | 201710807153.0 | 申请日: | 2017-09-08 |
公开(公告)号: | CN107608961A | 公开(公告)日: | 2018-01-19 |
发明(设计)人: | 蔡毅 | 申请(专利权)人: | 广州汪汪信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 广州市越秀区哲力专利商标事务所(普通合伙)44288 | 代理人: | 李天星,彭成 |
地址: | 510000 广东省广州市天*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 视角 情感 分析 方法 电子设备 存储 介质 系统 | ||
技术领域
本发明涉及自然语言处理领域,尤其涉及基于视角的情感分析方法、电子设备、存储介质、系统。
背景技术
随着网络舆情分析在问题定位和问题分析中重要性的增加,对数据情感判断的需求以及带视角对文本判断的需求也越来越多。文档类型多种多样,文章中描述的情感也具有多样性,站在不同的视角,文章展现的情感倾向也不相同。同时,来源于互联网的UGC(用户产生内容)文章也随着用户语言习惯的不同而多种多样,网络用语和流行用语层出不穷,这些都给情感分析带来了一定的挑战,目前,并未将基于视角的情感分析应用于汽车领域。
发明内容
为了克服现有技术的不足,本发明的目的之一在于提供基于视角的情感分析方法,通过视角抽取和构建基于视角、方面、情感词的领域情感词典,更细粒度地分析视角下的互联网用户情感,通过分类融合,提高情感分析的准确性。
本发明提供基于视角的情感分析方法,包括以下步骤:
视角抽取,抽取待测试样本的视角,所述视角包括汽车品牌;
情感特征提取,提取所述视角的方面和所述方面对应的情感词,获取领域情感词典生成所述方面对应的情感词的概率;
情感分析,根据所述方面对应的情感词的概率分析所述待测试样本的情感倾向。
进一步地,所述视角还包括汽车厂商、汽车型号、车型参数,所述步骤视角抽取还包括抽取所述待测试样本的汽车厂商、汽车型号、车型参数。
进一步地,在所述步骤视角获取之前还包括步骤数据预处理,对所述待测试样本进行预处理,获得所述待测试样本的特征词。
进一步地,所述步骤数据预处理包括以下步骤:
数据扩增,采用网络爬虫抓取汽车领域数据扩增所述待测试样本;
文本清洗去噪,清洗所述待测试样本,获得清洗后待测试样本;
中文分词,对所述清洗后待测试样本进行分词处理,获得所述待测试样本的特征词。
进一步地,所述步骤数据扩增具体为采用scrapy框架和redis数据库创建分布式爬虫,获取所述分布式爬虫抓取汽车领域数据扩增所述待测试样本。
进一步地,所述情感特征提取具体包括以下步骤:
抽取候选词,计算所述待测试样本的特征词的TF-IDF值,并按TF-IDF值进行排序,抽取若干特征词为方面的候选词,TF为词频,IDF为逆向文件频率;
匹配方面,采用LDA聚类算法对所述方面的候选词进行聚类,获得匹配方面;
提取情感词,对待测试样本的句子进行句法分析,提取与所述匹配方面存在主谓关系或定中关系的词为候选情感词;
生成情感词概率,获取所述领域情感词典生成所述候选情感词的正面概率和负面概率。
进一步地,所述步骤情感分析具体包括以下步骤:
SVM分类,采用SVM算法对所述方面对应的情感词的概率进行修正,获得所述待测样本的第一分类;
GBDT分类,采用GBDT算法对所述方面对应的情感词的概率进行修正,获得所述待测样本的第二分类;
分类融合,对所述待测样本的第一分类和所述待测样本的第二分类进行融合,获得所述待测样本的分类。
一种电子设备,包括:处理器;
存储器;以及程序,其中所述程序被存储在所述存储器中,并且被配置成由处理器执行,所述程序包括用于执行上述基于视角的情感分析方法。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行上述基于视角的情感分析方法。
基于视角的情感分析系统,包括:
数据预处理模块:用于对待测试样本进行预处理,得到所述待测试样本的特征词;
视角抽取模块:用于抽取所述待测试样本的视角,所述视角包括汽车品牌、汽车厂商、汽车型号、车型参数;
情感特征提取模块:用于提取所述视角的方面和所述方面对应的情感词,并获取领域情感词典生成所述方面对应的情感词的概率;
情感分析模块:用于根据所述方面对应的情感词的概率分析所述待测试样本的情感倾向。
相比现有技术,本发明的有益效果在于:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州汪汪信息技术有限公司,未经广州汪汪信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710807153.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种命名实体链接的方法和装置
- 下一篇:基于复杂网络的推特大选数据分析方法