[发明专利]基于词典的多维度情感分析方法在审
申请号: | 201611150853.9 | 申请日: | 2016-12-13 |
公开(公告)号: | CN106610955A | 公开(公告)日: | 2017-05-03 |
发明(设计)人: | 张晓霞;刘世林 | 申请(专利权)人: | 成都数联铭品科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610041 四川省成都市高新区*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 词典 多维 情感 分析 方法 | ||
技术领域
本发明自然语言处理领域,特别涉及基于词典的多维度情感分析方法。
背景技术
随着互联网的快速发展,产生了大量的、公开的网页数据,也因此催发了各种基于大数据技术的新兴产业,比如互联网医疗、互联网教育、企业或者个人征信等。这些互联网产业的兴起与繁荣离不开大量的数据信息分析。大数据分析中自然语言处理占据重要的地位,面对海量的网络文本资源通过运用自然语言处理分析方法自动地、智能抽取出我们所关心的信息,或判断出文本或者文本发布者所蕴含的某种情感倾向,无论是在舆情分析还是商业调查中都有着至关重要的实际应用意义。利用这些分析结果,可以对事情的发展演变进行正确的预判,进而提前采取相应的措施来实现更大的正面效果。
而情感分析主要有两大类方法,一类是基于机器学习的方法,另一类是基于词典的方法。基于机器学习的方法首先是构建分类器,将待分析文本输入到分类器中进行进行分析。这种方法的局限在于,构建分类器,需要大规模语料来对分类器进行训练,而且分类特征的选择也非常具有挑战,特征选择的优劣将直接影响分类器的性能。基于词典的方法,以词典中的词作为特征,通过词典匹配来抽取对应的特征词汇,在特征词汇抽取的基础上结合设定的模型或者算法来判定该文本对应的倾向或者性质,分析的可靠性大大增加。
基于词典的情感分析方法在自然语言分析中具有重要的应用,以词典中的词作为特征,通过词典匹配来抽取对应的特征词汇,在特征词汇抽取的基础上结合设定的模型或者算法来判定该文本对应的倾向或者性质,分析的可靠性大大增加。基于情感词典的情感分析方法是有针对性的分析和挖掘,不同的领域所采取的词典也有很大的不同,目前现有的领域词典,却缺乏对具体问题的适用性,针对性不强。在分析具体领域或者具体话题时,使用现有的大而宽泛的领域词典,并不能够达到较好的分析效果。
此外,现阶段的情感分析需求的维度越来越多,对同一目标群体的分析方向也越来越细致,针对不同的分析维度需要构建不同的词典来进行相应的特征抽取,现有的方法中不同分析方向的词典都是分开进行构建的,逐一手动构建词典的方式非常的耗时耗力,增加了对目标群体进行全面多方位分析的难度,从技术实现上来说增加了项目的工时,延长了项目的交期。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供基于词典的多维度情感分析方法,在初始文本集中自动获取文本关键词,对待处理文本进行聚类,形成N个领域或者主题文本集;根据分析需要,在M个领域中选取少量的领域种子词;逐个分析各领域种子词与主题文本集的关系远近,保留关系最近的文本集作为各领域词典扩展的源文本集;并结合互信息算法计算种子词与候选词的关联度,将关联度大于阈值的候选词添加到对应的领域词典中;在词典的基础上对目标对象相关文本进行对应特征抽取,并且结合模型算法判断出目标对象各个方向的情感倾向。
为了实现上述发明目的,本发明提供了以下技术方案:基于词典的多维度情感分析方法,包含以下实现步骤:
(1)构建初始文本集;
(2)提取出初始文本集中各文本的关键词;
(3)对待处理文本进行聚类,生成N个主题文本集,其中N为整数且N≥2;
(4)构建M个领域,选取各领域的种子词,其中M为≤N的正整数;
(5)依次统计各领域种子词在各主题文本集中出现的频率;将频率最高的主题文本集作为对应领域词典扩展的源文本集;
(6)计算各领域种子词与对应源文本集的文本中各候选词的关联度,将关联度到达设置阈值的候选词作为该领域词存入对应的词典中。
(7)利用的构建的领域词典对待分析文本进行特征抽取,结合权重模型计算出对应领域方向的情感倾向。
具体的,本发明方法包含分词、去高频词、去停用词的预处理步骤。
进一步的,所述步骤(2)中采用以下算法公式提取文本中关键词。所述算法的计算公式为:
TR(vi)是文本中词vi的重要性,r是阻尼系数,一般设置为0.85,N是无向图中所有词的个数,relat{vi}是与词vi有共现关系的词集合,vj是relat{vi}中的任意一个词,TR(vj)是vj的重要性,N(pj)是与vj有共现关系的词的个数。
进一步的,所述步骤(3)中对待处理文本聚类包含以下过程:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都数联铭品科技有限公司,未经成都数联铭品科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611150853.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:关键词标签的配置方法及装置
- 下一篇:机械生产制造词汇翻译系统