[发明专利]一种基于混合模型的文本情感分析方法、装置和设备有效
申请号: | 201910554825.0 | 申请日: | 2019-06-25 |
公开(公告)号: | CN110263344B | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 李兆钧;丁永兵;雷小平 | 申请(专利权)人: | 创优数字科技(广东)有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/35;G06F16/33;G06F16/36;G06Q50/00 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 黄忠;沈闯 |
地址: | 516000 广东省广州市海珠区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 混合 模型 文本 情感 分析 方法 装置 设备 | ||
本申请公开了一种基于混合模型的文本情感分析方法、装置和设备,采用算法模型和情感词典的混合模型,同时对待分析文本进行基于算法模型的第一情感倾向性识别和基于情感词典的第二情感倾向性识别,在第二情感倾向性分析有识别结果输出时,将第二情感倾向性分析的结果作为第一最终情感识别结果进行输出,在第二情感倾向性分析没有识别结果输出时,将第一情感倾向性分析的结果作为第二最终情感识别结果进行输出,既能够得到算法模型的baseline结果的广度,又能根据情感词典的精度来进行调优,从而提升整体的准确率和覆盖率,人工参与程度降低,解决了现有的情感分析方法不能同时解决具有较高的分析准确率、减少人工参与度和扩大结果覆盖率的技术问题。
技术领域
本申请涉及文本情感分析技术领域,尤其涉及一种基于混合模型的文本情感分析识别方法、装置和设备。
背景技术
文本情感分析,又称意见挖掘、倾向性分析等,简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。互联网上产生了大量的用户参与的、对于诸如人物、事件、产品等有价值的评论信息,这些评论信息表达了人们的各种情感色彩和情感倾向性,基于此,潜在的用户就可以通过浏览这些主观色彩的评论来了解大众舆论对于某一事件或产品的看法。
现有的情感分析方法分为两类,一类是基于情感词典的方法,通过匹配文本中情感词个数来计算识别情感倾向,该方法前期需要耗费大量的人力搭建庞大的情感词库,后期仍需要大量的人力维护该词库;另一类是基于算法模型的方法,利用标注大量的训练样本训练模型预测新样本,该方法需要前期标注大量的训练样本,而且训练数据一般存在分类样本不均衡的现象,会对预测结果造成影响,此外由于网络语言迭代迅速,需要不断添加训练样本,保持模型的更新。基于算法模型的方法的优点是快速完成建模并得到baseline结果,但是存在分析准确率不高且难以调优的问题,基于情感词典的方法,虽然相对来说分析准确率更高一些,但是存在人工参与度较高和结果覆盖率不够的问题。
发明内容
本申请实施例提供了一种基于混合模型的文本情感分析方法、装置和设备,用于解决现有的情感分析方法不能同时解决具有较高的分析准确率、减少人工参与度和扩大结果覆盖率的技术问题。
有鉴于此,本申请第一方面提供了一种基于混合模型的文本情感分析方法,包括以下步骤:
101、将待分析文本输入预置算法模型进行第一情感倾向性分析,同时根据预置情感词典模型对所述待分析文本进行第二情感倾向性分析;
102、判断所述第二情感倾向性分析是否有识别结果输出,若是,则输出所述第二情感倾向性分析的结果作为第一最终情感识别结果,否则,输出所述第一情感倾向性分析的结果作为第二最终情感识别结果。
优选地,步骤101之前还包括:
S10、对从社交网络上采集的大规模的社交网络文本构成的文本语料库中的文本样本进行word2vec模型训练,得到词向量库;
S11、将所述文本语料库中同一文本中的所有词向量表示转换成所述同一文本的文本向量表示,将所述文本向量表示划分为训练集和验证集进行若干类算法模型的模型训练,得到满足预设条件的算法模型作为所述预置算法模型。
优选地,步骤101之前还包括:
S2、对文本语料库中的文本样本进行筛选和过滤,计算所述文本样本中各词条的倾向性概率,得到由正面词条、负面词条以及两者的权重大小组成的正负情感权重词典模型,将所述正负情感权重词典模型作为所述预置情感词典模型。
优选地,步骤S2具体包括:
S21、对文本语料库中的文本样本进行分词、文本过滤和清除噪音;
S22、计算所述文本样本的各词条出现对应的所述文本样本为负面的概率和所述文本样本为正面的概率;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创优数字科技(广东)有限公司,未经创优数字科技(广东)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910554825.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于短语向量的关键词抽取方法及系统
- 下一篇:关键词提取方法、装置及存储介质