[发明专利]一种基于混合模型的文本情感分析方法、装置和设备有效
申请号: | 201910554825.0 | 申请日: | 2019-06-25 |
公开(公告)号: | CN110263344B | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 李兆钧;丁永兵;雷小平 | 申请(专利权)人: | 创优数字科技(广东)有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/35;G06F16/33;G06F16/36;G06Q50/00 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 黄忠;沈闯 |
地址: | 516000 广东省广州市海珠区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 混合 模型 文本 情感 分析 方法 装置 设备 | ||
1.一种基于混合模型的文本情感分析方法,其特征在于,包括以下步骤:
S1、对从社交网络上采集的大规模的社交网络文本构成的文本语料库中的文本样本进行word2vec模型训练,得到词向量库;
S2、将所述文本语料库中同一文本中的所有词向量表示转换成所述同一文本的文本向量表示,将所述文本向量表示划分为训练集和验证集进行若干类算法模型的模型训练,得到满足预设条件的算法模型作为预置算法模型,具体包括:
S21、将所述文本语料库中同一文本样本下的所有所述词向量进行对应维度的平均计算,得到所述同一文本样本的文本向量表示;
S22、将所述文本向量表示划分为训练集和验证集进行若干类算法模型的模型训练,得到满足预设条件的算法模型作为所述预置算法模型;
S3、对文本语料库中的文本样本进行筛选和过滤,计算所述文本样本中各词条的倾向性概率,得到由正面词条、负面词条以及两者的权重大小组成的正负情感权重词典模型,将所述正负情感权重词典模型作为预置情感词典模型;
其中,对于所述文本样本中负面概率大于预置阈值的负面词条,以所述负面概率的相反数作为所述负面词条的第一情感倾向权重,对于正面概率大于所述预置阈值的正面词条,以所述正面概率作为所述正面词条的第二情感倾向权重,由所述正面词条、所述第一情感倾向权重、所述负面词条和所述第二情感倾向权重组成正负情感权重词典模型;
S4、将待分析文本输入预置算法模型进行第一情感倾向性分析,同时根据预置情感词典模型对所述待分析文本进行第二情感倾向性分析;
S5、判断所述第二情感倾向性分析是否有识别结果输出,若是,则输出所述第二情感倾向性分析的结果作为第一最终情感识别结果,否则,输出所述第一情感倾向性分析的结果作为第二最终情感识别结果。
2.根据权利要求1所述的基于混合模型的文本情感分析方法,其特征在于,步骤S3具体包括:
S31、对文本语料库中的文本样本进行分词、文本过滤和清除噪音;
S32、计算所述文本样本的各词条出现对应的所述文本样本为负面的概率和所述文本样本为正面的概率;
S33、输出所述文本样本中负面概率或正面概率大于预置阈值的词条,对于所述负面概率大于所述预置阈值的负面词条,以所述负面概率的相反数作为所述负面词条的第一情感倾向权重,对于所述正面概率大于所述预置阈值的正面词条,以所述正面概率作为所述正面词条的第二情感倾向权重,得到由所述正面词条、所述第一情感倾向权重、所述负面词条和所述第二情感倾向权重组成的正负情感权重词典模型,将所述正负情感权重词典模型作为所述预置情感词典模型。
3.根据权利要求1所述的基于混合模型的文本情感分析方法,其特征在于,所述若干类算法模型包括:逻辑回归分类模型、支持向量机分类模型、朴素贝叶斯分类模型、随机森林分类模型、GBDT分类模型和xgboost分类模型。
4.根据权利要求1所述的基于混合模型的文本情感分析方法,其特征在于,所述预置算法模型根据十折交叉验证法优化模型参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创优数字科技(广东)有限公司,未经创优数字科技(广东)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910554825.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于短语向量的关键词抽取方法及系统
- 下一篇:关键词提取方法、装置及存储介质