[发明专利]一种基于融合多级别主题情感模型的文本分类方法及装置有效
申请号: | 202111009968.7 | 申请日: | 2021-08-31 |
公开(公告)号: | CN113688241B | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 黎荆妗;杜小东;朱征宇;赵福强;韩萍 | 申请(专利权)人: | 重庆大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06F40/242 |
代理公司: | 重庆市前沿专利事务所(普通合伙) 50211 | 代理人: | 郭云;肖秉城 |
地址: | 400044 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 融合 多级 主题 情感 模型 文本 分类 方法 装置 | ||
1.一种基于融合多级别主题情感模型的文本分类方法,其特征在于,包括以下步骤:
S1,对文本进行预处理;
预处理包括第一预处理和第二预处理;所述第一预处理包括句法结构分析以及删除停用词;所述第二预处理包括词干化、移除非法字符、移除数字、移除停用词以及移除标点符号;所述第一预处理后的文本用于输入语块级主题情感模型CTSM;所述第二预处理后的文本用于输入单词级主题情感模型JST和句子级主题情感模型SJTSM;
S2,预处理后的文本输入单词级主题情感模型JST、语块级主题情感模型CTSM和句子级主题情感模型SJTSM中,分别提取文本的单词级、语块级和句子级主题情感概率分布;
所述CTSM模型的构建,包括以下步骤:
A1,建立语块、主题和情感标签的联合概率表达式;
将语块、主题和情感标签的联合概率p(c,l,z|α,β,γ)分解为如式(1)所示的三部分:
p(c,l,z|α,β,γ)=p(c|l,z,β)p(z|l,α)p(l|γ) (1)
其中p(l|γ),p(z|l,α)和p(c|l,z,β)分别表示情感标签l的概率,情感标签l下主题z的概率以及情感标签l和主题z下语块c的概率,α、β和γ为超参数;
A2,基于Gibbs sampling估算后验分布,求解参数,计算语块级主题情感概率分布;
所述JST、SJTSM和CTSM的构建框架相同,JST的输入为单词,SJTSM的输入为句子;
S3,提取的单词级、语块级和句子级主题情感概率分布进行拼接,得到多级别主题情感概率分布;
S4,多级别主题情感概率分布作为文本的特征向量输入到分类器中进行文本分类,得到分类结果。
2.根据权利要求1所述的基于融合多级别主题情感模型的文本分类方法,其特征在于,所述步骤A2具体包括以下步骤:
A21,输入迭代次数,主题个数,语料库,情感词典以及超参数α、β和γ;
A22,经过多次迭代,对语料库中的每篇训练文本的每个语块根据式(2)采样新的主题和情感标签;
其中,i为句子标号,即第i个句子;j、j′为主题标号,即第j个主题、第j′个主题;k、k′为情感标签标号,即第k个情感标签、第k′个情感标签;d为文本标号,即第d个文本;表示统计数据时不统计第i个句子上的数据;L为情感标签总数;C为语块总数;T为主题总数;N为语块出现次数;mi表示第i个句子上的所有语块的总数,mi,c表示语块c在第i个句子中的次数;
A23,根据统计得到的主题和情感标签信息求解参数,计算主题情感语块分布文本情感主题分布θd,k,j、文本情感分布πd,k。
3.根据权利要求2所述的基于融合多级别主题情感模型的文本分类方法,其特征在于,所述主题情感语块分布文本情感分布πd,k和文本情感主题分布θd,k,j的计算公式分别如式(3)至式(5)所示:
文本情感主题分布θd,k,j用来表示文本,作为CTSM模型处理文本提取的语块级主题情感概率分布。
4.根据权利要求1所述的基于融合多级别主题情感模型的文本分类方法,其特征在于,步骤S4所述的分类器为多分类器。
5.根据权利要求4所述的基于融合多级别主题情感模型的文本分类方法,其特征在于,所述多分类器包括SVM分类器、Logistics Regression分类器和Decision Tree分类器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111009968.7/1.html,转载请声明来源钻瓜专利网。