[发明专利]一种基于融合多级别主题情感模型的文本分类方法及装置有效
申请号: | 202111009968.7 | 申请日: | 2021-08-31 |
公开(公告)号: | CN113688241B | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 黎荆妗;杜小东;朱征宇;赵福强;韩萍 | 申请(专利权)人: | 重庆大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06F40/242 |
代理公司: | 重庆市前沿专利事务所(普通合伙) 50211 | 代理人: | 郭云;肖秉城 |
地址: | 400044 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 融合 多级 主题 情感 模型 文本 分类 方法 装置 | ||
本发明公开了一种基于融合多级别主题情感模型的文本分类方法及装置。所述基于融合多级别主题情感模型的文本分类方法,包括以下步骤:S1,对文本进行预处理;S2,预处理后的文本输入单词级主题情感模型JST、语块级主题情感模型CTSM和句子级主题情感模型SJTSM中,分别提取文本的单词级、语块级和句子级主题情感概率分布;S3,提取的单词级、语块级和句子级主题情感概率分布进行拼接,得到多级别主题情感概率分布;S4,多级别主题情感概率分布作为文本的特征向量输入到分类器中进行文本分类,得到分类结果。
技术领域
本发明涉及文本分类领域,具体涉及一种基于融合多级别主题情感模型的文本分类方法及装置。
背景技术
主题模型是以非监督学习的方式对文集的隐含语义结构进行聚类的统计模型,主要被用于自然语言处理中的语义分析和文本挖掘问题,例如按主题对文本进行收集、分类和降维。现有的主题模型主要分为两类,参数方法和非参数方法。经典的主题模型是LDA(隐含狄利克雷分布,Latent Dirichlet Allocation)模型。以PLSA(概率潜在语义分析,Probablistic Latent SemanticAnalysis)模型为基础,加上了贝叶斯先验,可得到LDA模型。LDA模型得到了广泛使用,并衍生出了很多改进版本。
例如在LDA的基础上以文章中的句子为单位,提出的SenLDA模型;该模型假设了句子之间的词对文章潜在主题有很强的依赖性,使主题模型从词的维度扩展到了句的维度。
模型粒度介于单词级主题模型LDA和句子级主题模型SenLDA之间的语块级主题模型CopLDA(CopulaLDA)模型。语块由一个或多个单词组成。该模型假设“一个语块中的每个单词表示同一个主题”,此假设较SenLDA模型中的“一个句子中的每个单词表示同一个主题”更严格。
上述模型中,单词级主题模型LDA和句子级主题模型SenLDA无法提取名词短语类(由多个单词构成的词组)的主题。比如专有名词等名词短语类主题,当主题词为苹果公司“Apple Inc.”时,LDA模型和SenLDA模型都只能提取单个单词“Apple”或者“Inc.”作为主题;当结果为“Apple”时,则可能被误理解为水果相关,而不是指公司。除此之外,LDA模型、CopLDA模型和SenLDA模型均只考虑了文本的结构信息,忽略了文本的情感信息;使得上述模型应用于一些包含语义、结构和情感等信息特征的文本分类时,不能有效利用文本的全部特征进行分类,导致准确率可能不够高;例如虚假评论信息的检测。
除此之外,文本向量表示的准确与否在很大程度上决定文本分类的准确性,现有的文本分类方法大多只从单词级、或句子级等某一个单一的层级进行文本向量的提取表示,因此文本向量表示的准确性不够高。
发明内容
本发明的目的在于克服现有技术中所存在的未有效多方面的提取文本特征和单一层级提取文本向量准确性不高的不足,提供一种基于融合多级别主题情感模型的文本分类方法及装置。
为了实现上述发明目的,本发明提供了以下技术方案:
一种基于融合多级别主题情感模型的文本分类方法,包括以下步骤:
S1,对文本进行预处理;
S2,预处理后的文本输入单词级主题情感模型JST、语块级主题情感模型CTSM和句子级主题情感模型SJTSM中,分别提取文本的单词级、语块级和句子级主题情感概率分布;
S3,提取的单词级、语块级和句子级主题情感概率分布进行拼接,得到多级别主题情感概率分布;
S4,多级别主题情感概率分布作为文本的特征向量输入到分类器中进行文本分类,得到分类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111009968.7/2.html,转载请声明来源钻瓜专利网。