[发明专利]一种基于有监督主题模型的文本分类方法及系统有效

专利信息
申请号: 201811398232.1 申请日: 2018-11-22
公开(公告)号: CN109408641B 公开(公告)日: 2020-06-02
发明(设计)人: 唐焕玲;窦全胜;于立萍;宋英杰;鲁眀羽 申请(专利权)人: 山东工商学院
主分类号: G06F16/35 分类号: G06F16/35;G06F16/332;G06K9/62
代理公司: 济南圣达知识产权代理有限公司 37221 代理人: 张庆骞
地址: 264026 山东*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 监督 主题 模型 文本 分类 方法 系统
【说明书】:

本公开提供了一种基于有监督主题模型的文本分类方法及系统。其中,一种基于有监督主题模型的文本分类方法,包括:构建SLDA‑TC文本分类模型;在训练SLDA‑TC文本分类模型的过程中,按照SLDA‑TC‑Gibbs算法对每个词的隐含主题进行采样,且只从与该词所在文本类别标签相同的其它训练文本中进行隐含主题采样;在确定每个词的隐含主题之后,通过统计频次,计算得到文本‑主题概率分布、主题‑词概率分布和主题‑类别概率分布;建立主题与类别之间的准确映射;将待测文本输入至训练生成的SLDA‑TC文本分类模型,推断出待测文本的主题,进而预测文本的类别。

技术领域

本公开涉及数据分类领域,尤其涉及一种基于有监督主题模型的文本分类方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。

文本表示是文本挖掘的重要步骤,目前最广泛的文本表示方法是词袋法(Bag-of-word,BOW)。词袋法将一篇文本看作是词的集合,并假设每个词的出现是独立的,不依赖于其它词,且忽略词序、句法等信息。基于BOW,一篇文本用一个n维向量表示,每一维对应一个词,通常是该词的频度相关的权重,这就是最常用的是向量空间模型(vector spacemodel,VSM)。由于自然语言的复杂性,文本表示存在“维数灾难”、“稀疏性”、“语义丢失”等诸多问题。词袋法忽略词序、句法等信息,使得词的语义信息难以抽取和量化,文本的语义表示目前仍是非常困难的。

Mikolov等人提出的word2vec模型,是一种词向量的训练方法,利用词的上下文信息将一个词转化成一个低维实数向量,越相似的词在向量空间中越接近。word2vec模型训练输出的是每个词的词向量,文本的所有词的词向量形成文本向量。基于word2vec模型训练的词向量文本输入深度神经网络,成功用于中文分词、POS tagging、情感分类、句法依存关系等方面。word2vec模型能够解决“稀疏性”问题,虽然word2vec能够量化词与词的相似度,但并不能解决文本的“语义丢失”和“维度灾难”问题。

主题模型(topic model)是可用于解决“维度灾难”、“稀疏性”的一种方法,而且能够在一定程度上抽取词的语义信息。主题模型起源于隐性语义索引(Latent SemanticIndexing,LSI),以及由Hofmann提出的概率隐性语义索引(probabilistic LatentSemantic Indexing,pLSI)。在pLSI基础上,Blei等人提出了LDA(Latent DirichletAllocation)主题模型。LDA中主题看作是词的概率分布,语义相近的词,通过隐含主题建立关联,能够从文本中抽取出语义信息,将文本表示从高维词空间变换到低维主题空间。主题模型直接或扩展使用在自然语言处理领域,如聚类和分类、词义消歧、情感分析等,图像处理领域的目标发现与定位、图像分割等任务。

LDA主题模型将文本表示从高维的词空间变换到低维的主题空间,然后采用KNN、Naive Bayesian、SVM等算法直接分类,其效果并不好。原因在于LDA主题模型是无监督学习,不考虑文本的类别,并没有利用训练文本已标注的类别这一重要信息。

现有的改进方法,如Li等人提出了Labled-LDA模型,发明人发现该模型针对每类文档训练一个LDA模型,需要估计的参数增加了多倍,增加了模型的复杂性。

发明内容

根据本公开的一个或多个实施例的一个方面,提供一种基于有监督主题模型的文本分类方法,其能够识别主题-类别之间的语义关系,建立主题与类别的精确映射。

本公开的一个或多个实施例,提供的一种基于有监督主题模型的文本分类方法,包括:

构建SLDA-TC文本分类模型,SLDA-TC文本分类模型的训练文档集的每个文档带有类别标签;SLDA-TC文本分类模型中需要估计的参数不仅包括文本-主题概率分布、主题-词概率分布,还包括主题-类别概率分布;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东工商学院,未经山东工商学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811398232.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top