[发明专利]一种基于类别相关单词的短文本过滤与分类方法有效
申请号: | 201810048272.7 | 申请日: | 2018-01-18 |
公开(公告)号: | CN108280164B | 公开(公告)日: | 2021-10-01 |
发明(设计)人: | 李晨亮;张芷芊;陈诗倩 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/35;G06F40/284 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 魏波 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 类别 相关 单词 文本 过滤 分类 方法 | ||
本发明公开了一种基于类别相关单词的短文本过滤与分类方法,将传统主题模型的主题根据功能分成“类别主题”和“普通主题”;构造伪文本集,并以伪文本集作为模型的训练集对SSCF进行训练。训练结束后计算两类主题各自的词分布,并根据短文本中每个词在不同主题下的分布计算得到该短文本的关联主题,进而判断该短文本是否为无关文本,若有关,得到其所属类别。本发明利用“类别主题”和“普通主题”,结合词类关系,可以很好地从短文本集中抽取出与指定类别相关的文本并同时完成分类。由于该方法是一种非监督性的方法,不需要人工对数据进行标注,使得本发明可以广泛应用到各种短文本数据之上,具有广泛的实际意义和商业价值。
技术领域
本发明属于计算机技术领域,涉及一种文本挖掘、文本分类、主题建模的方法,具体涉及一种借助人工选词和构建伪文本来估计语料中的词与类别间的关系,进而实现短文本的分类与过滤的主题建模方法。
背景技术
随着互联网的兴起,我们逐步进入大数据时代。与此同时,短文本已经成为互联网上一种越来越流行的文本数据。而短文本指的是长度较短,通常不超过 140个字符的文本,且表述内容丰富,组合比较灵活。常见的有网页页面摘要、新闻标题、文本广告、微博、Twitter、朋友圈更新等等。数量庞大的短文本中蕴含着庞杂的信息,建立一种高效的主题模型并从大量的短文本数据集快速准确得过滤掉包含无关信息的文本,同时对包含相关信息的文本实现准确分类是极具现实意义的。
传统的主题模型,旨在构建一个更为完全概率生成模型的主题模型方法,使得不同长度的文本可以以相同的维度向量进行表示。例如2003年,Bei.在 Journal of MachineLearning Research发表的一篇名为“Latent Dirichlet Allocation”,常用于传统文本的分析。要想更进一步得利用短文本中蕴含的信息,需要在文本分析的基础上建立起过滤和分类能力。
发明内容
为了解决上述技术问题,本发明提出了一种基于类别相关单词的短文本过滤与分类方法。
本发明所采用的技术方案是:一种基于类别相关单词的短文本过滤与分类方法,其特征在于,包括以下步骤:
步骤1:根据上下文,为短文本数据集中出现过的每一个单词构建伪文本;
步骤2:利用伪文本集训练标准主题模型LDA,确定出各个伪文本的主题分布和单词在主题下的分布,为后续SSCF主题模型的构建提供先验信息;
步骤3:根据步骤2得到的单词在主题下的分布,为每个类别选出若干相关词,记为“种子词”;
步骤4:利用步骤2中确定出的结果和步骤3中选出的种子词,计算每个词与每个类别之间的关联度;
步骤5:每篇短文本中的每个词被认为是由“类别主题”或是“普通主题”所生成,根据步骤4得到的词与类别之间的相似度构建SSCF主题模型,经过训练得到单词关于主题的分布;
步骤6:根据步骤5的单词主题分布确定该文本的分类结果。
作为优选,步骤1的具体实现包括以下子步骤:
步骤1.1:对于短文本数据集词汇表中的每一个词w一次执行步骤1.2到1.4;
步骤1.2:对于短文本数据集中的每一篇文档d依次执行步骤1.3;
步骤1.3:用滑动窗口扫描短文本,同时窗口每滑动一次就记录所有与词w 出现在同一窗口中的词;
步骤1.4:用步骤1.3记录的词组成属于词w的伪文本dw。
作为优选,步骤2的具体实现包括以下子步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810048272.7/2.html,转载请声明来源钻瓜专利网。