[发明专利]一种基于类别相关单词的短文本过滤与分类方法有效
申请号: | 201810048272.7 | 申请日: | 2018-01-18 |
公开(公告)号: | CN108280164B | 公开(公告)日: | 2021-10-01 |
发明(设计)人: | 李晨亮;张芷芊;陈诗倩 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/35;G06F40/284 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 魏波 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于类别相关单词的短文本过滤与分类方法,将传统主题模型的主题根据功能分成“类别主题”和“普通主题”;构造伪文本集,并以伪文本集作为模型的训练集对SSCF进行训练。训练结束后计算两类主题各自的词分布,并根据短文本中每个词在不同主题下的分布计算得到该短文本的关联主题,进而判断该短文本是否为无关文本,若有关,得到其所属类别。本发明利用“类别主题”和“普通主题”,结合词类关系,可以很好地从短文本集中抽取出与指定类别相关的文本并同时完成分类。由于该方法是一种非监督性的方法,不需要人工对数据进行标注,使得本发明可以广泛应用到各种短文本数据之上,具有广泛的实际意义和商业价值。 | ||
搜索关键词: | 一种 基于 类别 相关 单词 文本 过滤 分类 方法 | ||
【主权项】:
1.一种基于类别相关单词的短文本过滤与分类方法,模型名称为SSCF,其特征在于,包括以下步骤:步骤1:根据上下文,为短文本数据集中出现过的每一个单词构建伪文本;步骤2:利用伪文本集训练标准主题模型LDA,确定出各个伪文本的主题分布和单词在主题下的分布,为后续SSCF主题模型的构建提供先验信息;步骤3:根据步骤2得到的单词在主题下的分布,为每个类别选出若干相关词,记为“种子词”;步骤4:利用步骤2中确定出的结果和步骤3中选出的种子词,计算每个词与每个类别之间的关联度;步骤5:每篇短文本中的每个词被认为是由“类别主题”或是“普通主题”所生成,根据步骤4得到的词与类别之间的相似度构建SSCF主题模型,经过训练得到单词关于主题的分布;步骤6:根据步骤5的单词主题分布确定该文本的分类结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810048272.7/,转载请声明来源钻瓜专利网。