[发明专利]一种基于类别相关单词的短文本过滤与分类方法有效
申请号: | 201810048272.7 | 申请日: | 2018-01-18 |
公开(公告)号: | CN108280164B | 公开(公告)日: | 2021-10-01 |
发明(设计)人: | 李晨亮;张芷芊;陈诗倩 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/35;G06F40/284 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 魏波 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 类别 相关 单词 文本 过滤 分类 方法 | ||
1.一种基于类别相关单词的短文本过滤与分类方法,模型名称为SSCF,其特征在于,包括以下步骤:
步骤1:根据上下文,为短文本数据集中出现过的每一个单词构建伪文本;
步骤2:利用伪文本集训练标准主题模型LDA,确定出各个伪文本的主题分布和单词在主题下的分布,为后续SSCF主题模型的构建提供先验信息;
步骤2的具体实现包括以下子步骤:
步骤2.1:给定标准主题模型LDA的超参数α和β,其中α是文档到主题的狄利克雷分布的先验参数,β是主题到单词的狄利克雷分布的先验参数,主题数目T,模型训练迭代次数Iter;
步骤2.2:遍历伪文本数据集中每一篇文档d,随机为d中的每一个词赋予一个主题k,关联到主题k下的单词数量,记为nk,各个主题k下各个单词w与主题k所关联的数量,记为在伪文本d中关联到主题k下的单词数量记为
步骤2.3:对于短文本数据集中的每一篇文档d依次执行步骤2.4至步骤2.6;
步骤2.4:对于文档d的每一个单词w,以及上一轮迭代中文档d赋予的主题k,首先从计数器中和减去当前词带来的影响,即分别从计数器中减去1;
步骤2.5:对词w采样出一个新主题knew;
步骤2.5中采样公式为:
其中,表示减去当前词的影响,V表示文本集词汇表,K表示主题数;
步骤2.6:得到knew后,依次更新相关计数器和即分别在计数器中加上1;
步骤2.7:循环执行步骤2.3至步骤2.6,直到运行完预设迭代次数Iter后,计算出该短文本数据集下的主题单词分布pLDA(w|k),伪文本主题分布pLDA(k│dw),其中,pLDA(w|k)表示单词在主题下的分布,pLDA(k│dw)表示主题在伪文本下的分布;
步骤2.7中:
;
步骤3:根据步骤2得到的单词在主题下的分布,为每个类别选出若干相关词,记为“种子词”;
步骤4:利用步骤2中确定出的结果和步骤3中选出的种子词,计算每个词与每个类别之间的关联度;
步骤5:每篇短文本中的每个词被认为是由“类别主题”或是“普通主题”所生成,根据步骤4得到的词与类别之间的相似度构建SSCF主题模型,经过训练得到单词关于主题的分布;
步骤5的具体实现包括以下子步骤:
步骤5.1:将SSCF主题模型的主题分为“类别主题”和“普通主题”两种类型;其中,“类别主题”与短文本数据集中的类别一一对应,即数据集中有多少类别,“类别主题”就有多少主题;“普通主题”是人为指定;
步骤5.2:给定SSCF主题模型的超参数α,∈和β0,β1,其中α是文本到普通主题的狄利克雷分布的先验参数,∈是文本到类别主题的狄利克雷分布的先验参数,β0是类别主题到单词的狄利克雷分布的先验参数,β1是普通主题到单词的狄利克雷分布的先验参数,普通主题数目T,类别数目C,模型训练迭代次数Iter;
步骤5.3:遍历数据集中每一篇伪文本d,随机为d中的每个词赋予一个主题;类别主题c下的单词w的数量记为普通主题t下的单词w的数量记为
步骤5.4:循环执行步骤5.5至步骤5.15直到运行完预设迭代次数Iter;
步骤5.5:对数据集中的每个类别c依次执行步骤5.6至5.10;
步骤5.6:对每个属于c的种子词s依次执行步骤5.7至5.10;
步骤5.7:对s对应的伪文本ds中的每一个单词w依次执行步骤5.8至5.10;
步骤5.8:首先从计数器或减去当前词带来的影响,即分别从计数器中减去1;
步骤5.9:对当前词w采样类别主题采样普通主题采样变量xw,如果xw=0,词w的主题如果xw=1,词w的主题
步骤5.9中的采样公式为:
步骤5.10:在得到新主题后更新相关计数器,即在计数器中加1;
步骤5.11:对每个非种子词w依次执行步骤5.12至5.13;
步骤5.12:对每个属于w的伪文本dw中的词w′依次执行步骤5.13至5.15;
步骤5.13:首先从计数器减去当前词带来的影响,即分别从计数器中减去1;
步骤5.14:对当前词w采样类别主题采样普通主题采样变量xw,如果xw=0,词w的主题如果xw=1,词w的主题
步骤5.14的采样公式为:
各变量对应的计算公式如下:
其中,表示属于种子词s的伪文本ds中第i个词与类别c的相关度,表示属于非种子词w的伪文本dw中第i个词与类别c的相关度;表示类别主题c中词w的个数,表示普通主题t中词w的个数,和分别表示种子词s或非种子词w对应的伪文本中含有关联到类别主题c的词的数量;和分别表示种子词s或非种子词w对应的伪文本中含有关联到普通主题t的词的数量;为指示符,只有当s为类别c的种子词时才为1,否则为0;
步骤5.15:在得到新主题后更新相关计数器,即在计数器中加1;
步骤5.16:计算单词集合中单词到普通主题的概率分布p(w|z=t)和单词到类别主题的概率分布;
步骤6:根据步骤5的单词主题分布确定该文本的分类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810048272.7/1.html,转载请声明来源钻瓜专利网。