[发明专利]一种基于类别相关单词的短文本过滤与分类方法有效

申请号：	201810048272.7	申请日：	2018-01-18
公开（公告）号：	CN108280164B	公开（公告）日：	2021-10-01
发明（设计）人：	李晨亮;张芷芊;陈诗倩	申请（专利权）人：	武汉大学
主分类号：	G06F16/9535	分类号：	G06F16/9535;G06F16/35;G06F40/284
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人：	魏波
地址：	430072 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于类别相关单词文本过滤分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于类别相关单词的短文本过滤与分类方法，模型名称为SSCF，其特征在于，包括以下步骤：

步骤1：根据上下文，为短文本数据集中出现过的每一个单词构建伪文本；

步骤2：利用伪文本集训练标准主题模型LDA，确定出各个伪文本的主题分布和单词在主题下的分布，为后续SSCF主题模型的构建提供先验信息；

步骤2的具体实现包括以下子步骤：

步骤2.1：给定标准主题模型LDA的超参数α和β，其中α是文档到主题的狄利克雷分布的先验参数，β是主题到单词的狄利克雷分布的先验参数，主题数目T，模型训练迭代次数Iter；

步骤2.2：遍历伪文本数据集中每一篇文档d，随机为d中的每一个词赋予一个主题k，关联到主题k下的单词数量，记为n_k，各个主题k下各个单词w与主题k所关联的数量，记为在伪文本d中关联到主题k下的单词数量记为

步骤2.3:对于短文本数据集中的每一篇文档d依次执行步骤2.4至步骤2.6；

步骤2.4：对于文档d的每一个单词w，以及上一轮迭代中文档d赋予的主题k，首先从计数器中和减去当前词带来的影响，即分别从计数器中减去1；

步骤2.5：对词w采样出一个新主题k^new；

步骤2.5中采样公式为：

其中，表示减去当前词的影响，V表示文本集词汇表，K表示主题数；

步骤2.6：得到k^new后，依次更新相关计数器和即分别在计数器中加上1；

步骤2.7：循环执行步骤2.3至步骤2.6，直到运行完预设迭代次数Iter后，计算出该短文本数据集下的主题单词分布p_LDA(w|k)，伪文本主题分布p_LDA(k│d_w)，其中，p_LDA(w|k)表示单词在主题下的分布，p_LDA(k│d_w)表示主题在伪文本下的分布；

步骤2.7中：

；

步骤3：根据步骤2得到的单词在主题下的分布，为每个类别选出若干相关词，记为“种子词”；

步骤4：利用步骤2中确定出的结果和步骤3中选出的种子词，计算每个词与每个类别之间的关联度；

步骤5：每篇短文本中的每个词被认为是由“类别主题”或是“普通主题”所生成，根据步骤4得到的词与类别之间的相似度构建SSCF主题模型，经过训练得到单词关于主题的分布；

步骤5的具体实现包括以下子步骤：

步骤5.1：将SSCF主题模型的主题分为“类别主题”和“普通主题”两种类型；其中，“类别主题”与短文本数据集中的类别一一对应，即数据集中有多少类别，“类别主题”就有多少主题；“普通主题”是人为指定；

步骤5.2：给定SSCF主题模型的超参数α，∈和β₀，β₁，其中α是文本到普通主题的狄利克雷分布的先验参数，∈是文本到类别主题的狄利克雷分布的先验参数，β₀是类别主题到单词的狄利克雷分布的先验参数，β₁是普通主题到单词的狄利克雷分布的先验参数，普通主题数目T，类别数目C，模型训练迭代次数Iter；

步骤5.3：遍历数据集中每一篇伪文本d，随机为d中的每个词赋予一个主题；类别主题c下的单词w的数量记为普通主题t下的单词w的数量记为

步骤5.4：循环执行步骤5.5至步骤5.15直到运行完预设迭代次数Iter；

步骤5.5：对数据集中的每个类别c依次执行步骤5.6至5.10；

步骤5.6：对每个属于c的种子词s依次执行步骤5.7至5.10；

步骤5.7：对s对应的伪文本d_s中的每一个单词w依次执行步骤5.8至5.10；

步骤5.8：首先从计数器或减去当前词带来的影响，即分别从计数器中减去1；

步骤5.9：对当前词w采样类别主题采样普通主题采样变量x_w，如果x_w＝0，词w的主题如果x_w＝1，词w的主题

步骤5.9中的采样公式为：

步骤5.10：在得到新主题后更新相关计数器，即在计数器中加1；

步骤5.11：对每个非种子词w依次执行步骤5.12至5.13；

步骤5.12：对每个属于w的伪文本d_w中的词w′依次执行步骤5.13至5.15；

步骤5.13：首先从计数器减去当前词带来的影响，即分别从计数器中减去1；

步骤5.14：对当前词w采样类别主题采样普通主题采样变量x_w，如果x_w＝0，词w的主题如果x_w＝1，词w的主题

步骤5.14的采样公式为：

各变量对应的计算公式如下：

其中，表示属于种子词s的伪文本d_s中第i个词与类别c的相关度，表示属于非种子词w的伪文本d_w中第i个词与类别c的相关度；表示类别主题c中词w的个数，表示普通主题t中词w的个数，和分别表示种子词s或非种子词w对应的伪文本中含有关联到类别主题c的词的数量；和分别表示种子词s或非种子词w对应的伪文本中含有关联到普通主题t的词的数量；为指示符，只有当s为类别c的种子词时才为1，否则为0；

步骤5.15：在得到新主题后更新相关计数器，即在计数器中加1；

步骤5.16：计算单词集合中单词到普通主题的概率分布p(w|z＝t)和单词到类别主题的概率分布；

步骤6：根据步骤5的单词主题分布确定该文本的分类结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉大学，未经武汉大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810048272.7/1.html，转载请声明来源钻瓜专利网。

上一篇：视频特征学习方法、装置、电子设备及可读存储介质
下一篇：基于状态转移的奖励值音乐推荐方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于类别相关单词的短文本过滤与分类方法有效

专利文献下载