[发明专利]一种基于类别相关单词的短文本过滤与分类方法有效

专利信息
申请号: 201810048272.7 申请日: 2018-01-18
公开(公告)号: CN108280164B 公开(公告)日: 2021-10-01
发明(设计)人: 李晨亮;张芷芊;陈诗倩 申请(专利权)人: 武汉大学
主分类号: G06F16/9535 分类号: G06F16/9535;G06F16/35;G06F40/284
代理公司: 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人: 魏波
地址: 430072 湖*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 类别 相关 单词 文本 过滤 分类 方法
【权利要求书】:

1.一种基于类别相关单词的短文本过滤与分类方法,模型名称为SSCF,其特征在于,包括以下步骤:

步骤1:根据上下文,为短文本数据集中出现过的每一个单词构建伪文本;

步骤2:利用伪文本集训练标准主题模型LDA,确定出各个伪文本的主题分布和单词在主题下的分布,为后续SSCF主题模型的构建提供先验信息;

步骤2的具体实现包括以下子步骤:

步骤2.1:给定标准主题模型LDA的超参数α和β,其中α是文档到主题的狄利克雷分布的先验参数,β是主题到单词的狄利克雷分布的先验参数,主题数目T,模型训练迭代次数Iter;

步骤2.2:遍历伪文本数据集中每一篇文档d,随机为d中的每一个词赋予一个主题k,关联到主题k下的单词数量,记为nk,各个主题k下各个单词w与主题k所关联的数量,记为在伪文本d中关联到主题k下的单词数量记为

步骤2.3:对于短文本数据集中的每一篇文档d依次执行步骤2.4至步骤2.6;

步骤2.4:对于文档d的每一个单词w,以及上一轮迭代中文档d赋予的主题k,首先从计数器中和减去当前词带来的影响,即分别从计数器中减去1;

步骤2.5:对词w采样出一个新主题knew

步骤2.5中采样公式为:

其中,表示减去当前词的影响,V表示文本集词汇表,K表示主题数;

步骤2.6:得到knew后,依次更新相关计数器和即分别在计数器中加上1;

步骤2.7:循环执行步骤2.3至步骤2.6,直到运行完预设迭代次数Iter后,计算出该短文本数据集下的主题单词分布pLDA(w|k),伪文本主题分布pLDA(k│dw),其中,pLDA(w|k)表示单词在主题下的分布,pLDA(k│dw)表示主题在伪文本下的分布;

步骤2.7中:

步骤3:根据步骤2得到的单词在主题下的分布,为每个类别选出若干相关词,记为“种子词”;

步骤4:利用步骤2中确定出的结果和步骤3中选出的种子词,计算每个词与每个类别之间的关联度;

步骤5:每篇短文本中的每个词被认为是由“类别主题”或是“普通主题”所生成,根据步骤4得到的词与类别之间的相似度构建SSCF主题模型,经过训练得到单词关于主题的分布;

步骤5的具体实现包括以下子步骤:

步骤5.1:将SSCF主题模型的主题分为“类别主题”和“普通主题”两种类型;其中,“类别主题”与短文本数据集中的类别一一对应,即数据集中有多少类别,“类别主题”就有多少主题;“普通主题”是人为指定;

步骤5.2:给定SSCF主题模型的超参数α,∈和β0,β1,其中α是文本到普通主题的狄利克雷分布的先验参数,∈是文本到类别主题的狄利克雷分布的先验参数,β0是类别主题到单词的狄利克雷分布的先验参数,β1是普通主题到单词的狄利克雷分布的先验参数,普通主题数目T,类别数目C,模型训练迭代次数Iter;

步骤5.3:遍历数据集中每一篇伪文本d,随机为d中的每个词赋予一个主题;类别主题c下的单词w的数量记为普通主题t下的单词w的数量记为

步骤5.4:循环执行步骤5.5至步骤5.15直到运行完预设迭代次数Iter;

步骤5.5:对数据集中的每个类别c依次执行步骤5.6至5.10;

步骤5.6:对每个属于c的种子词s依次执行步骤5.7至5.10;

步骤5.7:对s对应的伪文本ds中的每一个单词w依次执行步骤5.8至5.10;

步骤5.8:首先从计数器或减去当前词带来的影响,即分别从计数器中减去1;

步骤5.9:对当前词w采样类别主题采样普通主题采样变量xw,如果xw=0,词w的主题如果xw=1,词w的主题

步骤5.9中的采样公式为:

步骤5.10:在得到新主题后更新相关计数器,即在计数器中加1;

步骤5.11:对每个非种子词w依次执行步骤5.12至5.13;

步骤5.12:对每个属于w的伪文本dw中的词w′依次执行步骤5.13至5.15;

步骤5.13:首先从计数器减去当前词带来的影响,即分别从计数器中减去1;

步骤5.14:对当前词w采样类别主题采样普通主题采样变量xw,如果xw=0,词w的主题如果xw=1,词w的主题

步骤5.14的采样公式为:

各变量对应的计算公式如下:

其中,表示属于种子词s的伪文本ds中第i个词与类别c的相关度,表示属于非种子词w的伪文本dw中第i个词与类别c的相关度;表示类别主题c中词w的个数,表示普通主题t中词w的个数,和分别表示种子词s或非种子词w对应的伪文本中含有关联到类别主题c的词的数量;和分别表示种子词s或非种子词w对应的伪文本中含有关联到普通主题t的词的数量;为指示符,只有当s为类别c的种子词时才为1,否则为0;

步骤5.15:在得到新主题后更新相关计数器,即在计数器中加1;

步骤5.16:计算单词集合中单词到普通主题的概率分布p(w|z=t)和单词到类别主题的概率分布;

步骤6:根据步骤5的单词主题分布确定该文本的分类结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810048272.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top