[发明专利]一种基于深度学习的舆情热点类别划分方法有效
申请号: | 201710395849.7 | 申请日: | 2017-05-27 |
公开(公告)号: | CN107239529B | 公开(公告)日: | 2020-06-09 |
发明(设计)人: | 周勇;刘兵;刘敬学;王重秋 | 申请(专利权)人: | 中国矿业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/08 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 杨晓玲 |
地址: | 221008 江苏省徐*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出一种基于深度学习的舆情热点类别划分方法,主要包括:训练数据集的采集和预处理,建立概率主题表示模型,对文本数据集进行文档‑主题和主题‑词汇两个概率分布表示,并将表示成的主题‑词汇矩阵输入到预先搭建好的神经网络模型中训练学习文本特征,网络输出层选择Softmax归一化处理分类预测。本发明一是解决了长文本舆情热点数据的降维问题,提高了分类算法的效率。二是采用深度学习的方法实现了舆情热点信息的深层特征的自动提取,使得舆情热点多种类划分更加准确。 | ||
搜索关键词: | 一种 基于 深度 学习 舆情 热点 类别 划分 方法 | ||
【主权项】:
一种基于深度学习的舆情热点类别划分方法,其特征在于,该方法包括两个阶段,第一个阶段为训练阶段,第二个阶段为分类阶段;训练阶段包括步骤:(1)采集满足需求量的包含舆情热点的文本数据作为训练数据,并根据舆情热点的种类在训练数据中添加标签;对采集到的训练数据进行预处理,将训练数据保存为统一格式并构建训练数据中文词典;(2)根据训练数据中文词典建立训练数据概率主题模型,并采用Gibbs抽样方法学习训练数据概率主题模型,得到训练数据的文档‑主题分布矩阵和主题‑词汇分布矩阵,并依据文档‑主题分布矩阵采集训练数据的分类标签,将主题‑词汇分布矩阵作为深度学习模型所需训练矩阵;(3)建立深度学习模型,所述深度学习模型包括具有多层隐层的DBN神经网络和softmax层,所述DBN神经网络的最后一层隐层的输出数据作为softmax层的输入数据,softmax层作为所述深度学习模型的输出层,对DBN神经网络的输出结果进行归一化处理;(4)将训练数据、训练数据中文词典、训练数据的分类标签输入深度学习模型进行循环训练,并保存满足预设指标的最优深度学习模型;分类阶段包括步骤:(5)采集预测数据,根据舆情热点的种类在预测数据中添加标签;对采集到的预测数据进行预处理,将预测数据保存为统一格式并构建预测数据中文词典;(6)根据预测数据中文词典建立预测数据概率主题模型,并采用Gibbs抽样方法学习预测数据概率主题模型,得到预测数据的文档‑主题分布矩阵和主题‑词汇分布矩阵,并依据文档‑主题分布矩阵采集预测数据的分类标签;(7)将预测数据,预测数据分类标签和预测数据中文词典输入步骤(4)得到的最优模型,最优模型根据预测数据词典将输入的预测数据映射为输入层大小的矩阵,最优模型的输出层预测数据的多分类的结果进行归一化处理并根据预设阈值选择出预测数据的一种类别或一组类别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国矿业大学,未经中国矿业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710395849.7/,转载请声明来源钻瓜专利网。