[发明专利]一种基于LSTM与LeNet融合的微博用户年龄预测方法有效

专利信息
申请号: 201910447984.0 申请日: 2019-05-27
公开(公告)号: CN110196945B 公开(公告)日: 2021-10-01
发明(设计)人: 彭成;梁宏健;宋彦晶;康权威;张佳籴 申请(专利权)人: 北京理工大学
主分类号: G06F16/9535 分类号: G06F16/9535;G06K9/62;G06Q10/04
代理公司: 北京正阳理工知识产权代理事务所(普通合伙) 11639 代理人: 鲍文娟
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种基于LSTM与LeNet融合的微博用户年龄预测方法,属于信息预测技术领域,包括以下步骤:爬取数据:爬取微博用户的信息,并保存到本地计算机;微博文本分词:文本内容分词、停用词过滤后,分词结果向量化;搭建LSTM:对向量采用长短期记忆模型LSTM建模,并预测用户年龄;图片预处理:将图片统一成相同大小;搭建LeNet:搭建LeNet模型,将数据集图片数据增强并转为张量,并测试选出最高命中率的模型;结果整合:将训练好的文本处理模块模型与图片处理模块模型整合处理。对比现有技术,本发明解决了以往模型难以跟上潮流的问题,提高了识别准确度,在未来的用户运营、精准广告营销、用户分析、数据分析和推荐系统等领域具有广泛的应用前景。
搜索关键词: 一种 基于 lstm lenet 融合 用户 年龄 预测 方法
【主权项】:
1.一种基于LSTM与LeNet融合的微博用户年龄预测方法,其特征在于:包括以下步骤:步骤1,对用户动态微博信息按年龄段进行采集;步骤2,对步骤1采集的微博信息进行预处理使相同年龄段的所有用户的文本放入一个文件夹中,相同年龄段的所有用户的图片放入一个文件夹中;步骤3,对步骤2预处理后的微博文本数据进行分词、过滤停用词的操作,再将分词结果向量化为用张量表示的词向量;步骤4,对微博文本内容搭建长短期记忆模型网络LSTM,即文本分类器;步骤5,使用步骤3得到的词向量,对步骤4搭建的文本分类器进行训练;步骤6,对步骤2预处理后的微博图片进行图像处理使其大小一致;步骤7,搭建LeNet的图片分类器;步骤8,使用步骤6处理后的图片数据,对步骤7搭建的图片分类器进行训练;步骤9,对每个用户的微博信息,其中的文本数据通过步骤3处理后输入通过步骤5训练好的文本分类器得到softmax输出,图片数据通过步骤6、7处理后输入通过步骤8训练好的图片分类器得到softmax输出;然后将文本分类器的输出结果连接上图片分类器的输出结果作为机器学习分类器(SVM分类器、朴素贝叶斯分类器、随机森林分类器、逻辑回归分类器)的输入,用户年龄段作为标签,对机器学习分类器进行训练,选择准确率最高的机器学习分类器;步骤10,将待预测年龄段用户的微博信息通过步骤3处理后输入通过步骤5训练好的文本分类器得到softmax输出,通过步骤6、7处理后输入通过步骤8训练好的图片分类器得到softmax输出,然后将文本分类器的输出结果连接上图片分类器的输出结果输入步骤9得到的机器学习分类器进行分类得到用户所属年龄段预测结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910447984.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top