[发明专利]一种基于深度学习的微博用户性别预测方法有效

专利信息
申请号: 201711380014.0 申请日: 2017-12-20
公开(公告)号: CN108108354B 公开(公告)日: 2021-04-06
发明(设计)人: 张春霞;冉昇;武嘉玉;冯丽霞;牛振东;黄达友 申请(专利权)人: 北京理工大学
主分类号: G06F40/253 分类号: G06F40/253;G06F16/9535;G06N3/08;G06Q50/00
代理公司: 北京正阳理工知识产权代理事务所(普通合伙) 11639 代理人: 鲍文娟
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种基于深度学习的微博用户性别预测方法,属于Web挖掘和智能信息处理领域。该预测方法包括:微博信息采集;微博文本预处理;构建微博文本词语的词向量;采用一种基于卷积神经网络的微博文本表示方法来构建微博文本句子的特征向量;采用一种基于长短期记忆网络模型的方法进行微博用户的性别预测或分类。基于卷积神经网络的微博文本表示方法不需要人工构建微博文本特征,能够实现对微博文本的语义建模。基于长短期记忆网络的微博用户性别预测方法能够提取微博文本中的语义序列依赖关系特征。本发明的微博用户性别预测方法准确地提取了微博文本特征,提高了微博用户性别的识别性能,在信息推荐、产品营销领域具有广阔的应用前景。
搜索关键词: 一种 基于 深度 学习 用户 性别 预测 方法
【主权项】:
1.一种基于深度学习的微博用户性别预测方法,其特征在于:包括以下步骤:步骤1:微博信息采集,利用网络爬虫采集微博平台上用户的微博文本,将其保存到计算机;步骤2:微博文本预处理,对步骤1采集的微博文本进行正文抽取、词形还原,以及停用词和标点符号过滤;步骤3:构建微博文本词语的词向量:将微博文本作为输入,通过微博文本表示模型卷积神经网络的输入映射层,将微博文本句子中的所有词语映射为词向量;步骤4:采用一种基于卷积神经网络的微博文本表示方法来构建微博文本句子的特征向量;步骤5:采用一种基于长短期记忆网络模型的方法进行微博用户的性别预测或分类;所述步骤1通过以下过程实现:采集若干个不同性别的微博用户的微博文本,把每个用户的微博文本存储到以用户ID命名的可扩展标记语言文件中;另外,把所有微博用户的性别属性存入一个文件中;所述步骤2通过以下过程实现:对步骤1采集的可扩展标记语言文件进行预处理,获得每个微博用户的微博正文文本;另外,对微博正文文本进行词形还原,并过滤掉微博正文文本中的停用词和标点符号;所述步骤3通过以下过程实现:对于微博文本中句子的每个词语,利用词向量模型获取当前词语的k维向量,其中k为正整数;若当前词语不包含在词向量模型构建的词向量集合中,则通过随机方法生成当前词语的k维向量;对于微博文本的一个句子w1w2w3…wm,其中wi表示一个词语,1≤i≤m,m为正整数;设词语w1的词向量为<x11,x12,…,x1n>,n为正整数,词语w2的词向量为<x21,x22,…,x2n>,…,词语wm的词向量为<xm1,xm2,…,xmn>,则构建该句子的初始特征向量表示为: x 11 x 21 ... x m 1 x 12 x 22 ... x m 2 ... ... ... ... x 1 n x 2 n ... x m n ]]>所述步骤4通过以下过程实现:卷积神经网络包括步骤3的输入映射层,以及卷积层和池化层;步骤4.1:通过微博文本表示模型卷积神经网络的卷积层,对步骤3生成的词向量进行卷积操作,生成微博文本句子的特征图;对于窗口长度为h的卷积核,对h个词语进行连续卷积操作,即ci=f(w*vi:i+h-1+b)其中,w和b为参数,vi:i+h-1表示拼接从第i个词语到第i+h-1个词语的所有词向量,函数f表示激活函数;激活函数可以采用ReLU函数,形式为:f(x)=max{0,x};也就是,f(x)为0和x的较大者,其中,x为激活函数的输入;步骤4.2:通过微博文本表示模型卷积神经网络的池化层,提取微博文本句子的显著特征,生成微博文本句子的特征向量;池化层通过池化操作来实现对微博文本句子的特征向量的特征选择;采用最大池化操作和平均池化操作集成方式进行池化操作;设步骤4.1生成微博文本句子的特征图表示为: y 11 ... y 1 s ... ...
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201711380014.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top