[发明专利]一种基于深度学习的微博用户性别预测方法有效
申请号: | 201711380014.0 | 申请日: | 2017-12-20 |
公开(公告)号: | CN108108354B | 公开(公告)日: | 2021-04-06 |
发明(设计)人: | 张春霞;冉昇;武嘉玉;冯丽霞;牛振东;黄达友 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F40/253 | 分类号: | G06F40/253;G06F16/9535;G06N3/08;G06Q50/00 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 鲍文娟 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 用户 性别 预测 方法 | ||
1.一种基于深度学习的微博用户性别预测方法,其特征在于:包括以下步骤:
步骤1,微博信息采集:针对Twitter网页,利用网络爬虫采集微博用户的Twitter文本即微博文本,将其保存到本地计算机;
步骤2,微博文本预处理:对微博信息采集步骤1获取的微博文本进行正文抽取、词形还原,以及停用词和标点符号过滤;
步骤3,微博文本词语的向量化表示:将微博文本作为输入,通过微博文本表示模型卷积神经网络的输入映射层将微博文本句子中的所有单词映射为词向量,具体为:
对于微博文本中句子的每个单词,利用词向量模型获取当前单词的k维向量;若当前词语不包含在词向量模型构建的词向量集合中,则通过随机方法生成当前词语的k维向量;
步骤4,采用一种基于卷积神经网络的微博文本表示方法来构建微博文本句子的特征向量表示,具体为:
步骤4.1,通过微博文本表示模型卷积神经网络对步骤3生成的词语向量进行卷积操作,生成微博文本句子的特征图表示;
步骤4.2,通过微博文本表示模型卷积神经网络的池化层提取微博文本句子的显著特征,生成微博文本句子的特征向量表示;
步骤5,采用一种基于长短期记忆网络的性别分类模型进行微博用户的性别预测,具体为:
步骤5.1,将步骤3生成的微博文本句子的特征向量表示作为输入,采用基于长短期记忆网络的性别分类模型中序列生成层重新生成微博文本句子的特征向量表示,作为步骤5.2中双向长短期记忆网络层的输入;
其中,长短期记忆网络模型包括序列生成层、双向长短期记忆网络层和分类层;序列生成层依次包括卷积层、池化层、卷积层和池化层;
步骤5.2,将步骤5.1生成的微博文本句子的特征向量表示,作为基于长短期记忆网络的性别分类模型中双向长短期记忆网络层的输入,双向长短期记忆网络层通过捕捉微博文本句子中的语义序列依赖关系,构建微博文本句子的特征向量;
步骤5.3,合并通过步骤4和步骤5.2构建的微博文本句子的特征向量;
步骤5.4,进入基于长短期记忆网络的性别分类模型中的分类层,分类层由全连接神经网络构成;
分类层的输入是步骤5.3构建的微博文本句子的特征向量,输出为微博用户的性别分类,包括男性和女性两个类别;
全连接神经网络是由若干个神经网络的神经元连接组成,单个神经元接受一个向量作为输入,求和并运用激活函数,获得单个神经元的输出;
通过将若干个神经元进行分层连接,使得上一层各个神经元的输出作为下一层各个神经元的输入,可以构造出全连接神经网络;
对于微博用户性别预测,全连接神经网络的输出向量为(p0,p1),p0表示预测结果为女性的概率,p1表示预测结果为男性的概率。
2.根据权利要求1所述的一种基于深度学习的微博用户性别预测方法,其特征在于:所述步骤1通过以下过程实现:
采集不同性别若干个微博用户的微博文本,把每个用户的微博文本存储到以用户ID命名的可扩展标记语言文件中,同时把所有微博用户的性别属性存入一个文件中。
3.根据权利要求2所述的一种基于深度学习的微博用户性别预测方法,其特征在于:所述步骤2通过以下过程实现:
对步骤1采集的可扩展标记语言文件进行预处理,获得每个微博用户的微博正文文本;
另外,利用NLTK工具对微博正文文本进行词形还原,并过滤掉微博正文文本中的停用词和标点符号;
其中,NLTK,即Natural Language Toolkit。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711380014.0/1.html,转载请声明来源钻瓜专利网。