[发明专利]一种基于深度学习的微博用户性别预测方法有效

专利信息
申请号: 201711380014.0 申请日: 2017-12-20
公开(公告)号: CN108108354B 公开(公告)日: 2021-04-06
发明(设计)人: 张春霞;冉昇;武嘉玉;冯丽霞;牛振东;黄达友 申请(专利权)人: 北京理工大学
主分类号: G06F40/253 分类号: G06F40/253;G06F16/9535;G06N3/08;G06Q50/00
代理公司: 北京正阳理工知识产权代理事务所(普通合伙) 11639 代理人: 鲍文娟
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 学习 用户 性别 预测 方法
【说明书】:

发明涉及一种基于深度学习的微博用户性别预测方法,属于Web挖掘和智能信息处理领域。该预测方法包括:微博信息采集;微博文本预处理;构建微博文本词语的词向量;采用一种基于卷积神经网络的微博文本表示方法来构建微博文本句子的特征向量;采用一种基于长短期记忆网络模型的方法进行微博用户的性别预测或分类。基于卷积神经网络的微博文本表示方法不需要人工构建微博文本特征,能够实现对微博文本的语义建模。基于长短期记忆网络的微博用户性别预测方法能够提取微博文本中的语义序列依赖关系特征。本发明的微博用户性别预测方法准确地提取了微博文本特征,提高了微博用户性别的识别性能,在信息推荐、产品营销领域具有广阔的应用前景。

技术领域

本发明涉及Web挖掘和智能信息处理领域,涉及一种基于深度学习的微博用户性别预测方法,本发明在信息推荐、网络舆情监控和电子商务等领域具有广阔的应用前景。

背景技术

微博用户性别预测是用户身份画像构建的重要研究内容。用户身份画像构建是指识别用户的各种身份属性,包括用户的性别、年龄和教育程度等。用户身份画像构建技术可广泛应用于计算机调查取证、网络舆情监控、商品营销等领域。

目前,用户性别预测主要采用分类的方法来识别用户的性别。Mikros在文献《Authorship Attribution and Gender identification in Greek Blogs》(Methods andApplications of Quantitative Linguistics,2012)中,构建了关于高频词和字符等特征,然后采用支持向量机分类器来识别博客作者的性别。Ansari等在文献《GenderClassification of Blog Authors》(Special Issue of International Journal ofSustainable Development and Green Economics,2013)中,提取了关于词性等特征,然后利用贝叶斯等分类器来识别博客作者的性别。王晶晶等在文献《中文微博用户性别分类方法研究》(中文信息学报,2014)中,首先分别开发了基于用户信息和微博文本的两个分类器,然后利用贝叶斯规则集成这两个分类器来识别微博作者的性别。

现有微博用户性别识别方法主要存在如下问题:需要人工构建微博文本特征;现有微博文本表示主要采用向量空间模型或词袋模型,存在特征向量稀疏和维度较高的问题。

针对微博用户性别识别方法存在的上述问题,为提供高效的微博用户身份画像构建服务,迫切需要微博用户性别识别技术。

发明内容

本发明的目的是为了解决微博用户性别识别方法中存在的上述问题提供一种基于深度学习的微博用户性别预测方法。一种基于深度学习的微博用户性别预测方法包括一种基于卷积神经网络的微博文本表示方法,以及一种基于长短期记忆网络(LSTM,LongShort Term Memory)的微博用户性别预测或分类方法。基于卷积神经网络的微博文本表示方法能够自动抽取微博文本特征。基于长短期记忆网络的微博用户性别预测方法能够获取微博文本中的语义序列依赖关系,因此能够更加准确地预测微博用户的性别。

本发明的目的是通过以下技术方案实现的。

一种基于深度学习的网络用户性别预测方法,包括如下步骤:

步骤1,微博信息采集:利用网络爬虫采集微博平台上用户的微博文本,将其保存到计算机;

采集若干个不同性别的微博用户的微博文本,把每个用户的微博文本存储到以用户ID命名的可扩展标记语言文件中。另外,把所有微博用户的性别属性存入一个文件中。

步骤2,微博文本预处理:对步骤1采集的微博文本进行正文抽取、词形还原,以及停用词和标点符号过滤;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711380014.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top