[发明专利]识别互联网用户性别方法和系统在审
| 申请号: | 201610134810.5 | 申请日: | 2016-03-09 |
| 公开(公告)号: | CN107180044A | 公开(公告)日: | 2017-09-19 |
| 发明(设计)人: | 李倚;吴贇哲 | 申请(专利权)人: | 精硕科技(北京)股份有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京睿邦知识产权代理事务所(普通合伙)11481 | 代理人: | 余玥君 |
| 地址: | 100144 北京市石景山*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 识别 互联网 用户 性别 方法 系统 | ||
技术领域
本发明属于计算机领域,涉及一种识别互联网用户性别的方法。本发明还涉及一种识别互联网用户性别的系统。
背景技术
传统上分类问题可以由专家系统来实现。由领域专家来选择与分类目标强相关的特征,如身高、体重,又有互联网上行为,诸如访问汽车类网站、女性化妆品类网站的行为,亦或者是习惯上网的时间、查看网页的正文内容等等。再由领域专家确定每一个特征的表征值或计分值,结合本案可以是:身高高于178cm计1分、身高低于160cm计-1分、访问汽车类网站计1分、访问女性类网站计-1分等等诸如此类。最后统计一下待预测用户的若干项特征的得分,大于0的就预测成男性、小于0的就预测成女性。
我们可以发现专家系统的形式可以多种多样,但是其本质是基于经验的系统。由专家提供的领域知识占有决定性的地位。但现实生活中,每一种特征对于样本用来说并非一定合理和奏效,如对于女排运动员来说身高与性别的强相关性并不是那么显然的,甚至是错误的。又比如纪念日前男生访问女性化妆品网站为选购礼物也是普遍的现象。这样一来专家定制的规则将越来越复杂,条件也将越来越难以评判,这样一来成本无法控制、更重要的是规则的制定将永远落后于时效,从而导致专家系统效果不理想、耗时费力、依赖领域专家知识。
发明内容
为了解除对专家知识的依赖,发明人潜心开发一种能自动化选取与待预测目标相关联的特征维度、自动训练模型得到次样本空间上的最优模型、便于自动化预测的识别互联网用户性别的方法。
根据本发明的第一方面,本发明提供一种识别互联网用户性别的方法,包括:
提取多个调研样本的性别数据及网络行为数据;
根据所述调研样本的性别数据及所述网络行为数据构建性别-行为模型;
接收待分析用户的网络行为数据;
将所述待分析用户的网络行为数据带入所述性别-行为模型计算待分析用户的性别概率。
所述网络行为数据包括曝光广告的种类、媒体、访问的网页url、文本信息中的至少一种。
优选地,在提取调研样本的性别数据及网络行为数据之后,对所获得的数据进行清洗,去除错误信息。
可选地,在清除错误信息之后,对网络行为数据提取特征并数值化。
可选地,在清除错误信息之后,对网络行为数据提取特征,并根据特征覆盖率、卡方统计量、信息增益-信息熵中的至少一种排除不理想的特征。
优选地,所述性别-行为模型为广义线性模型。
更优选地,所述性别-行为模型为
其中
X为用户特征向量,记录了数值化后的用户互联网访问行为;
μ为性别概率;
β为最优的参数估计值。
根据本发明的第二方面,本发明提供一种识别互联网用户性别的系统,包括
样本准备单元,提取多个调研样本的性别数据及网络行为数据;
建模单元,根据所述调研样本的性别数据及所述网络行为数据构建性别-行为模型;
待测数据接收单元,接收待识别用户的网络行为数据;和
性别识别单元,将所述待识别用户的网络行为数据代入所述性别-行为模型计算得到待识别用户的性别概率。
优选地,所述性别-行为模型为
在本发明的一些实施方式中,所述建模单元包括
特征抽取模块,将提取到的网络行为数据转化为特征集合,并数值化;
特征清洗模块,将与待预测目标相关性低、覆盖率小、和/或作用相似的特征排除掉;和
参数估计模块,利用统计学方法得到最优的参数估计值β。
优选地,可以通过极大似然估计、拟极大似然估计或贝叶斯定理来估计最优的参数估计值β。
更优选地,通过极大似然估计来得到最优的参数估计值β
根据本发明第三方面,本发明提供一种识别互联网用户性别的方法,包括:
接收待识别用户的网络行为数据;
对待识别用户的网络行为数据进行特征提取;
将提取出的特征带入模型库中的模型进行计算;和
输出计算结果。
优选地,所述提取出的特征经过数值化转化为用户特征向量X。
优选地,所述模型为
其中
X为用户特征向量,记录了数值化后的用户互联网访问行为;
μ为性别概率;
β为最优的参数估计值。
在本发明的一些实施方式中,所述β值会根据用户特征向量的选取而变化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于精硕科技(北京)股份有限公司,未经精硕科技(北京)股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610134810.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:分页实现方法和分页系统
- 下一篇:一种互联网文本蕴含地理实体关系的抽取方法





