[发明专利]基于网络评论的用户性别确定方法、装置和电子设备在审
申请号: | 202210731090.6 | 申请日: | 2022-06-24 |
公开(公告)号: | CN115033806A | 公开(公告)日: | 2022-09-09 |
发明(设计)人: | 王雪;曹斌 | 申请(专利权)人: | 东软睿驰汽车技术(大连)有限公司 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F40/253;G06F40/30;G06K9/62 |
代理公司: | 北京超成律师事务所 11646 | 代理人: | 王晓菲 |
地址: | 116000 辽宁省大连市*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 网络 评论 用户 性别 确定 方法 装置 电子设备 | ||
本发明提供了一种本发明提供的一种基于网络评论的用户性别确定方法、装置和电子设备,涉及人工智能技术领域。通过获取网络评论语料,并对所述网络评论语料进行预处理,得到预处理后的网络评论语料;根据语法特征模型,确定预处理后的网络评论语料对应的目标语法特征,所述目标语法特征用于确定网络评论语料的用户性别的语言特征,所述目标语法特征包括以下的一种或多种:词类、词组和句式;根据所述目标语法特征属于每种用户性别的评价值,确定每个所述目标语法特征的熵权值;根据网络评论语料对应的目标语法特征属于每种用户性别的熵权值,确定用户性别。以此通过语法特征以及熵权值,可以有效的判断评论的性别,提升了性别识别的准确性。
技术领域
本发明涉及人工智能技术领域,尤其是涉及一种基于网络评论的用户性别确定方法、装置和电子设备。
背景技术
用户创造信息、分享信息在互联网形成海量信息,评论作为信息表现形式之一,是重要的信息来源。由于具有不同属性(性别、年龄、学历、职业等)的人群所表达的语言存在一定差异,网络评论文本属于语言文本范畴,可以为用户特征和行为分析挖掘提供依据和参考。
当前在评论的用户特征分析过程中,一般仅针对评论文本中的词类和词组,此种方式获得的特征提取结果存在一定的误差,该结果不利于后期的挖掘等应用的可靠性。
发明内容
本发明的目的在于提供一种基于网络评论的用户性别确定方法、装置和电子设备,以缓解了现有技术中存在的可靠性差的技术问题。
第一方面,本发明提供一种基于网络评论的用户性别确定方法,所述方法包括:
获取网络评论语料,并对所述网络评论语料进行预处理,得到预处理后的网络评论语料;
根据语法特征模型,确定所述预处理后的网络评论语料对应的目标语法特征,所述目标语法特征为用于确定网络评论语料的用户性别的语言特征,所述目标语法特征包括以下的一种或多种:词类、词组和句式;
根据所述目标语法特征属于每种用户性别的评价值,确定每个所述目标语法特征的熵权值;
根据所述网络评论语料对应的目标语法特征属于每种用户性别的熵权值,确定用户性别。
在可选的实施方式中,根据语法特征模型,确定所述预处理后的网络评论语料对应的目标语法特征的步骤,包括:
获取所述预处理后的网络评论语料中的语法特征;
根据所述语法特征模型对应的语法特征范围,确定所述语法特征中的目标语法特征,所述语法特征范围中的每个语法特征的卡方值符合预设要求。
在可选的实施方式中,根据所述目标语法特征属于每种用户性别的评价值,确定每个所述目标语法特征的熵权值的步骤,包括:
根据每个所述目标语法特征对应的指标种类,确定每个所述目标语法特征对于每种用户性别的评价值,其中,每个所述目标语法特征包括至少一种指标;
基于所述评价值计算每种用户性别中每个所述目标语法特征对应的指标的比重;
根据每种指标的比重,计算所述指标的熵权值。
在可选的实施方式中,根据所述网络评论语料对应的目标语法特征属于每种用户性别的熵权值,确定用户性别的步骤,包括:
获取所述网络评论语料对应的目标语法特征中,属于男性性别的熵权值和属于女性性别的熵权值;
将属于男性性别的每个目标语法特征对应的熵权值和属于女性性别的每个目标语法特征对应的熵权值,分别进行加和;
根据男性性别熵权值和女性性别熵权值,确定每个用户性别。
在可选的实施方式中,根据男性性别熵权值和女性性别熵权值,确定每个用户性别的步骤,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软睿驰汽车技术(大连)有限公司,未经东软睿驰汽车技术(大连)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210731090.6/2.html,转载请声明来源钻瓜专利网。