[发明专利]一种用户画像分析方法及系统有效
申请号: | 202310094436.0 | 申请日: | 2023-02-10 |
公开(公告)号: | CN115795040B | 公开(公告)日: | 2023-05-05 |
发明(设计)人: | 邓翼;谢丽菁;童颖;何以然 | 申请(专利权)人: | 成都桉尼维尔信息科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F18/241;G06F40/284;G06F18/23;G06F40/289 |
代理公司: | 成都云纵知识产权代理事务所(普通合伙) 51316 | 代理人: | 熊曦 |
地址: | 610095 四川省成都市*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用户 画像 分析 方法 系统 | ||
1.一种用户画像分析方法,其特征在于,所述用户画像分析方法包括以下步骤:
配置爬虫规则,根据所述爬虫规则下载评论数据,获得第一评论数据;
建立BERT模型,根据所述BERT模型计算所述第一评论数据的特征向量,获得第三数据;
根据所述BERT模型对所述第一评论数据进行分词处理,获得第一词组;
根据所述第一词组建立同义词表,并根据所述同义词表建立同义替换增强器;
建立文本随机删除增强器;
根据所述同义替换增强器和所述随机删除增强器对所述BERT模型进行调整;
根据所述第三数据对所述第一评论数据进行分类,获得分类结果;
根据所述分类结果分别提取每一类数据对应的关键词,获得第一数据,所述第一数据用于描述用户关注的主题;
根据所述分类结果分别计算每一类数据对应的情感倾向,获得第二数据,所述第二数据用于描述用户对主题的喜好;
分析所述第一数据和所述第二数据,获得用户喜好分布和倾向;
其中,所述同义替换增强器和所述随机删除增强器对所述BERT模型进行调整的具体方法为:
将所述第一评论数据分别输入所述同义替换增强器和所述随机删除增强器,分别获得第一样本和第二样本;
分别将所述第一样本和所述第二样本输入所述BERT模型中,分别获得第一特征向量和第二特征向量;
计算所述第一特征向量和所述第二特征向量的均方误差损失,获得所述第一评论数据的均方误差损失,根据所述均方误差损失更新所述BERT模型参数。
2.根据权利要求1所述的一种用户画像分析方法,其特征在于,获得所述第一评论数据后,首先将所述第一评论数据存入本地数据库,然后确定分析范围,根据所述分析范围调用所述本地数据库中对应的数据,获得第二评论数据,其中,所述分析范围用于确定用户画像的分析目标,所述分析范围包括用户范围和作品范围。
3.根据权利要求1所述的一种用户画像分析方法,其特征在于,所述同义替换增强器对应生效概率为p1,所述文本随机删除增强器对应生效概率为p2。
4.根据权利要求1所述的一种用户画像分析方法,其特征在于,根据所述第三数据对所述第一评论数据进行分类的具体方法为:
步骤a:指定聚类类别数k,k为正整数,初始化所述第三数据中k个特征向量作为聚类中心,每个所述聚类中心分别对应一个类;
步骤b:分别计算所述第三数据和所述聚类中心的距离,将所述第三数据分类到距离最近的聚类中心所对应的类中;
步骤c:重新计算每个类的聚类中心;
步骤d:重复执行步骤b和步骤c,直至所述聚类中心和所述第三数据间的均方误差收敛。
5.根据权利要求4所述的一种用户画像分析方法,其特征在于,根据所述分类结果分别提取每一类对应的关键词,获得第一数据的具体方法为:
遍历所述分类结果中第k类数据,所述第k类数据中包括i条评论,i为大于1的整数,分别提取所述i条评论中的词组,获得第二词组;
分别计算所述第二词组的特征得分;
其中,所述特征得分最大的词组为所述第k类数据对应的关键词,获得第一数据。
6.根据权利要求5所述的一种用户画像分析方法,其特征在于,计算第k类数据中所述第二词组的特征得分的方法为:其中,m表示第k类数据包含的评论总数,C表示词组j的特征得分,表示第条评论距离类中心的距离,表示第i条评论中词组j出现的频次,为第一评论数据中评论总数,为第一评论数据中出现词j的评论数量。
7.一种用户画像分析系统,其特征在于,所述系统包括:
评论获取模块:用于配置爬虫规则,并根据所述爬虫规则下载评论数据,获得第一评论数据;
数据处理模块:用于建立BERT模型,根据所述BERT模型计算所述第一评论数据的特征向量,获得第三数据;
根据所述BERT模型对所述第一评论数据进行分词处理,获得第一词组;
根据所述第一词组建立同义词表,并根据所述同义词表建立同义替换增强器;
建立文本随机删除增强器;
根据所述同义替换增强器和所述随机删除增强器对所述BERT模型进行调整;
根据所述第三数据对所述第一评论数据进行分类,获得分类结果;
特征提取模块:用于根据所述分类结果分别提取每一类数据对应的关键词和情感倾向,分别获得第一数据和第二数据,所述第一数据用于描述用户关注的主题,所述第二数据用于描述用户对主题的喜好;
粉丝聚类模块:用于分析所述第一数据和所述第二数据,获得用户喜好分布和倾向;
其中,所述同义替换增强器和所述随机删除增强器对所述BERT模型进行调整的具体方法为:
将所述第一评论数据分别输入所述同义替换增强器和所述随机删除增强器,分别获得第一样本和第二样本;
分别将所述第一样本和所述第二样本输入所述BERT模型中,分别获得第一特征向量和第二特征向量;
计算所述第一特征向量和所述第二特征向量的均方误差损失,获得所述第一评论数据的均方误差损失,根据所述均方误差损失更新所述BERT模型参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都桉尼维尔信息科技有限公司,未经成都桉尼维尔信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310094436.0/1.html,转载请声明来源钻瓜专利网。