[发明专利]用户标签提取方法、装置、设备及介质在审
申请号: | 202110851246.X | 申请日: | 2021-07-27 |
公开(公告)号: | CN113553431A | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 陈贝妮;王坚;李婷;赵炀 | 申请(专利权)人: | 深圳平安综合金融服务有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F16/903;G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 涂年影 |
地址: | 518000 广东省深圳市福田*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用户 标签 提取 方法 装置 设备 介质 | ||
1.一种用户标签提取方法,其特征在于,所述用户标签提取方法包括:
获取初始样本,并对所述初始样本进行文本清洗,得到第一样本集合;
对所述第一样本集合中的样本进行文本增强,得到第二样本集合;
对所述第二样本集合中的样本进行敏感词召回处理,得到训练样本;
对所述训练样本中的样本进行标签处理,得到标签样本;
对所述标签样本进行向量化处理,得到向量集;
利用所述向量集训练预设分类网络,得到用户标签提取模型;
当接收到目标用户对应的待处理文本时,将所述待处理文本转化为待处理向量,将所述待处理向量输入至所述用户标签提取模型,并根据所述用户标签提取模型的输出生成所述目标用户的舆情标签。
2.如权利要求1所述的用户标签提取方法,其特征在于,所述对所述初始样本进行文本清洗,得到第一样本集合包括:
配置指定大小的多个窗口;
利用所述多个窗口分别在所述第一样本集合中的每个文本上进行扫描;
当扫描到相同的文本时,将扫描到的相同的文本确定为一组重复词,在所述第一样本集合中保留每组重复词中的一个词,得到第一中间集合;
利用正则表达式提取所述第一中间集合中的数字型文本及时间文本;
将所述数字型文本替换为第一预设值,及将所述时间文本替换为第二预设值,得到第二中间集合;
对所述第二中间集合中的文本进行分词处理,得到第三中间集合;
调用预先配置的停用词词典,利用所述第三中间集合中的文本在所述停用词词典中进行查询;
从所述第三中间集合中删除查询到的与所述停用词词典中的词一致的词,得到所述第一样本集合。
3.如权利要求1所述的用户标签提取方法,其特征在于,所述对所述第一样本集合中的样本进行文本增强,得到第二样本集合包括:
获取预先构建的容错词典;
利用所述第一样本集合中的每个样本在所述容错词典中进行查询,并将查询到的与每个样本相匹配的文本确定为每个样本的增强文本;
将每个样本的增强文本添加至所述第一样本集合,得到所述第二样本集合。
4.如权利要求1所述的用户标签提取方法,其特征在于,所述对所述第二样本集合中的样本进行敏感词召回处理,得到训练样本包括:
获取预先配置的舆情类别,及获取每个舆情类别的敏感词;
根据每个舆情类别的敏感词构建每个舆情类别对应的正则表达式;
识别所述第二样本集合中每个样本的舆情类别;
获取每个样本的舆情类别对应的正则表达式,并利用每个样本的舆情类别对应的正则表达式遍历每个样本,得到每个样本的候选敏感词;
对每个样本的候选敏感词进行修复,得到所述训练样本。
5.如权利要求1所述的用户标签提取方法,其特征在于,所述对所述训练样本中的样本进行标签处理,得到标签样本包括:
识别所述训练样本中具有情感指向的情感词;
从所述训练样本中删除不具有所述情感词的样本,得到初筛样本;
通过欠采样将所述初筛样本中的正样本及负样本的比例调整为预设比例,其中,所述正样本表示带有正向情感指向的情感词的样本,所述负样本表示带有负向情感指向的情感词的样本;
将所述正样本及所述负样本发送至指定平台进行打标签;
利用所述指定平台反馈的带有标签的所述正样本及所述负样本构建所述标签样本。
6.如权利要求1所述的用户标签提取方法,其特征在于,所述对所述标签样本进行向量化处理,得到向量集包括:
采用word2vec算法将所述标签样本中组成每个样本的字转化为指定维度的向量;
对所述组成每个样本的字对应的向量进行纵向拼接,得到每个样本的文本特征矩阵;
组合每个样本的文本特征矩阵,得到所述向量集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳平安综合金融服务有限公司,未经深圳平安综合金融服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110851246.X/1.html,转载请声明来源钻瓜专利网。