[发明专利]用户标签提取方法、装置、设备及介质在审

申请号：	202110851246.X	申请日：	2021-07-27
公开（公告）号：	CN113553431A	公开（公告）日：	2021-10-26
发明（设计）人：	陈贝妮;王坚;李婷;赵炀	申请（专利权）人：	深圳平安综合金融服务有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/36;G06F16/903;G06F40/289;G06N3/04;G06N3/08
代理公司：	深圳市精英专利事务所 44242	代理人：	涂年影
地址：	518000 广东省深圳市福田***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用户标签提取方法装置设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及人工智能领域，提供一种用户标签提取方法、装置、设备及介质，能够通过文本增强召回所有可能的文本表达，再通过敏感词召回从增强后得到的文本中进行筛选，以保证尽可能多且准确地定位到关键词，以供后续模型训练使用，提升了模型的训练效果，结合敏感词召回与深度学习训练得到用户标签提取模型，同时融合了敏感词识别在舆情场景的强适应性，以及深度学习算法对于文本情感基调判断的高准确性，先通过敏感词识别大量召回舆情相关的文本，再通过深度学习判断召回文本的情感正负性，能够有效提高标签识别的准确性。此外，本发明还涉及区块链技术，用户标签提取模型可存储于区块链节点中。

技术领域

本发明涉及人工智能技术领域，尤其涉及一种用户标签提取方法、装置、设备及介质。

背景技术

随着经济的发展，国家对金融行业的严监管将持续推进。在持续的严监管趋势下，各大金融集团需要更先进有效的风险管理手段，并致力于为客户提供更好的产品和服务，因此，在服务过程中准确识别客户的情感状态十分必要。

但是，在舆情事件发生时，往往是坐席先接触到。一方面由于坐席缺乏宏观把控意识，容易低估事件的影响力，造成舆情事件的瞒报；另一方面，管理层虽然拥有较强的宏观把控意识，但不会第一时间接触到舆情事件，因此，舆情事件往往存在从下到上传不及，从上到下管不了的困境。

另外，目前普遍采用机器学习的方式进行用户情感的分析，主要存在以下缺陷：

(1)深度学习算法对客服与用户间的交互类长文本的识别较为困难，不仅需要大量的计算资源，且由于舆情相关文本的出现频率极低，需标注大量的非舆情文本才能召回足够的舆情样本文本，人力成本极大；

(2)舆情的产生大多数时候仅仅基于一个关键词，比如脏话，一句脏话的单词在长语句中的特征并不明显，很难被识别到。

发明内容

鉴于以上内容，有必要提供一种用户标签提取方法、装置、设备及介质，能够结合敏感词召回与深度学习训练得到用户标签提取模型，同时融合了敏感词识别在舆情场景的强适应性，以及深度学习算法对于文本情感基调判断的高准确性，先通过敏感词识别大量召回舆情相关的文本，再通过深度学习判断召回文本的情感正负性，能够有效提高标签识别的准确性。

一种用户标签提取方法，所述用户标签提取方法包括：

获取初始样本，并对所述初始样本进行文本清洗，得到第一样本集合；

对所述第一样本集合中的样本进行文本增强，得到第二样本集合；

对所述第二样本集合中的样本进行敏感词召回处理，得到训练样本；

对所述训练样本中的样本进行标签处理，得到标签样本；

对所述标签样本进行向量化处理，得到向量集；

利用所述向量集训练预设分类网络，得到用户标签提取模型；

当接收到目标用户对应的待处理文本时，将所述待处理文本转化为待处理向量，将所述待处理向量输入至所述用户标签提取模型，并根据所述用户标签提取模型的输出生成所述目标用户的舆情标签。

根据本发明优选实施例，所述对所述初始样本进行文本清洗，得到第一样本集合包括：

配置指定大小的多个窗口；

利用所述多个窗口分别在所述第一样本集合中的每个文本上进行扫描；

当扫描到相同的文本时，将扫描到的相同的文本确定为一组重复词，在所述第一样本集合中保留每组重复词中的一个词，得到第一中间集合；