[发明专利]基于企微讨论组的用户话题标签生成方法和系统在审
申请号: | 202110757295.7 | 申请日: | 2021-07-05 |
公开(公告)号: | CN113342959A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 黄楷;梁新敏;陈羲 | 申请(专利权)人: | 北京明略昭辉科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/335;G06F40/194;G06F40/279 |
代理公司: | 青岛清泰联信知识产权代理有限公司 37256 | 代理人: | 赵燕 |
地址: | 100089 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 讨论 用户 话题 标签 生成 方法 系统 | ||
本申请涉及一种基于企微讨论组的用户话题标签生成方法及系统,其中,该方法包括:词向量训练步骤,根据行业类型预设不同的讨论标签,并据此筛选得到对应外部词向量,所述外部词向量结合会话存档训练词向量;优先词获取步骤,计算所述词向量与所述讨论标签的相似度,并将满足预设条件的所述词向量加入优先词列表;会话打标步骤,根据优先词与预设停用词,利用分词系统扫描会话存档并对所述会话存档进行打标;话题标签生成步骤,对打标结果进行处理后,获得用户话题标签。通过本申请针对海量用户会话信息,快速构建用户讨论的话题标签。
技术领域
本申请涉及数据处理技术领域,特别是涉及基于企微讨论组的用户话题标签生成方法和系统。
背景技术
在toC端的企微服务中,公司运营人员通常使用企业微信,添加客户进企微讨论组,开展营销活动。在此背景下,运营人员可以通过企微讨论组,通过对用户话题回应、宣传自身产品功效等方式进行主动营销。此外,用户亦可以在企微讨论组进行日常话题等讨论。
对于用户在企微讨论组中讨论的文本信息,运营人员可以使用企微的会话存档功能进行记录。正确识别用户讨论的话题,可以帮助运营人员构建用户标签,并基于此标签,对不同类别用户进行营销工作,或者发现用户讨论话题,辅助构建运营素材。
传统基于讨论组信息构建用户标签的方式,通常是运营人员进行人工查阅聊天信息并进行打标。但这种方式存在以下瓶颈:
当企微会话存档数据达到一定量级时(例如多条数据、多个讨论组等),人工打标的方式进展缓慢;同时,不同运营人员的用户打标标准不一,且无法判断用户讨论的话题是否为较流行话题,从而导致可能打出的标签为长尾数据(例如一个标签仅命中一人),难以帮助运营人员开展后续的营销活动。
目前针对相关技术中人工打标进展缓慢的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种基于企微讨论组的用户话题标签生成方法和系统,以至少解决相关技术中人工打标缓慢的问题。
第一方面,本申请实施例提供了一种基于企微讨论组的用户话题标签生成方法,包括以下步骤:
词向量训练步骤,根据行业类型预设不同的讨论标签,并据此筛选得到对应外部词向量,外部词向量结合会话存档训练词向量;
优先词获取步骤,计算词向量与讨论标签的相似度,并将满足预设条件的词向量加入优先词列表;
会话打标步骤,根据优先词与预设停用词,利用分词系统扫描会话存档并对会话存档进行打标;
话题标签生成步骤,对打标结果进行处理后,获得用户话题标签。
在其中一些实施例中,词向量训练步骤还包括:
外部词向量筛选步骤,根据腾讯AI Lab获得腾讯AI LAb词向量,计算腾讯AI LAb词向量与讨论标签对应向量的欧氏距离,并据此筛选得到外部词向量;
词向量输出步骤,对会话存档进行预处理得到对应的one-hot向量,将one-hot向量和外部词向量输入至Word2vec模型并输出词向量。
在其中一些实施例中,优先词获取步骤具体包括:
通过以下公式计算词向量与讨论标签对应的标签词向量的余弦相似度,
其中,A、B分别代表词向量和讨论标签对应的词向量,n代表总维度,i表示第i个维度,
当余弦相似度大于预设阈值时,将词向量对应的分词加入优先词列表。
在其中一些实施例中,会话打标步骤具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略昭辉科技有限公司,未经北京明略昭辉科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110757295.7/2.html,转载请声明来源钻瓜专利网。