[发明专利]热点发现和可视化交互方法与系统在审
申请号: | 202211349217.4 | 申请日: | 2022-10-31 |
公开(公告)号: | CN115730066A | 公开(公告)日: | 2023-03-03 |
发明(设计)人: | 杨萌;杜振东;王清琛 | 申请(专利权)人: | 南京云问网络技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289 |
代理公司: | 南京行高知识产权代理有限公司 32404 | 代理人: | 王培松;王菊花 |
地址: | 210000 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 热点 发现 可视化 交互 方法 系统 | ||
本发明提供一种热点发现和可视化交互方法与系统,首先接收输入的用户交互数据,然后进行粗分组处理,对文本句子数据进行聚类分组,将句子分配至不同的簇中,形成多个簇组合;最后对聚类分组结果进行全局和局部提纯,获得提纯后的多个簇组合输出。本发明的热点发现和可视化交互方法将热点发现分成支持多次反复操作的粗分组和提纯阶段,使得聚类和审核过程衔接起来,让用户能够参与挖掘过程,根据粗分组聚类结果决定是否进入提纯阶段,减缓结果评判的困难和审核工作量大的问题;同时设计可视化,将聚类算法融入交互系统中,把调参的过程和结果以图形方式展示给操作人员,让无算法背景的人员能够无痛参与挖掘过程,提高工具的使用率和传播率。
技术领域
本发明涉及数据处理技术领域,具体而言涉及一种热点发现和可视化交互方法与系统。
背景技术
随着互联网的发展,企业拥有了大量形式多样的用户交互数据。例如,用户对企业的投诉工单、用户和客服的聊天数据、政务网站的建设意见、电子商务平台的产品评价等,这些用户交互数据中文字信息拥有极大的商业价值。例如,通过使用无监督聚类算法,在没有人工干预的情况下快速发现数据中潜在规律,能够快速地将相似数据聚合起来,让人们看到数据中用户关注的热点现象,这个数据挖掘过程称作为热点发现。
现有处理文本数据的方法通常使用有监督分类和无监督聚类这两种算法。有监督分类算法具有明确的标签和具体的评价指标,而无监督聚类算法则没有。所以无监督聚类的处理结果需要人工分析,并且需要数据分析师有一个很好的数据直觉。因为它没有清晰的评判指标,往往需要对同一份数据进行多次聚类,然后横向比较后人工打分,再挑选出一个最好的结果。这是聚类算法本身的难点。
热点发现过程需要使用到聚类算法是因为它的无需标注,前期投入的人力少。按照以往的做法是一次性将数据输入到聚类算法中,然后将聚类的结果直接以输出表格的形式,再交给业务人员进行人工审核。这种做法的缺点是人工不能参与挖掘的过程,只能一次性处理后再判断结果,人工审核工作量大,而且需要操作人员接受算法培训,懂得基本的调参方法,门槛较高;如果操作聚类的人员和审核人员是不同的工作组员,那就需要更多沟通成本和时间成本,这些对于热点发现和挖掘来说,是不期望的。
发明内容
根据本发明目的的第一方面,提出一种热点发现和可视化交互方法,包括:
接收输入的用户交互数据,所述用户交互数据包括多条顺序排列的文本句子数据,所述文本句子数据包括表格形式存储的文本信息,所述文本信息包括两列,其中一列表示id,另一列为每个id对应的句子信息;
对文本句子数据进行粗分组处理,基于选定的无监督聚类算法对所述文本句子数据进行聚类分组处理,将句子分配至不同的簇中,形成多个簇组合,记为集合ClustersA;
对聚类分组结果进行全局和局部的提纯处理,获得提纯后的多个簇组合,记为集合ClustersB。
作为可选的方式,在聚类分组处理过程中,根据用户选择的无监督聚类算法以及设定的聚类参数,进行聚类分组操作,其中:
对于K-means聚类算法,设定的聚类参数包括聚类中心个数;
对于DBSCAN聚类算法,设定的聚类参数包括初始化参数,即:领域半径Eps和领域半径Eps范围内的最少点数MinPts。
作为可选的方式,对文本句子数据进行粗分组处理,基于选定的无监督聚类算法对所述文本句子数据进行聚类分组处理,将句子分配至不同的簇中,形成多个簇组合,包括以下步骤:
步骤2-1、对列表形式的文本信息进行数据清洗,获得清洗后的文本数据列表,记为集合N;
步骤2-2、基于中文预训练语言模型作为中文句向量工具,将每个句子处理成维度大小为1*786的句子向量,则集合N的句子生成的矩阵维度为N*768,记为矩阵A;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京云问网络技术有限公司,未经南京云问网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211349217.4/2.html,转载请声明来源钻瓜专利网。