[发明专利]一种基于文本聚类的恶意投诉识别方法及系统在审
申请号: | 202110351440.1 | 申请日: | 2021-03-31 |
公开(公告)号: | CN113094567A | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 王萍 | 申请(专利权)人: | 四川新网银行股份有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/35;G06F40/284 |
代理公司: | 成都智言知识产权代理有限公司 51282 | 代理人: | 胡文莉 |
地址: | 610094 四川省成都市成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 恶意 投诉 识别 方法 系统 | ||
本发明涉及人工智能与软件系统技术领域,尤其是一种基于文本聚类的恶意投诉识别方法及系统,包括:步骤1:投诉网站投诉信息爬虫;步骤2:自定义文本特征加工;步骤3:双向匹配分词;步骤4:词频特征集及可视化;步骤5:基于DBSCAN算法的密度聚类;步骤6:恶意投诉簇确定。本发明的有益效果如下:本发明综合应用爬虫技术、自然语言处理技术以及聚类算法技术,通过网络投诉渠道爬虫投诉信息内容,基于本文内容构建LDA主题模型进行自然语言处理,并基于此采用密度聚类方法DBSCAN对所有投诉信息进行分类,最终识别恶意投诉。
技术领域
本发明涉及人工智能与软件系统技术领域,尤其是一种基于文本聚类的恶意投诉识别方法及系统。
背景技术
近年来,针对银行、支付公司、消金公司、互金公司、保险公司等机构(简称金融机构)的恶意投诉代理,已经形成一个“黑色产业”。接单、签约、“维权”、分成,团火作业、分工明确。金融机构不堪其扰,一方面恶意投诉越来越多,另一方面银行内部确实有监管考核压力。恶意投诉的最终目的,就是恶意逃废债。近年来,金融领域的逃废债行为,使得金融行业不良贷款率不断攀升,造成部分中小金融机构以及金融从业机构的风险不断积聚。
当前金融行业关于恶意投诉的识别方法比较少。通过深入研究恶意投诉用户的行为模式,发现恶意投诉用户一般都采用黑产中介提供的投诉模板,集中在网络渠道或者监管线下渠道进行投诉。网络投诉渠道如:黑猫投诉、聚投诉等。
基于此,本文提出了一种基于文本聚类的恶意投诉识别方法及系统,综合应用爬虫技术、自然语言处理技术以及聚类算法技术,通过网络投诉渠道爬虫投诉信息内容,基于本文内容构建LDA主题模型进行自然语言处理,并采用密度聚类方法DBSCAN对所有投诉信息进行分类,最终识别恶意投诉。
发明内容
针对上述现有技术中存在的不足,本发明的目的在于提供一种基于文本聚类的恶意投诉识别方法及系统,解决目前无法快速识别恶意投诉的问题。
为解决上述问题,本发明公开了一种基于文本聚类的恶意投诉识别方法,包括以下步骤:
步骤1:通过界面配置指定投诉网站以及主题参数,后台通过爬虫技术采集满足一定条件的投诉内容;
步骤2:将爬虫的投诉信息存储在关系数据库中,并进行用户自定义的文本特征加工;假设采集了n篇投诉内容;主键字段名为ID,定义为自增主键,取值为1,2,......,n;投诉信息集合记作C={C1,C2,......,Cn},其中Ci表示第i篇投诉的内容,i=1,2,......,n;假设文本加工的特征集为X1,自定义文本特征有m个特征,记作
步骤3:本文中假定投诉描述主要为中文,本文采取中文分词的方法对每篇投诉内容进行分词;中文分词将每篇投诉描述切分成一个一个单独的词;通过双向匹配分词法对投诉描述内容进行分词处理;双向最大匹配法是一种基于词典的分词方法,基于词典的分词方法是按照一定策略将待切分的汉字串与一个词典库中的词条进行匹配,若在词典中找到某个字符串,则匹配成功;对于采集的n篇投诉舆情,假设将第i篇投诉分割成ki个词语组成的向量,记作对于投诉信息集C,切词之后形成的投诉信息分割集记作其中i=1,2,......,n;
步骤4:对步骤3的分词结果进行词频统计,即统计全量投诉信息中每个词出现的次数,并形成词云图;统计每篇投诉信息每个词出现的次数,以及在该篇投诉信息内容中的占比,并形成词频统计特征集和词频比例特征集
步骤5:合并上述加工的文本特征集X1、词频统计特征集和词频比例特征集合计m+2nt个特征变量,记作聚类特征集
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川新网银行股份有限公司,未经四川新网银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110351440.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电机转矩优化有限集预测控制并行计算方法
- 下一篇:一种连续挤压机