[发明专利]一种基于机器学习的文本挖掘技术消费维权指标分析方法在审
申请号: | 201711366440.9 | 申请日: | 2017-12-18 |
公开(公告)号: | CN107992613A | 公开(公告)日: | 2018-05-04 |
发明(设计)人: | 王晓佳;蔡文鑫 | 申请(专利权)人: | 广东广业开元科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06K9/62;G06N99/00;G06Q50/26;G06Q30/00 |
代理公司: | 北京科家知识产权代理事务所(普通合伙)11427 | 代理人: | 陈娟 |
地址: | 510070 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 文本 挖掘 技术 消费 维权 指标 分析 方法 | ||
技术领域
本发明涉及消费维权指数计算技术,具体涉及一种基于机器学习的文本挖掘技术消费维权指标分析方法,该方法主要应用于政府维稳监控系统、投诉举报数据分析研判系统、12345政务服务热线系统、公安系统、工商局系统、企业征信系统。
背景技术
随着近年社会经济的快速发展,12345政务服务热线受理部分消费者咨询、投诉、举报、意见及建议,是广大人民群众送上门来的“调查研究”,是工商行政管理机关研究加强和改进市场监管工作必须参考的大数据。其中投诉类型占12345工单数量一半以上,对投诉工单进行文本处理和分析,建立企业投诉风险预警模型是实现市场“大数据”向市场监管能力转化的有效探索和重要途径。
工商行政管理机关12345政务服务热线中心直接面对广大消费者,贴近人民群众,贴近市场,每天都会产生大量数据信息。这些数据信息是广大消费者对当下市场存在问题的实时反馈,能够及时、准确地反映消费热点的变化特点和规律,反映市场主体诚信经营状况、商品和服务质量状况,以及市场公平交易秩序状况,是市场监管质量的“温度计”、“晴雨表”,更是评价工商行政管理机关市场监管成效的“主考官”。
因此,加强对12345数据的分析利用,特别是被投诉企业的风险等级分类,坚持用数据说话,对于指导相关部门执法的针对性、时效性有重大意义。
传统“消费维权指数”的计算方法:消费维权指数可以某一时期确立为“基期”,选择服装鞋帽、美容美发、家居用品、家用电器及计算机产品、通讯器材类、交通工具、农业生产资料、网络交易这八大重点商品和服务作为监测领域,计算得出消费者投诉举报的商品和服务涉案总金额,然后建立数学模型:消费维权指数=当月八大类别商品或服务各涉案金额除以基期(某一时期)同类商品或服务涉案总金额乘以100。
该算法的缺点:缺点1,仅仅考虑了涉案金额为唯一指标,计算结果往往会被某涉案金额高的数据影响,缺少了其他方面的考虑:立案比例、涉及人员人数、投诉人比例、异常企业投诉比例等等;缺点2,由于涉及的数据量巨大,新增了多个数据维度,给人工计算带来了若干困难。
发明内容
有鉴于此,本发明的主要目的是提供一种基于机器学习的文本挖掘技术消费维权指标分析方法。
具体的方案如下:
一种基于机器学习的文本挖掘技术消费维权指标分析方法,包括如下步骤:
步骤1)数据采集及处理并生成规范化数据:
S1:利用数据采集模块获取12345热线的工单文本;对数据采集模块获取的工单文本采用处理器进行初始处理步骤,对录入的文本数据利用分词模块和去噪模块进行处理,获得各个文本数据中的关键词;其中,数据采集模块连接处理器,处理器内设置有分词模块和去噪模块;
S2:设定文本特征向量化模块,将各个关键词进行向量化并作归一化处理,获得由各个关键词W在文件d中的向量化归一化结果建立的实数值矩阵;
S3:设定文本数据相似性匹配模块,根据建立的所述实数值矩阵,利用余弦定理计算各关键词间的余弦相似度,并将余弦距离最近的文本数据进行匹配,形成近义词词库;
S4:设定规范化数据生成模块,将匹配好的文本数据按照设定的统一规范化模式生成规范化数据;
步骤2)利用提取模块获取数据采集模块得到的规范化数据,并利用数据处理模块得到情感倾向度;
步骤3)利用分类模块将情感倾向度分析后的消费维权数据进行分组和权重分类;
步骤4)利用处理器进行指标得分率计算;
步骤5)构建SVM分类器;
步骤6)构建训练分类模型;
步骤7)通过步骤6)进行模型预测。
优选的,步骤2)利用数据处理模块得到情感倾向度的具体步骤如下:
S1:建立连词和否定词词典库;
S2:根据连词和否定词词典库从规范化数据中抽取连词和否定词,并标记相应词在规范化数据中的位置;
S3:匹配现有的情感词典库,获得词汇的极性及其情感评分值;
S4:通过连词位置,确定前句与后句所占比重,再根据否定词位置判断双重否定以及邻近词汇的极性反转;
S5:利用词汇的极性及其情感评分值带入连词和否定词后对规范化数据进行累加获得情感计算评分;
S6:循环步骤S2至S5,若情感计算评分为正则为积极,为负则为消极,否则为中心;
S7:投诉风险等级规则用于根据聚类结果将投诉风险等级划分为高危极、危险级、一般投诉级、投诉倾向级以及无投诉倾向级这五个风险等级;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东广业开元科技有限公司,未经广东广业开元科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711366440.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:医护显示设备的背壳及医护显示设备
- 下一篇:新型计算机显示器装置