[发明专利]一种建筑质量投诉文本分类的方法和系统在审
| 申请号: | 201810405432.9 | 申请日: | 2018-04-29 |
| 公开(公告)号: | CN108563791A | 公开(公告)日: | 2018-09-21 |
| 发明(设计)人: | 钟波涛;邢雪娇;汪旭;骆汉宾;方伟立 | 申请(专利权)人: | 华中科技大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06Q10/06;G06Q50/08 |
| 代理公司: | 华中科技大学专利中心 42201 | 代理人: | 尚威;李智 |
| 地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 质量投诉 投诉 卷积神经网络 文本分类 文本 数据收集和分析 文本分类模型 最优分类模型 文本预处理 后续处理 机器学习 空间向量 模型参数 模型构建 模型优化 人工分类 文本表示 文本分词 文本数据 文本语言 验证结果 语义信息 停用词 准确率 分词 构建 匹配 删除 自动化 验证 分类 | ||
1.一种建筑质量投诉文本分类的方法,其特征在于,包括以下步骤:
步骤1:收集现有的建筑质量投诉文本,提取每条投诉的投诉内容及投诉类别;
步骤2:将投诉内容分词处理,构建投诉文本二维矩阵;
步骤3:将投诉内容文本二维矩阵输入卷积神经网络,对卷积神经网络进行训练,得到文本分类模型。
2.根据权利要求1所述的一种建筑质量投诉文本分类的方法,其特征在于,步骤2中,分词处理包括将投诉文本切词并将删除停用词,分词处理后将投诉文本转换为二维空间矩阵。
3.根据权利要求2所述的一种建筑质量投诉文本分类的方法,其特征在于,投诉文本转换为二维空间矩阵的方法如下:
2.1、建立建筑质量投诉领域词汇词典;
2.2、将投诉文本中包含的关键词,分别在投诉领域词汇词典中进行检索;
2.3、按照关键词的序列,将从词典中查找的关键词向量组合成投诉文本的二维空间矩阵。
4.根据权利要求1~3任意一项所述的一种建筑质量投诉文本分类的方法,其特征在于,步骤3中的文本分类模型包括特征提取和文本分类两部分;
特征提取部分包括卷积核和全连接层,卷积核中包括卷积层、激活层和池化层;
文本分类部分包括输入层、隐藏层和输出层。
5.根据权利要求4所述的一种建筑质量投诉文本分类的方法,其特征在于,文本分类模型中的模型参数包括;输入层参数xi,隐藏层参数yr,输出层参数Cl,输入层与隐藏层之间为Wir,隐藏层与输出层之间参数为Vrl;其中,
I表示输入层总共有I个输入参数,R表示隐藏层总共有R个隐藏参数。
6.根据权利要求5所述的一种建筑质量投诉文本分类的方法,其特征在于,训练前,将xi、yr、Cl、Wir、Vrl赋予随机值,以进行初始化。
7.根据权利要求1或5所述的一种建筑质量投诉文本分类的方法,其特征在于,还包括如下模型优化步骤:
步骤4:将多份已知类别的建筑质量投诉文本分批作为训练集和验证集,按照步骤1、2处理后,输入步骤3的文本分类模型进行训练与验证,将不同批次计算结果的准确率作对比,挑选准确率最高的批次对应的模型参数对文本分类模型进行更新,得到最优参数模型。
8.根据权利要求7所述的一种建筑质量投诉文本分类的方法,其特征在于,步骤4包括如下子步骤:
步骤4.1、第k-1次参数更新时,得到xi、yr、Cl、Wir、Vrl的参数集Pk-1,使用验证集数据对第k-1次参数更新更新后的文本分类模型进行测试,得出第k-1次验证时的准确率为Ak-1;
步骤4.2、在第k-1次参数更新的基础上,使用第k次训练集数据对文本分类模型进行训练;
步骤4.3、经过步骤4.2模型训练后,得到参数集Pk,使用验证集在参数集Pk下进行测试,得出k次时的准确率Ak;
步骤4.4、比较第k-1和第k次的验证准确率,若Ak>Ak-1,则删除参数集Pk-1,保留Pk作为步骤1.1中的文本分类模型参数,返回步骤1.1继续第k+1次的参数更新;反之,若Ak<Ak-1,则删除参数集Pk,保留Pk-1作为步骤1.1中的文本分类模型参数,返回步骤1.1继续第k+1次的参数更新,直至得到最优参数集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810405432.9/1.html,转载请声明来源钻瓜专利网。





