[发明专利]基于规则匹配和深度学习的用户质检需求分类方法及系统有效

专利信息
申请号: 202110689564.0 申请日: 2021-06-22
公开(公告)号: CN113254596B 公开(公告)日: 2021-10-08
发明(设计)人: 滕召胜;龚冬成;杨智君;唐求;刘涛;吴娟;林海军;朱坤志;何民军;杨唐胜;欧阳博;成达 申请(专利权)人: 湖南大学
主分类号: G06F16/33 分类号: G06F16/33;G06F16/35;G06F40/216;G06F40/242;G06F40/289;G06F40/30;G06N3/04;G06K9/62;G06N3/08
代理公司: 湖南兆弘专利事务所(普通合伙) 43008 代理人: 谭武艺
地址: 410082 湖*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 规则 匹配 深度 学习 用户 质检 需求 分类 方法 系统
【说明书】:

发明公开了一种基于规则匹配和深度学习的用户质检需求分类方法及系统,本发明方法包括对待分类文本与各个行业的专有名词词典进行匹配,并计算与各个行业对应的行业标签之间匹配的行业概率值Pi,选择最大行业概率值P;若最大行业概率值P大于等于预设阈值G,则将最大行业概率值P对应的行业标签作为分类结果输出;否则,对待分类文本利用深度学习模型预测行业标签并计算预测的行业概率值H;针对最大行业概率值P、预测的行业概率值H两者,选择其中概率较大者所对应的行业标签作为最终的分类结果输出。本发明能够针对用户质检需求文本实现质检需求文本按所属行业自动、准确的分类。

技术领域

本发明涉及检验检测服务领域以及机器学习领域,具体涉及一种基于规则匹配和深度学习的用户质检需求分类方法及系统。

背景技术

国内第三方检验检测网站内有各行业检验检测机构入驻,提供产品的质量检验检测服务,用户可通过主动联系或发布质检需求信息的方式联系机构。面对大量专业的检测服务,用户倾向于在网站内发布产品检测需求信息,让符合检测条件的机构联系。为实现用户需求与检测服务的准确匹配,将质检需求按行业分类是关键步骤。目前质检需求信息的分类主要由用户手动分类完成,效率较低且常出现误分类的情况。用户质检需求信息由检测待检测样品名称、检测内容、检测地点等组成,各行业发布的质检需求数量不均衡,且用户发布的文本信息较短、口语化、特征稀疏,为实现用户质检需求按行业自动分类需设计合适的分类模型,以提高质检需求文本分类的效率和准确率。为此,可利用自然语言处理和深度学习方法自动学习质检需求文本与行业标签间的联系,将训练好的分类模型应用于质检需求的分类,以此实现用户质检需求按行业自动、高效分类。

目前,现有用户质检需求分类方法包括:(1)目前质检需求文本的行业分类主要依靠用户手动分类为主,用户需要从众多的行业类别中选择特定的标签,分类效率低且受限于用户的知识储备,常出现误分类情况,影响检验检测服务的质量。(2)基于机器学习方法做质检需求文本分类,如支持向量机、K近邻、朴素贝叶斯等算法适用于小规模数据集,存在对文本的特征提取繁琐、模型泛化性能弱等不足;(3)基于卷积神经网络的文本分类方法,通过设置输入层、卷积层、池化层和输出层的参数预测文本类别,训练速度快,但无法获取文本的语序和语义信息,分类效果一般;(4)基于长短期记忆网络的文本分类方法,考虑了文本的上下文信息,分类性能较好,但在小规模数据集的分类效果一般;(5)fasttext:是一种快速的文本分类算法,但未充分考虑质检需求文本短小、专业词汇较多的特点,需要考虑文本特点设计合适的分类模型。

与新闻、用户评论等其它中文文本相比,用户发布的质检需求文本具有以下特点:(1)专业词汇较多,如“蛋白质/射频天线/氙灯/镇流器等”,这些词汇出现频率较低,但对分类结果影响较大,常用的文本分类方法未充分考虑这些文本特征,分类效果一般。(2)分类的行业类别数量达20多个,且各行业内的数据量不均衡。常见的深度学习模型在大规模数据集得到充分的学习训练,针对各行业的质检需求的数据量不均衡(多则几千条,少的百余条),利用深度学习模型的分类效果较差。(3)文本特征稀疏,质检需求由不同用户发布,在描述方面比较口语化,文本特征稀疏,质检需求的文本长度一般在15~150个字符间,一般由“待检测样品名称”、“检测内容”、“检测地点要求”字段组成,不同字段的分类能力不同,一般的文本分类方法未考虑这一点。

综上所述,基于用户经验的质检需求分类,预先设定多个行业类别,如:食品、农产品、环境、医药、电子电器、生物等20多个行业类别,用户根据自身知识储备进行分类,对于行业属性较模糊的产品易造成误分类。基于机器学习的文本分类方法,该类方法对文本特征提取的质量依赖性较强,且提取过程较繁琐,模型的泛化能力较弱。用户的质检需求量大且多样,需要一个高效、泛化性能较好的分类模型。基于深度学习的文本分类方法可自动学习文本与标签之间的联系,模型的泛化性能较好。常见的深度学习模型直接用于质检需求文本分类效果一般,质检需求文本与新闻、用户评论等文本数据相比,具有特征稀疏、文本短小和数据分布不均衡的特点,需要充分考虑质检需求文本特点,设计合适的分类方法。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110689564.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top