[发明专利]数据项分类方法、装置、电子设备及存储介质在审
申请号: | 202110762220.8 | 申请日: | 2021-07-06 |
公开(公告)号: | CN115577051A | 公开(公告)日: | 2023-01-06 |
发明(设计)人: | 郑方园 | 申请(专利权)人: | 京东科技控股股份有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/2457 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 李永叶;孙剑锋 |
地址: | 100176 北京市北京经济*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据项 分类 方法 装置 电子设备 存储 介质 | ||
本发明提供了一种数据项分类方法、装置、电子设备及可读存储介质。该方法包括:对输入数据进行分词得到若干个数据项;将数据项输入主题分类模型,对每个数据项打上相应的主题分类标签,输出主题分类预测结果,并将隶属同一主题分类下的数据项划分为该主题分类下的数据集;将每个主题分类下的数据集输入一级分类模型,对每个数据项打上相应的一级分类标签,输出一级分类预测结果,并将隶属同一一级分类下的数据项划分为该一级分类下的数据集;将每个一级分类下的数据集输入二级分类模型,对每个数据项打上相应的二级分类标签,输出二级分类预测结果,并将隶属同一二级分类下的数据项划分为该二级分类下的数据集。
技术领域
本申请涉及计算机技术领域,具体地涉及一种数据项分类方法、装置、电子设备及存储介质。
背景技术
在实现本发明过程中,发明人发现数据治理领域中至少存在如下问题:数据治理是由专家人员根据自身的行业经验完成,不同专家人员的行业经验不同,因而数据治理呈现出较强的主观性,没有相对标准的过程步骤,近乎千人千法。在没有专家人员介入的情况下,无行业经验可供参考,因而需要通过逐一梳理来进行数据分类,工作成本高。即便有专家介入,在专家人员完成其阶段性任务后,专家的主观经验可复用性弱,后续新数据项治理工作由其他人员完成时所需的学习成本较高,导致可持续性差。
因此,在当前数据治理的数据标准的建设中,以上这种通过专家人员的行业经验处理的数据项分类方法是无法统一的,缺乏数据治理标准的一致性,且速度慢,时效性差,处理方法因人而异,容易出现人为的错误。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请的实施例提供了一种数据项分类方法,还提供了一种数据项分类装置、电子设备及可读存储介质。
第一方面,本申请的实施例提供了一种数据项分类方法,上述数据项分类方法包括:
对输入数据进行分词得到若干个数据项;
将上述数据项输入主题分类模型,对每个数据项打上相应的主题分类标签,输出主题分类预测结果,并将隶属同一主题分类下的数据项划分为该主题分类下的数据集;
将每个主题分类下的数据集输入一级分类模型,对每个数据项打上相应的一级分类标签,输出一级分类预测结果,并将隶属同一一级分类下的数据项划分为该一级分类下的数据集;
将每个一级分类下的数据集输入二级分类模型,对每个数据项打上相应的二级分类标签,输出二级分类预测结果,并将隶属同一二级分类下的数据项划分为该二级分类下的数据集。
根据本申请的实施例,上述数据项分类方法还包括:
在将隶属同一分类下的数据项划分为该分类下的数据集之前,将分类预测结果发送至客户端进行展示;
响应于客户端发送的修改指令,对上述分类预测结果进行修改;其中,上述分类为主题分类、一级分类或二级分类。
根据本申请的实施例,上述数据项分类方法还包括,上述主题分类模型、一级分类模型和二级分类模型中的至少一个模型通过以下步骤建立:
对文本数据进行分词得到数据项,获取与上述数据项对应的分类标签,形成样本数据;
以样本数据中的数据项作为输入,输入初始机器学习模型,输出初始分类结果,以所述数据项对应的分类标签作为训练标签进行训练得到相应的分类模型。
根据本申请的实施例,基于TF-IDF算法对文本数据进行分词得到数据项,将数据项和与数据项对应的分类标签作为样本数据。
根据本申请的实施例,采用SOFTMAX算法对初始机器学习模型进行训练得到相应的分类模型。
根据本申请的实施例,上述数据项分类方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东科技控股股份有限公司,未经京东科技控股股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110762220.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:安全消防互联网监控指挥系统
- 下一篇:载具行程能耗计算方法、装置及存储介质