[发明专利]一种智能分级标注方法在审

专利信息
申请号: 202110073101.1 申请日: 2021-01-20
公开(公告)号: CN112685999A 公开(公告)日: 2021-04-20
发明(设计)人: 赵志航;张睿智;尹旭;翟盛龙;朱亚静 申请(专利权)人: 浪潮云信息技术股份公司
主分类号: G06F40/117 分类号: G06F40/117;G06F16/35;G06K9/62
代理公司: 济南信达专利事务所有限公司 37100 代理人: 姜鹏
地址: 250100 山东省济南市高*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 智能 分级 标注 方法
【说明书】:

发明涉及人工智能文本分类技术领域,具体提供了一种智能分级标注方法,包括模型训练阶段和模型预测阶段,在所述模型训练阶段先训练一级标签标注模型,然后训练每个所述的一级标签对应的二级标签;在模型预测阶段,数据依次输入各个一级标签标注模型,满足对应模型的阈值条件时,打上所述一级标签,并将数据依次输入所述标签对应的二级标签,满足所述二级标签的阈值条件时,打上所述二级标签。与现有技术相比,本发明能够根据自定义的标签分类体系,实现对结构化数据字段进行分级多标签智能标注的功能,并且可以根据需要增加标签类别、设置分类阈值和抽样个数,实现智能分级标注。

技术领域

本发明涉及人工智能文本分类技术领域,具体提供一种智能分级标注方法。

背景技术

随着人工智能技术的发展,作为自然语言处理领域最经典的使用场景之一,文本分类问题从基于传统机器学习的方法,发展到基于深度学习的方法。前者的主要内容包括人工特征工程和浅层分类模型,文本分类问题被拆分成特征工程和分类器两部分。这个时期主要专注于数据本身的分布,如何从文本的分布中设计更多的特征模型是这个时期的主流。

随着计算能力的提升,神经网络的计算不再受限,深度学习快速发展,不断涌现出新的算法模型。深度学习时代,神经网络能够自动从数据中挖掘特征,人们从复杂的特征工程中解脱出来,得以更专注于算法模型本身的创新及理论的突破。如何得以解决结构化数据字段的自动分类问题,是本领域技术人员亟待解决的问题。

发明内容

本发明是针对上述现有技术的不足,提供一种实用性强的智能分级标注方法。

本发明解决其技术问题所采用的技术方案是:

一种智能分级标注方法,包括模型训练阶段和模型预测阶段,在所述模型训练阶段先训练一级标签标注模型,然后训练每个所述的一级标签对应的二级标签;

在模型预测阶段,数据依次输入各个一级标签标注模型,满足对应模型的阈值条件时,打上所述一级标签,并将数据依次输入所述标签对应的二级标签,满足所述二级标签的阈值条件时,打上所述二级标签。

进一步的,在每个一级标签和二级标签构造训练集、验证集和测试集时,以本标签数据为正样本,本标签之外数据为负样本,正负样本数量比例为1:1。

进一步的,在单个字的粒度上以一元组、二元组和三元组为特征,构建词表和哈希映射表,将每条样本映射为对应的数字序列,作为fastText模型的输入,以标签为目标值训练模型,分别得到每个一级标签和二级标签的二分类模型。

进一步的,在模型预测阶段,对字段数据进行采样,将采样数据输入一级分类模型,满足模型阈值条件时打上标签,然后,数据依次输入一级标签对应的各个二级分类标签模型,满足对应标签阈值条件时,打上标签。

进一步的,在模型训练阶段中,一级标签分类数据集准备,以本标签数据为正样本,打标签为1,本标签之外的数据为负样本,打标签为0,正负例样本数量比例为1:1;

根据样本构建字表,得到单个字粒度上的uni-gram映射表,bi-gram和tri-gram分别做哈希映射,得到bi-gram和tri-gram的映射表;

将每条样本在字粒度上处理成uni-gram索引序列、bi-gram索引序列、tri-gram索引序列、标签,设置每条样本索引序列长度seq_len为32,长度大于32的只保留前32位,长度小于32的进行补齐;

将数据集按照8:1:1的比例划分为训练集、验证集和测试集;

所述二级标签分类数据集采用与一级标签分类数据集相同的方法进行处理。

作为优选,在模型训练阶段中使用的优化器为Adam优化器和kaiming初始化方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮云信息技术股份公司,未经浪潮云信息技术股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110073101.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top