[发明专利]基于弱监督技术主动学习的智能标注方法、装置及平台在审

专利信息
申请号: 201911127625.3 申请日: 2019-11-18
公开(公告)号: CN110968695A 公开(公告)日: 2020-04-07
发明(设计)人: 罗彤;孙静静;陈国旗;王希治 申请(专利权)人: 罗彤;北京融汇金信信息技术有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06K9/62;G06N20/00
代理公司: 北京路浩知识产权代理有限公司 11002 代理人: 苗晓静
地址: 100036 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 监督 技术 主动 学习 智能 标注 方法 装置 平台
【说明书】:

发明实施例公开了一种基于弱监督技术主动学习的智能标注方法、装置及平台,方法包括:获取待标注数据的标注方式,并根据所述标注方式对所述待标注数据进行数据标注,得到标注数据;选择机器学习模型和对应的模型参数配置,根据所述模型参数配置和所述标注数据对所述机器学习模型进行训练;若判断训练结果满足验证条件,则完成所述机器学习模型的训练;通过特定的标注方式对待标注数据进行数据标注,并根据选择的模型参数配置和标注数据对选择的机器学习模型进行训练,用户无需手工逐条标注数据,可通过弱监督方式生成大量标注数据,同时主动学习使用户尽可能用最小量标注的代价,达到优秀的模型效果。

技术领域

本发明涉及计算机技术领域,具体涉及一种基于弱监督技术主动学习的智能标注方法、装置及平台。

背景技术

随着数据量的急剧增多,AI技术发展迅速,而机器学习是AI发展到一定阶段的必然产物。机器学习是通过计算的手段,从大量数据中挖掘有价值的潜在信息。在机器学习领域,往往通过将经验数据提供给机器学习算法来训练机器学习模型以确定构成机器学习模型的理想参数,而训练好的机器学习模型可被应用于在面对新的预测数据时提供相应的预测结果。

近年来,由于数据爆炸式增长以及计算力的提升,深度学习技术已经成为当前人工智能领域的一个研究热点,其已在图像识别、语音识别、自然语言处理等领域展现出了巨大的优势,并且仍在继续发展变化。

虽然深度学习使得诸多领域取得突破性进展,但是仍然存在一些局限。目前,依赖大规模标注数据的有监督的深度学习仍然占据主导地位。一方面,大规模标注数据的获取受到人工成本与时间成本的限制:真实世界存在着海量未标注数据,将这些数据逐一添加人工标签,显然是不现实的。另一方面,很多机器学习任务需要相关专业人士参与才能完成,单纯业务人员无法独立完成机器学习任务。

虽然机器学习模型的应用越来越广泛,但是由于机器学习模型的实现比较复杂,需要开发人员根据概率统计、机器算法等进行编码,然后,对编写的代码进行反复训练,才能得到机器学习模型。

发明内容

由于现有方法存在上述问题,本发明实施例提出一种基于弱监督技术主动学习的智能标注方法、装置及平台。

第一方面,本发明实施例提出一种基于弱监督技术主动学习的智能标注方法,包括:

获取待标注数据的标注方式,并根据所述标注方式对所述待标注数据进行数据标注,得到标注数据;

选择机器学习模型和对应的模型参数配置,根据所述模型参数配置和所述标注数据对所述机器学习模型进行训练;

若判断训练结果满足验证条件,则完成所述机器学习模型的训练;

其中,所述标注方法包括以下至少一种:标签分类方式、粗细粒度的情感识别方式、序列识别方式、结构化信息方式和序列生成方式;

所述序列识别方式包括以下至少一种:实体识别方式、分词识别方式和词性识别方式;

所述结构化信息方式包括以下至少一种:关系识别方式、句法分析方式、语义分析方式、事件抽取方式和多轮对话方式,所述多轮对话方式是具有上下文的结构化信息方式;

所述序列生成方式包括以下至少一种:机器翻译方式、文本摘要方式和文本生成方式。

可选地,所述获取待标注数据的标注方式,并根据所述标注方式对所述待标注数据进行数据标注,得到标注数据,具体包括:

若根据所述标注方式无法对所述待标注数据进行数据标注,则生成待标注提示信息,接收输入设备输入的标注信息,并根据所述标注信息得到标注数据。

可选地,所述根据所述标注方式对所述待标注数据进行数据标注,具体包括:

根据所述标注方式进入语料集逐条对所述待标注数据进行数据标注;或,

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于罗彤;北京融汇金信信息技术有限公司,未经罗彤;北京融汇金信信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911127625.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top