[发明专利]一种专业领域智能化众包标注方法和系统有效
申请号: | 202210913101.2 | 申请日: | 2022-08-01 |
公开(公告)号: | CN114969315B | 公开(公告)日: | 2022-11-01 |
发明(设计)人: | 赵彦博;徐盛 | 申请(专利权)人: | 翼方健数(北京)信息科技有限公司;翼健(上海)信息科技有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34 |
代理公司: | 北京沃杰永益知识产权代理事务所(普通合伙) 11905 | 代理人: | 杨杰 |
地址: | 100000 北京市海淀区阜成路73号A*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 专业 领域 智能化 标注 方法 系统 | ||
本申请提供了一种专业领域智能化众包标注方法和系统。本申请通过目标数据建立标注页面的交互界面,根据专业领域匹配匹配规则对目标数据进行标注,并根据标注验收信息调整标注数据再发至项目发起端,标注数据可用于进行下游服务或研究,也可用于训练自然语言预标注模型为后续同类型标注项目提供预标注依据。本申请的专业领域智能化众包标注方法支持涵盖图像、文字等全维度的数据格式,针对专业领域数据标注任务进行客制化和性能优化,增强专利领域数据标注的专业关联度和准确性。
技术领域
本申请属于数据标注技术领域,更具体的,涉及一种专业领域智能化众包标注方法和系统。
背景技术
随着大数据时代来临、人工智能兴起,众多单位作为数据持有者或者数据应用中的一环,往往需要一个数据标注平台和大量人力资源为其提供数据标注服务,尤其是针对一些科研型机构更是需要专业领域的人才和团队提供更专业的高质量标注数据。
然而,目前市场上应用的数据标注平台,其文本标注方式主要为通识的中文语法标注,未对专业领域做任何的优化,导致普遍存在标注质量低、标注数据专业性不强的缺点,无法提供专业化的工具和流程去保证高质量专业化的标注,不能满足这些专业机构的标注需求。
发明内容
有鉴于此,本申请提供了一种专业领域智能化众包标注方法和系统,解决现有技术中针对专业领域的数据标注方法专业关联程度弱、准确性差的技术问题。
本申请的具体技术方案如下:
本申请提供一种专业领域智能化众包标注方法,包括如下步骤:
接收项目发起端的目标数据,根据目标数据创建标注标签生成标注项目,根据标注项目信息建立页面的交互界面;
获取目标数据的专业领域,根据专业领域的信息匹配规则对目标数据进行标注,将完成的标注结果发至项目发起端;
接收来自项目发起端的验收反馈,若通过验收则发送标注数据至项目发起端,若未通过验收则将反馈错误信息至标注人员,标注人员重新生成标注数据再发至项目发起端。
进一步的,根据目标数据创建标注标签生成标注项目具体为:
获取目标数据的领域设置参数,生成目标数据的相关领域标签;
获取来自项目发起端的领域标签设置,根据相关领域标签与领域标签设置的匹配度生成专业领域标签;
生成包含专业领域标签、标注文本和批注列表的标注项目版块。
进一步的,根据标注项目信息建立标注页面的交互界面具体为:
当专业领域标签处于激活状态时,对选中的标注文本进行提取生成标注文本内容并对标注文本内容进行预设的标记颜色展示;
当识别到鼠标悬停在标注文本内容上时展示专业领域标签名称;
当标注题目被选中时,在接收到专业领域标签的关闭信号后取消相应的标注文本内容的标记颜色。
进一步的,根据标注项目信息建立标注页面的交互界面具体为:
当开启批量标注设置时,采集标注文本内容数据中的关键字段,根据关键字段在目标数据中搜索所有相同的字段信息并同时设置为标注文本内容。
进一步的,还包括:
采集标注文本内容中的数据类型,根据数据类型获取相关领域标注模型;
根据标注文本内容中的关键字段信息和阈值设定信息获取历史标注数据对相关领域标注模型进行学习训练并以此为模型对目标数据进行预标注。
进一步的,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于翼方健数(北京)信息科技有限公司;翼健(上海)信息科技有限公司,未经翼方健数(北京)信息科技有限公司;翼健(上海)信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210913101.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:具有信道自适应性的雷达通信一体化调制信号产生方法
- 下一篇:一种热成型模