[发明专利]文本标注方法、装置、设备及介质有效

专利信息
申请号: 202110975379.8 申请日: 2021-08-24
公开(公告)号: CN113673232B 公开(公告)日: 2023-10-13
发明(设计)人: 甘丽婷;徐介夫 申请(专利权)人: 平安科技(深圳)有限公司
主分类号: G06F40/268 分类号: G06F40/268;G06F40/289;G06F40/247
代理公司: 上海汉之律师事务所 31378 代理人: 冯华
地址: 518000 广东省深圳市福田区福*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 标注 方法 装置 设备 介质
【说明书】:

发明涉及人工智能技术领域,提出一种文本标注方法、装置、设备及介质,该方法通过根据历史修正词、历史相关词和历史修正标注信息生成历史修正信息集,获取当前辅助标注结果,并根据历史修正信息集对当前辅助标注结果进行第一次修正,得到并显示当前修正标注结果,获取当前修正信息,并对当前修正标注结果进行第二次修正,完成当前待标注文本的标注。本发明还提出一种文本标注装置、设备及介质,在数据标注员进行人工标注之前通过机器预标注,并将机器预标注的当前修正标注结果与当前待标注文本一并显示,数据标注员仅需要在当前已有标注的基础上进行修改补充,提升了标注效率,降低了标注成本,减少标注工作量,减少重复工作,提升用户体验度。

技术领域

本发明涉及人工智能技术领域,提供一种文本标注方法、装置、设备及介质。

背景技术

NLP(Natural Language Processing,自然语言处理)是人工智能(ArtificialIntelligence,AI)的一个子领域。自然语言是人类智慧的结晶,自然语言处理是人工智能中最为困难的问题之一。NPL在标注中的处理流程中需要收集语料,并对语料进行处理,例如“词性标注”,作为数据标注员,需要借助各种文本标注工具实现文本标注。

相关技术中,人工标注往往是由数据标注员对文本逐句阅读,对需要标注的词语依次进行打标,标注过程处理效率较低,标注成本高。

发明内容

本发明提供一种文本标注方法、装置、设备及介质,其主要目的在于预先通过预设初始辅助标注模型进行初步标注(预标注),再根据历史修正信息集进行第一次修正,得到当前修正标注结果并显示,此时可以获取数据标注员的指令所生成的当前修正信息对当前修正标注结果进行第二次修正,以完成当前待标注文本的标注,这样可以为数据标注员提供初步的标注建议,能够有效的减轻数据标注员的标注工作量,提升标注工作效率,降低成本。

为实现上述目的,本发明提供一种文本标注方法,该方法包括:

获取历史修正信息,所述历史修正信息包括历史修正词和历史修正标注信息,所述历史修正信息包括历史辅助标注结果的修改信息,所述历史辅助标注结果通过预设初始辅助标注模型对历史待标注文本进行标注得到;

获取所述历史修正词的历史相关词,并根据所述历史修正词、历史相关词和历史修正标注信息生成历史修正信息集,所述历史相关词与历史修正词的词义相近或相同;

获取当前辅助标注结果,并根据所述历史修正信息集对所述当前辅助标注结果进行第一次修正,得到当前修正标注结果,所述当前辅助标注结果通过将当前待标注文本输入到所述预设初始辅助标注模型中得到;

显示所述当前修正标注结果,获取当前修正信息,并对所述当前修正标注结果进行第二次修正,完成所述当前待标注文本的标注。

可选的,所述当前修正标注结果包括当前标注词和当前标注信息,所述当前修正信息的获取方式包括:

根据所述当前标注信息将所述当前修正标注结果分配给对应的修改执行对象;

获取各所述修改执行对象的对象修正信息,生成当前修正信息。

可选的,根据所述标注类别将所述当前修正标注结果分配给对应的修改执行对象之后,所述获取各所述修改执行对象的对象修正信息之前,所述方法还包括:

若至少两个所述修改执行对象同时对所述当前修正标注结果进行第二次修正,显示各所述当前标注词的当前标注状态,所述当前修正状态包括已标注、未标注、修改执行对象信息中至少之一。

可选的,所述当前修正信息包括当前修正词和当前修正标注信息,所述方法还包括:

获取所述当前修正词的当前相关词,并根据所述当前修正词、当前相关词和当前修正标注信息生成当前修正信息集,所述当前相关词的标注信息与所述当前修正标注信息相同,所述当前相关词与当前修正词的词义相近或相同;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110975379.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top