[发明专利]文本标注方法、装置、设备及介质有效
| 申请号: | 202110975379.8 | 申请日: | 2021-08-24 |
| 公开(公告)号: | CN113673232B | 公开(公告)日: | 2023-10-13 |
| 发明(设计)人: | 甘丽婷;徐介夫 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
| 主分类号: | G06F40/268 | 分类号: | G06F40/268;G06F40/289;G06F40/247 |
| 代理公司: | 上海汉之律师事务所 31378 | 代理人: | 冯华 |
| 地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 标注 方法 装置 设备 介质 | ||
1.一种文本标注方法,其特征在于,所述方法包括:
获取历史修正信息,所述历史修正信息包括历史修正词和历史修正标注信息,所述历史修正信息包括历史辅助标注结果的修改信息,所述历史辅助标注结果通过预设初始辅助标注模型对历史待标注文本进行标注得到;
获取所述历史修正词的历史相关词,并根据所述历史修正词、历史相关词和历史修正标注信息生成历史修正信息集,所述历史相关词与历史修正词的词义相近或相同;
获取当前辅助标注结果,并根据所述历史修正信息集对所述当前辅助标注结果进行第一次修正,得到当前修正标注结果,所述当前辅助标注结果通过将当前待标注文本输入到所述预设初始辅助标注模型中得到;
显示所述当前修正标注结果,获取当前修正信息,并对所述当前修正标注结果进行第二次修正,完成所述当前待标注文本的标注。
2.如权利要求1所述的文本标注方法,其特征在于,所述当前修正标注结果包括当前标注词和当前标注信息,所述当前修正信息的获取方式包括:
根据所述当前标注信息将所述当前修正标注结果分配给对应的修改执行对象;
获取各所述修改执行对象的对象修正信息,生成当前修正信息。
3.如权利要求2所述的文本标注方法,其特征在于,根据所述标注类别将所述当前修正标注结果分配给对应的修改执行对象之后,所述获取各所述修改执行对象的对象修正信息之前,所述方法还包括:
若至少两个所述修改执行对象同时对所述当前修正标注结果进行第二次修正,显示各所述当前标注词的当前标注状态,所述当前修正状态包括已标注、未标注、修改执行对象信息中至少之一。
4.如权利要求1-3任一项所述的文本标注方法,其特征在于,所述当前修正信息包括当前修正词和当前修正标注信息,所述方法还包括:
获取所述当前修正词的当前相关词,并根据所述当前修正词、当前相关词和当前修正标注信息生成当前修正信息集,所述当前相关词的标注信息与所述当前修正标注信息相同,所述当前相关词与当前修正词的词义相近或相同;
根据所述历史修正信息集和当前修正信息集生成修正训练集;
根据所述修正训练集对所述预设初始辅助标注模型进行训练。
5.如权利要求1-3任一项所述的文本标注方法,其特征在于,所述获取当前修正信息之前,所述方法还包括:
获取所述历史修正信息中各所述历史修正标注信息所对应的历史修正词的数量占比;
若所述数量占比高于预设占比阈值,将所述历史修正标注信息作为高风险标注信息,并进行提示。
6.如权利要求4所述的文本标注方法,其特征在于,所述方法还包括:
将第二待标注文本输入到训练后的所述预设初始辅助标注模型,得到训练辅助标注结果,所述训练辅助标注结果包括标注词和训练标注信息;
将所述训练辅助标注结果与第二次修正后的所述当前修正标注结果进行比对,获取差异信息,所述第二次修正后的所述当前修正标注结果包括标注词和第二修正标注信息,所述差异词为所述第二修正标注信息和训练标注信息不同的所述标注词,所述差异信息包括差异词和所述差异词的第二修正标注信息;
获取第三方对所差异词的质检标注信息;
根据所述质检标注信息和第二修正标注信息确定所述修改执行对象的标注合格率。
7.如权利要求6所述的文本标注方法,其特征在于,若所述质检标注信息和第二修正标注信息不同,所述方法还包括以下至少之一:
根据所述质检标注信息对所述第二次修正后的所述当前修正标注结果进行第三次修正;
将所述当前修正信息、质检标注信息和差异词增加到所述历史修正信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110975379.8/1.html,转载请声明来源钻瓜专利网。





