[发明专利]航空文本数据标注方法及其标注系统在审
申请号: | 202211706705.6 | 申请日: | 2022-12-29 |
公开(公告)号: | CN116244445A | 公开(公告)日: | 2023-06-09 |
发明(设计)人: | 刘俊;武铎;贺薇;董洪飞;陶剑;何柳;孙郁文;高龙;王孝天;高魁 | 申请(专利权)人: | 中国航空综合技术研究所 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F40/295;G06F40/247;G06F18/2415;G06N3/0442;G06N3/0455;G06N3/047;G06N3/084;G06N3/091 |
代理公司: | 北京孚睿湾知识产权代理事务所(普通合伙) 11474 | 代理人: | 韩燕 |
地址: | 100028 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 航空 文本 数据 标注 方法 及其 系统 | ||
本发明涉及一种航空文本数据标注方法及其标注系统,包括以下步骤,步骤1基于实体核心EODA的文本增强算法对原始航空文本数据的样本进行扩充,将原始航空文本数据的样本和扩充之后的样本一起组成未标注数据;步骤2基于主动学习模型的样本筛选,从未标注数据中筛选出目标样本;步骤3建立基于信息抽取的航空文本标注模型,实现任意航空文本数据标注。本发明通过基于实体核心EODA的数据增强算法对样本数目进行扩充,通过实体识别;在主动学习模型中,结合不确定性样本查询策略和版本空间缩减样本查询策略,建立基于字词级别的最低置信度的样本查询策略。在主动学习的框架下,经实验验证标注效率提高。通过算法与模型有效融合提升标注系统的智能化水平。
技术领域
本申请涉及航空文本信息抽取领域,具体地涉及一种航空文本数据标注方法及其标注系统。
背景技术
在自然语言处理任务中,信息抽取技术愈发成熟,其在数据检索、知识图谱、问答系统等真实场景中均发挥了巨大作用。然而,信息抽取的性能极大程度地依赖于标注数据质量和数据规模,开源的数据难以满足特定场景需求,实现高效、高质量、自动化的航空文本标注系统,是信息抽取领域一个重要的研究方向。
目前,航空文本标注方法主要依靠从业人员对原始数据进行手工标注,并依托一定的标注工具或系统提高标注的规范与效率,国内外现有的标注系统主要可分为两大类,一类是完全依赖于人工进行标注的,另一类在标注系统中融合基于半监督的主动学习算法,能够半自动地对数据进行标注,相较于前者具有更高标注效率。针对航空领域标注数据少、数据标注难的问题,基于信息抽取技术来实现标注功能。
发明内容
为了克服现有技术的不足,本发明通过基于实体核心EODA(Entity-OrientedDataAugmentation)的数据增强算法完成样本数目扩充,通过实体识别,关系抽取任务上的多个模型进行实验对比,在数据增强工作上带来的效果增益较好;通过基于字词级别最低置信度的查询策略,关系抽取部分使用了最大熵、最低置信度、边界采样策略。在两类主动学习的框架下,经实验验证,标注效率明显提高。通过算法与技术的有效融合,提升了标注系统的智能化水平。
为实现上述目的,本发明所采用的解决方案为:一种航空文本数据标注方法,其包括以下步骤:
步骤1:基于实体核心EODA的文本增强算法对原始航空文本数据的样本进行扩充,得到扩充之后的样本,将原始航空文本数据的样本和扩充之后的样本一起组成未标注数据;具体为:
使用实体识别模型对原始航空文本数据的样本中的非实体词和实体词进行区分,然后对非实体词和实体词分别进行增强;其中,实体识别模型为使用概率图模型作为命名实体识别模型,在基于实体数据集中的航空文本内容X的前提下,实体类别Y的条件概率分布表示为P(Y|X);在无向图G=(V,E)中,一个随机变量Yv遵从马尔科夫性,则将条件概率分布P(Y|X)称之为条件随机场,如下所示:
P(Yv|X,Yw,w≠v)=P(Yv|X,Yw,w~v);
式中:P表示条件概率分布;X表示实体数据集中的航空文本内容;Yv和Ye分别表示顶点v和w对应的随机变量;w~v表示在无向图G中v和w顶点之间有边相连;w≠v表示w为v以外的所有顶点;
设定实体数据集中的航空文本内容X和实体类别Y二者具有相同图结构,通过线性链条件随机场实现实体识别任务,长度为n的观测序列(X1,X2,...,Xn),其状态序列的条件概率如下所示:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国航空综合技术研究所,未经中国航空综合技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211706705.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电镀金镀液及其应用
- 下一篇:一种用于核电厂消防水系统的防腐系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置