[发明专利]命名实体语料标注训练系统有效
申请号: | 201910455086.X | 申请日: | 2019-05-29 |
公开(公告)号: | CN110287481B | 公开(公告)日: | 2022-06-14 |
发明(设计)人: | 代翔;崔莹;黄细凤;杨露;丁洪丽;张志;朱宇涛;谭礼晋 | 申请(专利权)人: | 西南电子技术研究所(中国电子科技集团公司第十研究所) |
主分类号: | G06F40/295 | 分类号: | G06F40/295 |
代理公司: | 成飞(集团)公司专利中心 51121 | 代理人: | 郭纯武 |
地址: | 610036 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 命名 实体 语料 标注 训练 系统 | ||
1.一种命名实体语料标注训练系统,包括:命名实体语料标注准备模块、半自动化语料命名实体标注模块、反馈式命名实体标注算法模型学习训练模块和命名实体标注模型效果评估模块,其特征在于:命名实体语料标注准备模块针对不同命名实体语料,对命名实体语料来源选择,对不同来源的数据进行区分,在标注过程中提供可选择适用的标注算法;半自动化语料命名实体标注模块针对不同标注使用需求及语料特点,自主选择适配算法并开展自动标注,通过集成条件随机场CRF、长短时记忆网络LSTM+CRF、隐马尔科夫模型HMM、支持向量机SVM、基于图排序的命名实体提取算法中至少一个命名实体抽取算法,对待标注文本语料数据进行单一命名实体的预标注处理或多命名实体融合的预标注处理,提供统一的命名实体模型接入标准完成语料命名实体标注工作;当标注任务完成后,反馈式模型学习训练模块针对内部已集成的命名实体标注算法模型和外部深度增强标注算法模型,提供算法模型的学习训练,在命名实体模型训练处理流程中,读取已标注好的熟语料,选择关键算法训练,针对不可训练算法,无训练过程并结束,使用已标注语料数据对条件随机场CRF、长短时记忆网络LSTM+CRF、隐马尔科夫模型HMM、支持向量机SVM、基于图排序的命名实体提取可训练算法进行离线训练,调用统一训练模型接口Train,生成命名实体模型序列文件Kryo,使模型准确度达到最佳;生成命名实体模型序列文件Kryo后,反馈式模型学习训练模块判断是否保存命名实体模型,否,结束,是则按统一模型接入接口导入外部算法模型,对外部算法模型进行更新或导出,保存命名实体模型文件,包括算法名称、模型名称、序列化模型的命名实体算法模型文件,并更新命名实体训练模型表;反馈式模型学习训练模块使用训练好的模型对平台中用于命名实体标注的模型进行更新,完成新的命名实体标注任务,并在命名实体模型更新中,启动命名实体服务,选择命名实体算法,对于基于规则或字典的不可训练算法,则结束;根据选择的件随机场CRF、长短时记忆网络LSTM+CRF、隐马尔科夫模型HMM、支持向量机SVM可训练算法,判断是否更新命名实体模型,否,结束;反馈式模型学习训练模块根据解析配置文件中是否更新命名实体模型的开关来判断是否更新命名实体标注模型,否则,结束,是则根据命名实体模型名称和命名实体训练模型表,读取指定命名实体模型文件,反序列化命名实体模型文件,加载模型,结束程序;反馈式模型学习训练模块针对内外部标注模型算法,提供模型学习训练、使用标注语料对命名实体模型进行重新训练,反馈模型完善更新,通过模型更新与语料标注之间的不断迭代,自动反馈调整完成新的命名实体标注任务;命名实体标注模型效果评估模块根据评估指标构建标注、构建规则,自动构建标注算法,建立标注算法综合评估模型,对模型指标量化标注效果进行评估,根据评估结果为半自动化命名实体语料标注模块推荐默认最适算法模型。
2.如权利要求1所述的命名实体语料标注训练系统,其特征在于:半自动化语料命名实体标注模块针对不同标注使用需求及语料特点,自主选择适配算法并开展自动标注,通过人工判证环节实现标注结果的干预判证。
3.如权利要求2所述的命名实体语料标注训练系统,其特征在于:半自动化语料命名实体标注模块根据不同来源语料创建命名实体标注任务,针对每一类标注任务选择效果适配的算法模型,在命名实体标注任务中选择条件随机场CRF、长短时记忆网络LSTM+CRF、隐马尔科夫模型HMM、支持向量机SVM、基于图排序的命名实体提取命名实体抽取算法,完成自动标注,
4.如权利要求3所述的命名实体语料标注训练系统,其特征在于:半自动化语料命名实体标注模块根据语料自动标注效果进行配置;针对特殊标注任务创建业务标注规则,并对标注业务规则进行管理,这里标注业务规则主要包括业务字典和正则表达式,采用标注业务规则对语料进行自动标注。
5.如权利要求3所述的命名实体语料标注训练系统,其特征在于:半自动化语料命名实体标注模块对基于算法模型的自动标注结果和基于业务规则的自动标注结果进行融合处理,在自动标注融合处理结果基础上,依据标注业务标准,人工对标注结果进行修改、确认和保存。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南电子技术研究所(中国电子科技集团公司第十研究所),未经西南电子技术研究所(中国电子科技集团公司第十研究所)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910455086.X/1.html,转载请声明来源钻瓜专利网。