[发明专利]半自动化分词语料标注训练装置有效
申请号: | 201910455093.X | 申请日: | 2019-05-29 |
公开(公告)号: | CN110287482B | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 代翔;崔莹;黄细凤;孙涛;李强 | 申请(专利权)人: | 西南电子技术研究所(中国电子科技集团公司第十研究所) |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/211;G06K9/62 |
代理公司: | 成飞(集团)公司专利中心 51121 | 代理人: | 郭纯武 |
地址: | 610036 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明一种半自动化分词语料标注训练装置,旨在解决分词语料标注及训练过程中使用语料存在的弊端。本发明通过下述技术方案予以实现:文本语料标注准备模块对待标注语料、分词语料的管理,通过基于集成词典的双向最大匹配分词、CRF、JIEBA、等多种分词算法,将生语料分词标注工作提交给半自动化语料分词标注模块,创建分词标注任务,选择标注适用算法模型,开展自动标注,在自动标注结果融合的基础上,将文本语料标注准备模块产生的训练模型语料和标注模型反馈至反馈式模型学习训练模块,选择和模型学习训练,调用统一训练模型接口生成核心词典,更新分词训练模型表,建立标注算法综合评估模型对模型标注效果进行评估,完成新的分词标注任务。 | ||
搜索关键词: | 半自动 化分 词语 标注 训练 装置 | ||
【主权项】:
1.一种半自动化分词语料标注训练装置,包括:文本语料标注准备模块、半自动化语料分词标注模块、反馈式模型学习训练模块和分词标注模型效果评估模块,其特征在于:文本语料标注准备模块为标注任务提供准备,通过对不同来源的数据进行区分和语料来源选择,按来源或主题对待标注语料数据进行单一分词的预标注处理,实现对待标注语料、分词语料的管理,然后通过基于集成词典的双向最大匹配分词、条件随机场CRF、结巴JIEBA中文分词、双向LSTM网络、BI‑LSTM多种分词算法,将生语料分词标注工作提交给半自动化语料分词标注模块;半自动化语料分词标注模块针对不同标注使用需求及语料特点,创建分词标注任务,选择标注适用算法模型,按标注业务规则管理开展自动标注,从集成词典的双向最大匹配分词、CRF、JIEBA、BI‑LSTM多种分词算法中所选择的一种分词算法模型和业务规则,完成每一类标注任务的自动标注,基于算法模型的自动标注结果和业务规则的自动标注结果进行标注结果融合;在自动标注结果融合的基础上,依据标注业务标准进行人工干预判证,保存标注结果,将文本语料标注准备模块产生的训练模型语料和标注模型反馈至反馈式模型学习训练模块,根据已有模型和外部深度增强模型进行加载模型参数设置、模型语料选择和模型学习训练,将模型完善更新后再返回模型参数设置;调用统一训练模型接口Train生成核心词典和N‑gram核心词典后,按统一模型接入接口导入外部算法模型,对模型进行更新或导出,保存包含核心词典和N‑gram词典文件的分词模型文件,并更新分词训练模型表,建立标注算法综合评估模型,对模型标注效果进行评估,通过模型更新与语料标注之间的不断迭代,使用训练好的模型对平台中用于分词标注的模型进行更新,完成新的分词标注任务。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南电子技术研究所(中国电子科技集团公司第十研究所),未经西南电子技术研究所(中国电子科技集团公司第十研究所)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910455093.X/,转载请声明来源钻瓜专利网。