[发明专利]一种农业语料库的构建方法及装置有效

申请号：	202110463202.X	申请日：	2021-04-23
公开（公告）号：	CN113220827B	公开（公告）日：	2023-03-28
发明（设计）人：	姜京池;王玲;王勃然;刘劼;黄鹤翔;宋锦文	申请（专利权）人：	哈尔滨工业大学
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/35;G06F40/216;G06F40/289;G06N20/00;G06Q50/02;G06Q50/20;G06F16/951
代理公司：	北京隆源天恒知识产权代理有限公司 11473	代理人：	鞠永帅
地址：	150000 黑龙***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种农业语料库构建方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种农业语料库的构建方法及装置，该方法包括：基于农业语料库的标注体系确定标注工具；基于随机选择的农业样本数据进行第一标注培训，得到机器学习模型；基于主动学习选择的农业样本数据进行第二标注培训，得到训练更新的机器学习模型，并得到更新的标注工具；基于主动学习选择的农业样本数据进行正式标注，得到标注数据；基于农业样本数据及其标注数据构建农业语料库。本发明通过主动学习和标注一致性分析，提升了数据标注的成效，并获得大量规范有效的农业标注数据，解决了当前农业语料库数据混乱的问题。同时，以较少的样本集使机器学习模型训练达到较佳效果，减少了数据标注的消耗，并提升了农业语料库构建的成效。

技术领域

本发明涉及数据处理技术领域，具体涉及一种农业语料库的构建方法及装置。

背景技术

传统的农业知识库大多由领域专家人工编撰，虽然质量较高，但存在规模小、覆盖率低、多冗余、更新迟滞等问题。随着大数据时代的到来，运用文本分析方法从海量的半结构化、非结构化网络数据中自动挖掘农业信息，成为了构建和维护农业领域知识服务平台的切实可行方案。然而，散落在网络数据中的农业知识类型、表现形态各异，需要从海量数据中筛选及分类，从而构建农业知识图谱。但目前还没有成熟的农业知识图谱构建方式。

发明内容

为解决现有技术的问题，本发明提出了一种农业语料库的构建方法及装置。

本发明第一方面提供了一种农业语料库的构建方法，其包括：

基于农业语料库的标注体系确定标注工具；

基于随机选择的农业样本数据进行第一标注培训，得到经过初始训练的机器学习模型；所述机器学习模型用于主动学习选择所述农业样本数据；

基于主动学习选择的所述农业样本数据进行第二标注培训，得到经过训练更新的所述机器学习模型，并得到更新的所述标注体系和所述标注工具用于正式标注；

基于主动学习选择的所述农业样本数据进行所述正式标注，得到所述农业样本数据的标注数据；

基于所述农业样本数据和所述农业样本数据的标注数据构建所述农业语料库。

进一步地，

所述第一标注培训和所述第二标注培训均包括：

选择农业样本数据；其中，所述第一标注培训采用随机方式选择；所述第二标注培训采用基于主动学习的所述机器学习模型选择；

采用所述标注工具对每个样本各标注两次以得到两组所述标注数据；