[发明专利]语料库构建方法、装置、电子设备及存储介质在审
| 申请号: | 202210507363.9 | 申请日: | 2022-05-10 |
| 公开(公告)号: | CN115033687A | 公开(公告)日: | 2022-09-09 |
| 发明(设计)人: | 汪雪松;李康熙;唐俊峰 | 申请(专利权)人: | 科大讯飞股份有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/247 |
| 代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 程琛 |
| 地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语料库 构建 方法 装置 电子设备 存储 介质 | ||
本发明提供一种语料库构建方法、装置、电子设备及存储介质,其中方法包括:确定目标学科;基于所述目标学科与各候选学科在学科层级结构中的交汇情况,和/或,名词分别在所述目标学科与各候选学科中的含义的相似情况,从各候选学科中选取与所述目标学科相关的关联学科;基于所述目标学科的语料和所述关联学科的语料,构建语料库。本发明提供的方法、装置、电子设备及存储介质,从学科分类层面和/或共用名词含义层面入手,选取与目标学科相关的关联学科,确保了关联学科选取的客观性和准确性,由此构建覆盖目标学科及其关联学科语料的语料库,其全面性能够满足机器翻译等语料库后续应用的需求。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种语料库构建方法、装置、电子设备及存储介质。
背景技术
在机器学习的训练优化过程中,大规模的语料库是不可或缺的源数据之一。此处,语料库指经合理取样的电子文本库,其中存放的是在实际使用中真实出现过的语言材料。
目前,针对任意学科的语料库的构建,通常可以划分为两种方式,一种是仅收集该学科的电子文本,另一种是既收集该学科的电子文本,也收集与该学科相关学科的电子文本。
考虑到学科之间经常出现交叉引用的情况,仅收集一种学科的电子文本,必然导致由此构建的语料库中的内容欠缺;而在收集与该种学科相关学科的电子文本时,由于多是人为划定相关学科,相关学科的选择并不客观,因此难以保证由此构建的语料库是情感中性的,也就无法满足机器学习的训练要求。
发明内容
本发明提供一种语料库构建方法、装置、电子设备及存储介质,用以解决现有技术中语料库构建客观性差、准确性低的缺陷。
本发明提供一种语料库构建方法,包括:
确定目标学科;
基于所述目标学科与各候选学科在学科层级结构中的交汇情况,和/或,名词分别在所述目标学科与各候选学科中的含义的相似情况,从各候选学科中选取与所述目标学科相关的关联学科;
基于所述目标学科的语料和所述关联学科的语料,构建语料库。
根据本发明提供的一种语料库构建方法,所述目标学科与各候选学科在学科层级结构中的交汇情况基于如下步骤确定:
基于所述学科层级结构,确定所述目标学科与各候选学科的交汇层级;
基于所述目标学科与各候选学科的交汇层级,确定所述目标学科与各候选学科在学科层级结构中的交汇情况。
根据本发明提供的一种语料库构建方法,所述基于所述目标学科与各候选学科的交汇层级,确定所述目标学科与各候选学科在学科层级结构中的交汇情况,包括:
基于所述目标学科与各候选学科的交汇层级对应的层级权重,确定所述目标学科与各候选学科在学科层级结构中的交汇情况;
所述层级权重基于各层级在所述学科层级结构中包含的学科数量确定。
根据本发明提供的一种语料库构建方法,所述名词分别在所述目标学科与各候选学科中的含义的相似情况基于如下步骤确定:
基于所述目标学科的名词集合与各候选学科的名词集合,确定所述目标学科分别与各候选学科的共用名词;
基于所述共用名词分别在所述目标学科与各候选学科中的含义分布,确定所述名词分别在所述目标学科与各候选学科中的含义的相似情况。
根据本发明提供的一种语料库构建方法,所述基于所述共用名词分别在所述目标学科与各候选学科中的含义分布,确定所述名词分别在所述目标学科与各候选学科中的含义的相似情况,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210507363.9/2.html,转载请声明来源钻瓜专利网。





