[发明专利]语料库构建方法、装置、电子设备及介质在审
申请号: | 201910704739.3 | 申请日: | 2019-07-31 |
公开(公告)号: | CN110532547A | 公开(公告)日: | 2019-12-03 |
发明(设计)人: | 陈鑫;肖龙源;蔡振华;李稀敏;刘晓葳;王静 | 申请(专利权)人: | 厦门快商通科技股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 361000 福建省厦门市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词单元 同义词 语料 同义词典 单元组 数据集 构建 计算机可读介质 同义词替换 语料库构建 电子设备 分词处理 模型训练 有效文本 预先建立 语料库 替换 关联 申请 | ||
本申请提供一种语料库构建方法及装置、一种电子设备以及一种计算机可读介质。其中,所述方法包括:接收到目标语料后,对所述目标语料进行分词处理,得到多个词单元,按照预先建立的同义词典,获取每个词单元对应的同义词单元组,所述同义词单元组包括与该词单元对应的至少一个同义词单元,基于所述词单元对应的同义词单元对至少一个词单元进行替换,得到所述目标语料的同义语料,将所述同义语料与所述目标语料关联后,构建语料库。由于是基于预先构建的同义词典进行同义词替换生成同义语料,使得扩充后的数据集更有利于模型训练,因此,相较于现有技术,能够在一定程度上实现有效文本生成,扩充数据集。
技术领域
本申请涉及计算机技术领域,具体涉及一种语料库构建方法及装置、一种电子设备以及一种计算机可读介质。
背景技术
类不平衡是指在训练分类器中所使用的训练集的类别分布不均。比如说一个二分类问题,1000个训练样本,比较理想的情况是正类、负类样本的数量相差不多;而如果正类样本有995个、负类样本仅5个,就意味着存在类不平衡。数据集上的类不平衡可能导致训练出来的模型在验证集上的效果很差。
目前可以通过相关过采样算法解决上述问题,现有公开的过采样算法有合成少数类过采样算法(SMOTE,Synthetic Minority Oversampling Technique)、自适应合成过采样算法(ADASYN,Adaptive Synthetic SamplingApproach)等,在处理自然语言方面,字词是以向量的形式做的映射,如果通过上述算法生成数据,有很大可能性无法通过词向量表映射回原句子,虽然训练的指标很好,但是模型在实际使用中效果很差。
发明内容
本申请的目的是提供一种语料库构建方法及装置、一种电子设备以及一种计算机可读介质。
本申请第一方面提供一种语料库构建方法,包括:
接收到目标语料后,对所述目标语料进行分词处理,得到多个词单元;
按照预先建立的同义词典,获取每个词单元对应的同义词单元组,所述同义词单元组包括与该词单元对应的至少一个同义词单元;
基于所述词单元对应的同义词单元对至少一个词单元进行替换,得到所述目标语料的同义语料;
将所述同义语料与所述目标语料关联后,构建语料库。
在一些可能的实现方式中,所述接收到目标语料后,对所述目标语料进行分词处理,得到多个词单元,包括:
接收到所述目标语料后,确定所述目标语料对应的行业类型;
结合所述行业类型对应的分词词典对所述目标语料进行分词处理,得到多个词单元。
在一些可能的实现方式中,按照以下方式构建所述同义词典:
构建样本语料库,所述样本语料库包括多个不同行业类型的样本语料;
按照与所述样本语料的行业类型对应的分词词典,对该种行业类型的样本语料进行分词处理,得到该种行业类型的多个词单元;
将每种行业类型的词单元分别输入预先建立的词向量模型,得到该种行业类型的每个词单元对应的词向量;
基于所述词向量计算每两个词单元之间的相似度,选择该种行业类型中相似度大于设定值的同义词单组,构成该行业类型对应的同义词典。
在一些可能的实现方式中,所述基于所述词单元对应的同义词单元对至少一个词单元进行替换,得到所述目标语料的同义语料,包括:
在每个词单元对应的同义词单元中选择词频最高的同义词单元;
针对每个词单元,通过该词单元对应的词频最高的同义词单元替换该词单元,得到所述目标语料的同义语料。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门快商通科技股份有限公司,未经厦门快商通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910704739.3/2.html,转载请声明来源钻瓜专利网。