[发明专利]自然语言处理方法、装置及计算机设备在审
申请号: | 202210044925.0 | 申请日: | 2022-01-14 |
公开(公告)号: | CN114528919A | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 侯盼盼;黄明星;王福钋;张航飞;徐华韫;曹富康;沈鹏 | 申请(专利权)人: | 北京健康之家科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/289;G06F40/295;G06F40/30 |
代理公司: | 北京中强智尚知识产权代理有限公司 11448 | 代理人: | 刘敏 |
地址: | 100102 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自然语言 处理 方法 装置 计算机 设备 | ||
1.一种自然语言处理方法,其特征在于,包括:
根据预设训练任务对通用领域下的BERT模型进行增量预训练,得到自然语言处理模型,其中,所述预设训练任务包括字词级别的第一训练任务和任务级别的第二训练任务;
获取待进行自然语言处理的文本数据,并对所述文本数据进行预处理,其中,所述预处理包括数据清洗处理、停用词滤除处理中的至少一种;
将预处理后的所述文本数据输入所述自然语言处理模型中,获取自然语言处理结果。
2.根据权利要求1所述的方法,其特征在于,所述根据预设训练任务对通用领域下的BERT模型进行增量预训练,得到自然语言处理模型,包括:
获取所述第一训练任务对应的第一样本语料,以及所述第二训练任务对应的第二样本语料;
根据第一训练任务以及所述第一样本语料对所述BERT模型进行字词级别的第一预训练;
根据第二训练任务以及所述第二样本语料对所述BERT模型进行任务级别的第二预训练;
在判断所述BERT模型完成所述第一预训练和所述第二预训练后,将所述BERT模型确定为自然语言处理模型。
3.根据权利要求2所述的方法,其特征在于,所述第一训练任务包括全词Mask任务、语句顺序预测任务,所述根据第一训练任务以及所述第一样本语料对所述BERT模型进行字词级别的第一预训练,包括:
对所述第一样本语料进行分词处理,得到包含各个字符的文本序列,在所述文本序列中抽取与预设词典共现的字符或由至少两个字符构成的词语对所述BERT模型进行全词Mask预训练;以及,
按照预设字符标识对所述第一样本语料进行语句划分,得到包含各个语句的语句序列,利用所述语句序列中连续的两个语句构建所述语句顺序预测任务的正例样本语句对,将所述连续的两个语句进行顺序交换后构建所述语句顺序预测任务的负例样本语句对,利用所述正例样本语句对和所述负例样本语句对对所述BERT模型进行语句顺序预测预训练。
4.根据权利要求3所述的方法,其特征在于,在所述文本序列中抽取与预设词典共现的字符或由至少两个字符构成的词语对所述BERT模型进行全词Mask预训练之前,还包括:
基于TF-IDF算法从标准行业文件中提取所述预设训练任务对应的行业关键词;
根据各个所述行业关键词以及所述行业关键词在语料库中所属语种的语种内关联关系,获取各个所述行业关键词的关联词语,所述关联词语包括同义词、近义词、音似词和形似词中的至少一种;
基于所述行业关键词和所述关联词语构建预设词典。
5.根据权利要求3所述的方法,其特征在于,所述利用所述正例样本语句对和所述负例样本语句对对所述BERT模型进行语句顺序预测预训练,包括:
将所述正例样本语句对和所述负例样本语句对分别输入所述BERT模型,获取所述正例样本语句对中两个语句对应的第一语句向量和第二语句向量,以及所述负例样本语句对中两个语句对应的第三语句向量和第四语句向量;
计算所述第一语句向量和所述第二语句向量的第一向量特征距离,以及所述第三语句向量和所述第四语句向量的第二向量特征距离,根据所述第一向量特征距离和所述第二向量特征距离更新所述BERT模型的模型参数,以使所述第一向量特征距离小于第一预设阈值,且所述第二向量特征距离大于第二预设阈值,其中,所述第二预设阈值大于所述第一预设阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京健康之家科技有限公司,未经北京健康之家科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210044925.0/1.html,转载请声明来源钻瓜专利网。