[发明专利]语言模型训练及自然语言任务处理方法、装置及相关设备在审
申请号: | 202210819636.3 | 申请日: | 2022-07-13 |
公开(公告)号: | CN115186675A | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 许光辉;杜倩云;梅林海 | 申请(专利权)人: | 科大讯飞华南人工智能研究院(广州)有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/126 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王雨 |
地址: | 511458 广东省广州市南沙区丰泽*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语言 模型 训练 自然语言 任务 处理 方法 装置 相关 设备 | ||
本申请公开了一种语言模型训练及自然语言任务处理方法、装置及相关设备,区别于传统的以掩码字符对应的编码特征来预测目标字符的方式,本案改为利用掩码字符所在训练文本末尾处的第二占位符对应的编码特征来预测目标字符,从而将训练文本中局部信息编码进第二占位符中,使得第二占位符对应的编码特征能够表示训练文本中局部的语义。同时,本申请也可以通过第一占位符提取到训练文本整体的语义,使得提取到的最终特征同时包含了全局和局部语义特征,特征更加丰富、准确。应用于下游任务时,能够更好的区分相似语义的文本。
技术领域
本申请涉及自然语言处理技术领域,更具体的说,是涉及一种语言模型训练及自然语言任务处理方法、装置及相关设备。
背景技术
自然语言处理是人工智能领域的重要研究方向,其核心目的是教机器“读懂”人类日常使用的自然语言,如输入两句话,让机器判断这两句话是否语义相关,等。传统深度学习采用监督学习的训练方式,依赖大量精确标注数据,然而精确标注数据在实际应用中数据量较少,且存在标注规范不统一、标注时间长、标注精度差等问题。因此,无监督语言模型开始兴起,其先利用大量无标注语料学习通用的语义理解能力,再利用少量精标注数据进行微调,使得深度学习模型在众多任务上都表现出与人类相当甚至超越人类的性能。
目前使用最多的语言模型以Transformer为例,其在输入文本的开头添加[CLS]占位符,并其基于自注意力机制建模上下文语义信息,通过预训练可以使得[CLS]占位符编码了输入文本的全局信息,基于此,后续利用[CLS]占位符对应的编码信息,来进行下游任务的处理,如做分类任务等。但是,本案发明人研究发现,这种训练方式虽然能够通过[CLS]占位符编码输入文本的全局信息,但是并未考虑输入文本局部的差异对上下文语义的影响,导致模型对相似文本无法很好的进行区分,示例如对于两条文本“高温低压”和“高压低温”,这两条文本的语义是完全相反的,但是按照现有语言模型训练方式,其认为两条文本整体上包含的字符都有且形式上十分相似,进而输出的该两条文本的全局编码特征比较接近,在经过下游的比对模型处理后,给出两条文本语义相似的结果,可知,该结果明显是错误的。
发明内容
鉴于上述问题,提出了本申请以便提供一种语言模型训练及自然语言任务处理方法、装置及相关设备,以解决现有语言模型仅能够提取输入文本的全局特征而忽略了局部特征,导致提取的特征不够准确,进而影响下游任务处理结果的问题。
第一方面,提供了一种语言模型训练方法,包括:
对训练文本进行占位符添加及随机字符掩码处理,得到编辑后训练文本,所述训练文本中随机选取的目标字符在所述编辑后训练文本中用设定掩码字符替代,且所述编辑后训练文本中在首条训练文本的起始字符前添加有第一占位符,在每条训练文本的末尾添加有第二占位符;
确定所述编辑后训练文本中包括第一、第二占位符及掩码字符在内的,每个字符的编码特征;
利用语言模型处理各字符的编码特征,得到与所述第一占位符对应的全局语义特征,以及与所述第二占位符对应的局部语义特征;所述全局语义特征用于表示所述训练文本整体的语义,所述局部语义特征用于表示所述训练文本中局部的语义;
基于所述掩码字符所在训练文本的末尾处的第二占位符对应的局部语义特征,预测所述掩码字符对应的目标字符,直至达到设定训练结束条件,得到训练后的语言模型。
第二方面,提供了一种自然语言任务处理方法,包括:
获取待处理的任务文本;
利用上述训练得到的语言模型处理所述任务文本,得到所述语言模型输出的第一占位符对应的全局语义特征和第二占位符对应的局部语义特征;
将所述全局语义特征及局部语义特征进行融合,得到融合语义特征;
利用预配置的任务处理模块,基于所述融合语义特征进行指定任务处理,得到任务处理结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞华南人工智能研究院(广州)有限公司,未经科大讯飞华南人工智能研究院(广州)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210819636.3/2.html,转载请声明来源钻瓜专利网。