[发明专利]训练数据生成及模型训练方法、装置及计算机存储介质在审
申请号: | 202211064781.1 | 申请日: | 2022-09-01 |
公开(公告)号: | CN115470331A | 公开(公告)日: | 2022-12-13 |
发明(设计)人: | 周元辅;晏超 | 申请(专利权)人: | 芜湖云从科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06K9/62 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 李兴迪 |
地址: | 241002 安徽省芜湖市弋*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练 数据 生成 模型 方法 装置 计算机 存储 介质 | ||
本申请提供一种训练数据生成及模型训练方法、装置及存储介质,主要包括根据随机确定的粒度级别,确定目标文本的构造位置,根据随机确定的片段长度、目标文本的构造位置、确定目标文本的构造片段,根据随机确定的构造规则、目标文本的构造位置和构造片段,重构目标文本,生成目标文本的构造文本,并根据目标文本和构造文本,获得目标文本的训练数据。借此,本申请可灵活且批量地生成非平滑文本训练数据,以供执行文本处理模型的文本平滑预测训练,从而降低模型训练成本并提高模型预测性能。
技术领域
本申请实施例涉及模型训练技术领域,特别涉及一种训练数据生成及模型训练方法、装置及计算机存储介质。
背景技术
自动语音识别(ASR)是利用计算机将连续语音转写为文字的技术。随着深度学习技术的不断发展,目前ASR识别准确率有了很大提升,在商业领域取得了很大的成功。但是在实际使用场景中,受限于说话人的表述质量,即使ASR系统的识别量较高,识别结果的文本也往往存在不平滑的现象,对于后续的用户阅读感受仍然不够友好。此外,不平滑的语音识别结果也会影响后续的自然语言处理流程的分析效果。
目前文本平滑处理的常见算法主要包括两种,其一是规则匹配的方式,其二是使用大量的标注数据进行深度神经网络的训练。然而,上述两种算法在实际应用中都存在很大的限制。
对于规则匹配的方式,需要大量的专家知识来总结规则或者模式,然而,由于实际应用场景中,文本不平滑的现象非常灵活多变,导致规则匹配为主的算法,难以很好地适应灵活多变的实际应用场景。
对于使用大量标注数据训练深度神经网络的方式,在算法效果上虽然更胜一筹,但是可以支持实际使用的大量标注数据难以获取。首先,中文的不平滑通用开源数据几乎没有。其次,对于不同领域需要的领域语料,更是只能全部依赖于人工标注。最后,不平滑语料的标注难度也比较大,再加上很多系统方案需要同时使用句法等其他标注信息,因此大规模的人工标注难以实现。
有鉴于此,需要一种训练数据生成方案,以解决现有文本平滑处理模型的训练数据难以获得的技术问题。
发明内容
鉴于上述问题,本申请提供一种训练数据生成及模型训练方案,可批量且灵活地生成不同类型的非平滑文本训练数据,以降低模型训练成本并提高模型训练效果。
根据本申请实施例的第一方面,提供一种训练数据生成方法,包括:根据随机确定的粒度级别,确定目标文本的构造位置;根据随机确定的片段长度、所述目标文本的构造位置、确定所述目标文本的构造片段;根据随机确定的构造规则、所述目标文本的构造位置和构造片段,重构所述目标文本,生成所述目标文本的构造文本;根据所述目标文本和所述构造文本,获得所述目标文本的训练数据。
根据本申请实施例的第二方面,提供一种模型训练方法,包括:利用文本处理模型,对训练数据中的构造文本执行文本平滑处理,获得所述构造文本的预测文本;根据所述训练数据中的目标文本、所述预测文本,获取所述文本处理模型的损失函数;根据所述损失函数更新所述文本处理模型,直至所述损失函数满足训练结束条件,以获得训练好的文本处理模型;其中,所述训练数据是由上述第一方面所述的训练数据生成方法所生成的。
根据本申请实施例的第三方面,提供一种训练数据生成装置,包括:构造位置确定模块,用于根据随机确定的粒度级别,确定目标文本的构造位置;构造片段确定模块,用于根据随机确定的片段长度、所述目标文本的构造位置、确定所述目标文本的构造片段;文本重构模块,根据随机确定的构造规则、所述目标文本的构造位置和构造片段,重构所述目标文本,生成所述目标文本的构造文本;数据生成模块,用于根据所述目标文本和所述构造文本,获得所述目标文本的训练数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于芜湖云从科技有限公司,未经芜湖云从科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211064781.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置