[发明专利]语法纠错的方法和用于语法纠错模型的训练方法及产品在审
| 申请号: | 202110015475.8 | 申请日: | 2021-01-05 |
| 公开(公告)号: | CN112765968A | 公开(公告)日: | 2021-05-07 |
| 发明(设计)人: | 付凯;黄瑾;段亦涛 | 申请(专利权)人: | 网易有道信息技术(北京)有限公司 |
| 主分类号: | G06F40/253 | 分类号: | G06F40/253;G06F40/211 |
| 代理公司: | 北京维昊知识产权代理事务所(普通合伙) 11804 | 代理人: | 陈姗姗;王颖慧 |
| 地址: | 100094 北京市海淀区西北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语法 纠错 方法 用于 模型 训练 产品 | ||
本发明的实施方式提供了一种用机器实现语法纠错的方法及装置和用于语法纠错模型的训练方法及训练设备。该用机器实现语法纠错的方法包括:将输入的第一语种的文本编码成中间表示;将所述中间表示解码成第二语种的文本;以及基于所述中间表示和所述第二语种的文本,生成经语法修正的第一语种的修正文本。根据本发明的用机器实现语法纠错的方法不仅能够忽略可能存在的小语法错误,还能够通过结合中间表示来避免回译过程中的信息丢失,从而能够显著的提高语法纠错的准确性,为用户带来了更好的体验。
技术领域
本发明的实施方式涉及数据处理技术领域,更具体地,本发明的实施方式涉及用机器实现语法纠错的方法及装置和用于语法纠错模型的训练方法及训练设备。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述可包括可以探究的概念,但不一定是之前已经想到或者已经探究的概念。因此,除非在此指出,否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术,并且并不因为包括在本部分中就承认是现有技术。
随着计算机技术的不断发展,传统的基于规则的语言纠错技术已经逐渐被基于深度学习的语言纠错技术所超越。语言纠错通常是对语句中不符合语法规则的字或词等进行纠正。然而,目前缺少专门用于语言纠错的网络模型,而是常使用翻译模型来代替,并通过将翻译模型训练成可以将同一语种的语法错误的句子翻译成语法正确的句子来实现纠错。由于语言纠错领域的真实语料较少,因此需要使用大量的伪语料对翻译模型进行训练。伪语料是对单语语料以一定规则生成语法错误的句子的文本对。伪语料的生成质量和数量会对训练后的翻译模型的纠错准确率产生影响,并且伪语料的语种范围也影响着翻译模型进行语法纠错的语种适用范围。
发明内容
由于伪语料的生成规则非常复杂,特别是对于一些不常见的语种,生成一定数量的好的伪语料的难度更大,因此现有技术中基于翻译模型的语法纠错的纠错准确性以及适用语种范围都不能达到令人满意的效果,这是非常令人烦恼的过程。
为此,非常需要一种改进的语法纠错方法和用于语法纠错模型的训练方法,以提高语法纠错的准确度以及减少对伪语料的依赖程度。
在本上下文中,本发明的实施方式期望提供一种用机器实现语法纠错的方法及装置和用于语法纠错模型的训练方法及训练设备。
在本发明实施方式的第一方面中,提供了一种用机器实现语法纠错的方法,包括:将输入的第一语种的文本编码成中间表示;将所述中间表示解码成第二语种的文本;以及基于所述中间表示和所述第二语种的文本,生成经语法修正的第一语种的修正文本。
在本发明的一个实施例中,基于中间表示和第二语种的文本生成修正文本包括:针对所述第二语种的文本对应词向量构成的张量,结合输入的第一语种的文本编码生成的中间表示,逐字或者逐词生成所述第一语种的修正文本。
在本发明的另一个实施例中,基于中间表示和第二语种的文本生成修正文本包括:针对所述第二语种的文本对应的隐状态向量组,结合输入的第一语种的文本编码生成的中间表示,逐字或者逐词生成所述第一语种的修正文本。
在本发明的又一个实施例中,所述第一语种的文本包括第一语种的语法错误文本。
在本发明实施方式的第二方面中,提供了一种用机器实现语法纠错的装置,包括:第一编码器,其配置用于将输入的第一语种的文本编码成中间表示;第一解码器,其与所述第一编码器连接,并配置用于将所述中间表示解码成第二语种的文本;以及第二解码器,其与所述第一编码器和所述第一解码器连接,并配置用于基于所述中间表示和所述第二语种的文本,生成经语法修正的第一语种的修正文本。
在本发明的一个实施例中,所述第二解码器还配置为:针对所述第二语种的文本对应词向量构成的张量,结合输入的第一语种的文本编码生成的中间表示,逐字或者逐词生成所述第一语种的修正文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易有道信息技术(北京)有限公司,未经网易有道信息技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110015475.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种图像畸变校正处理方法
- 下一篇:一种癌症病理图像自动检测方法及系统





