[发明专利]一种数据处理方法、装置和电子设备在审
申请号: | 201911244080.4 | 申请日: | 2019-12-06 |
公开(公告)号: | CN112926343A | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 许静芳;翟飞飞;戴磊;杨正彪;戴加明;李质轩;王坤;武静;王青龙 | 申请(专利权)人: | 搜狗(杭州)智能科技有限公司;北京搜狗科技发展有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 郑傲日 |
地址: | 310016 浙江省杭州市经济技*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 电子设备 | ||
本发明实施例提供了一种数据处理方法、装置和电子设备,其中,所述方法包括:获取源语言文本;依据文字要素信息对所述源语言文本中各文字进行编码,得到所述源语言文本对应的编码信息;采用机器翻译模型依据所述源语言文本对应的编码信息,将所述源语言文本翻译为目标语言文本;相对于现有技术直接对源语言文本中文字进行编码而言,本发明实施例能够对源语言文本进行更细粒度的编码,从而能够提高机器翻译模型翻译的质量。
技术领域
本发明涉及数据处理技术领域,特别是涉及一种数据处理方法、装置和电子设备。
背景技术
人工智能包括十分广泛的科学,由不同的领域组成,如机器学习,计算机视觉等等。总的说来,人工智能研究的一个主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作;自人工智能诞生以来,理论和技术日益成熟,应用领域也不断扩大。如机器翻译领域,例如将汉语翻译成英语、将英语翻译成汉语等等。
机器翻译的过程中,通常直接将汉语中的文字进行编码,然后基于编码的结果进行翻译。但相对于与英语等欧洲语言而言,汉语的字词数目更多且语义更丰富,使得汉语与其他语言存在语义上的不均衡,对于一些训练稀疏的文字,无法准确的翻译。
发明内容
本发明实施例提供一种数据处理方法,以提高机器翻译的质量。
相应的,本发明实施例还提供了一种数据处理装置和一种电子设备,用以保证上述方法的实现及应用。
为了解决上述问题,本发明实施例公开了一种数据处理方法,具体包括:获取源语言文本;依据文字要素信息对所述源语言文本中各文字进行编码,得到所述源语言文本对应的编码信息;采用机器翻译模型依据所述源语言文本对应的编码信息,将所述源语言文本翻译为目标语言文本。
可选地,所述依据文字要素信息对所述源语言文本中各文字进行编码,得到所述源语言文本对应的编码信息,包括:依据文字的字形对所述源语言文本中各文字进行编码,得到各文字对应的编码信息;将各文字对应的编码信息进行拼接,生成所述源语言文本对应的编码信息。
可选地,所述依据文字的字形对所述源语言文本中各文字进行编码,得到各文字对应的编码信息,包括:针对所述源语言文本中每个文字执行如下操作:以偏旁为最小单位对所述文字进行拆分;分别对所述文字包含的各偏旁进行编码,得到各偏旁对应的字形编码信息;依据所述文字包含的各偏旁的字形编码信息,生成所述文字的编码信息。
可选地,所述依据文字的字形对所述源语言文本中各文字进行编码,得到各文字对应的编码信息,还包括:在所述以偏旁为最小单位对所述文字进行拆分之后,依据所述文字的字形结构确定所述文字包含的各偏旁的空间信息;对所述文字包含的各偏旁的空间信息进行编码,得到各偏旁对应的空间编码信息;所述依据所述文字包含的各偏旁的字形编码信息,生成所述文字的编码信息,包括:采用所述文字包含的各偏旁的字形编码信息和对应的空间编码信息,组成所述文字的编码信息。
可选地,所述采用所述文字包含的各偏旁的字形编码信息和对应的空间编码信息,组成所述文字的编码信息,包括:采用所述文字包含的各偏旁的字形编码信息和对应的空间编码信息,组成各偏旁对应的编码信息;按照所述文字中各偏旁的顺序,拼接各偏旁的编码信息得到所述文字的编码信息。
可选地,所述的方法还包括训练所述机器翻译模型的步骤:获取训练语料,所述训练语料包括:源语言训练文本和对应的目标语言训练文本;按照文本要素信息对所述源语言训练文本中各文字进行编码,得到所述源语言训练文本对应的编码信息;依据所述源语言训练文本对应的编码信息和目标语言训练文本,对所述机器翻译模型进行训练。
本发明实施例还公开了一种数据处理装置,具体包括:获取模块,用于获取源语言文本;编码模块,用于依据文字要素信息对所述源语言文本中各文字进行编码,得到所述源语言文本对应的编码信息;翻译模块,用于采用机器翻译模型依据所述源语言文本对应的编码信息,将所述源语言文本翻译为目标语言文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于搜狗(杭州)智能科技有限公司;北京搜狗科技发展有限公司,未经搜狗(杭州)智能科技有限公司;北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911244080.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据库中的数据生成方法及装置
- 下一篇:一种双连接面支撑腿