[发明专利]数据处理方法、装置、设备及可读存储介质在审
申请号: | 202210058761.7 | 申请日: | 2022-01-18 |
公开(公告)号: | CN114417898A | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 李尔楠;熊明钧;孟凡东;周杰 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/279;G06N3/04;G06N3/08 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 杜维 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 设备 可读 存储 介质 | ||
本申请实施例公开了一种数据处理方法、装置、设备及可读存储介质,涉及人工智能领域,其中,方法包括:获取富样式的源文本数据,源文本数据为富样式文本数据;获取源文本数据中目标源词语的词语位置,基于词语位置在源文本数据中添加第一约束标签,目标源词语的样式为目标源样式;基于添加第一约束标签后的源文本数据和词语间的对应关系,得到添加了第二约束标签的目标文本数据,第二约束标签是在目标文本数据中目标词语的词语位置添加的;基于第一约束标签和第二约束标签将目标源样式映射为第二约束标签对应的目标词语的目标样式,以得到包含目标样式的目标文本数据。采用本申请实施例,可以使得文本翻译更完整,提高数据处理准确性。
技术领域
本申请涉及人工智能中的自然语言处理技术领域,尤其涉及一种数据处理方法、装置、设备及可读存储介质。
背景技术
文本翻译已经被广泛应用于各个领域中,并在一定程度上取得了很大的进展。然而对于富样式文本,即文本中的某些句子或者词语包含多种格式,例如包含不同的颜色、文字加粗、下划线等格式。在对这类富样式文本进行翻译时,目前只能实现对文本中的文字内容进行翻译,不能实现对文本中格式的完整保留,从而降低了文本翻译的完整性,导致数据处理准确性较低。
发明内容
本申请实施例提供一种数据处理方法、装置、设备及可读存储介质,可以使得文本翻译更完整,提高数据处理准确性。
第一方面,本申请提供一种数据处理方法,包括:
获取源文本数据,源文本数据为富样式文本数据;
获取源文本数据中目标源词语的词语位置,基于该目标源词语的词语位置在源文本数据中添加第一约束标签,该目标源词语的样式为目标源样式;
基于添加第一约束标签后的源文本数据和词语间的对应关系,得到添加了第二约束标签的目标文本数据,目标文本数据是对源文本数据进行翻译得到的,该第二约束标签是在该目标文本数据中目标词语的词语位置添加的,该目标词语为与该目标源词语对应的词语;
基于该第一约束标签和该第二约束标签将该目标源样式映射为该第二约束标签对应的目标词语的目标样式,以得到包含该目标样式的目标文本数据。
第二方面,本申请提供一种数据处理装置,包括:
文本获取模块,用于获取源文本数据,源文本数据为富样式文本数据;
第一添加模块,用于获取源文本数据中目标源词语的词语位置,基于该目标源词语的词语位置在源文本数据中添加第一约束标签,该目标源词语的样式为目标源样式;
第二添加模块,用于基于添加第一约束标签后的源文本数据和词语间的对应关系,得到添加了第二约束标签的目标文本数据,目标文本数据是对源文本数据进行翻译得到的,该第二约束标签是在该目标文本数据中目标词语的词语位置添加的,该目标词语为与该目标源词语对应的词语;
数据映射模块,用于基于该第一约束标签和该第二约束标签将该目标源样式映射为该目标词语的目标样式,以得到包含该目标样式的目标文本数据。
第三方面,本申请提供了一种计算机设备,包括:处理器、存储器、网络接口;
上述处理器与存储器、网络接口相连,其中,网络接口用于提供数据通信功能,上述存储器用于存储计算机程序,上述处理器用于调用上述计算机程序,以使包含该处理器的计算机设备执行上述数据处理方法。
第四方面,本申请提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,该计算机程序适于由处理器加载并执行,以使得具有该处理器的计算机设备执行上述数据处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210058761.7/2.html,转载请声明来源钻瓜专利网。