[发明专利]数据处理方法和装置、用于数据处理的装置有效
申请号: | 201711474512.1 | 申请日: | 2017-12-29 |
公开(公告)号: | CN109992790B | 公开(公告)日: | 2023-09-29 |
发明(设计)人: | 姜里羊;王宇光;阳家俊;施亮亮;卫林钰;陈伟 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 陈梅君 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 用于 | ||
本发明实施例提供了一种数据处理方法和装置、用于数据处理的装置,其中的方法具体包括:依据需要翻译的源语言文本,确定需要访问的目标数据;其中,所述目标数据为翻译记忆库的数据,所述翻译记忆库的数据被划分为多个数据单元;依据数据单元与数据之间的映射关系,确定所述目标数据对应的目标数据单元;加载所述目标数据单元,以通过加载后的所述目标数据单元实现对于所述目标数据的访问。本发明实施例可以降低对于内存空间的占用,进而可以提高设备的运行速度;以及可以提高数据单元的加载速度。
技术领域
本发明涉及翻译技术领域,特别是涉及一种数据处理方法和装置、以及一种用于数据处理的装置。
背景技术
翻译技术是指利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的技术。
现有的一种翻译方法,可以依据已有的互为翻译的平行语料得到翻译记忆库,并在机器翻译的过程中,通过对于上述翻译记忆库的搜索和匹配技术,将源语言文本翻译为上述翻译记忆库中记录的目标语言文本。
然而,在实际应用中,翻译记忆库的数据量通常很大,这样,在机器翻译的过程中,将翻译记忆库加载到设备的内存中,需要占用大量的内存空间;而设备的内存容量往往是有限的,对于移动设备而言这种情况尤其明显,内存空间的大量占用意味着执行多任务工作时运行速度会更缓慢,也即影响设备的运行速度。并且,将翻译记忆库加载到设备的内存中,需要花费较长的加载时间。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的数据处理方法、数据处理装置、用于数据处理的装置,本发明实施例可以降低对于内存空间的占用,进而可以提高设备的运行速度;以及可以提高数据单元的加载速度。
为了解决上述问题,本发明实施例公开了一种数据处理方法,包括:
依据需要翻译的源语言文本,确定需要访问的目标数据;其中,所述目标数据为翻译记忆库的数据,所述翻译记忆库的数据被划分为多个数据单元;
依据数据单元与数据之间的映射关系,确定所述目标数据对应的目标数据单元;
加载所述目标数据单元,以通过加载后的所述目标数据单元实现对于所述目标数据的访问。
可选地,通过映射函数表征所述数据单元与数据之间的映射关系;所述确定所述目标数据对应的目标数据单元,包括:
通过所述映射函数,将所述目标数据的关键字转换为所述目标数据所对应目标数据单元的信息。
可选地,所述目标数据单元的信息包括如下信息中任一项或多项:标识信息、存储地址信息。
可选地,一个所述数据单元对应的数据量在预设数据量范围内,和/或,所述数据单元的数量在预设数量范围内。
可选地,所述数据单元的类型包括如下信息中任一项或多项:文件类型、数据库类型。
可选地,所述翻译记忆库的数据包括:互为翻译的双语对;所述双语对包括:第一语言文本和第二语言文本。
可选地,所述方法应用于移动设备,所述多个数据单元被存储于所述移动设备的闪存,所述加载所述目标数据单元,包括:
从所述移动设备的闪存读取所述目标数据单元对应的数据,并将读取的数据存储于所述移动设备的运行内存。
另一方面,本发明实施例公开了一种数据处理方法,包括:
将翻译记忆库的数据划分为多个数据单元;其中,一个所述数据单元与其对应的数据之间具有映射关系;
对所述多个数据单元进行存储。
可选地,通过映射函数表征所述数据单元与数据之间的映射关系,所述将翻译记忆库的数据划分为多个数据单元,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711474512.1/2.html,转载请声明来源钻瓜专利网。