[发明专利]一种翻译记忆库模糊查询方法及系统在审
申请号: | 202310257043.7 | 申请日: | 2023-03-16 |
公开(公告)号: | CN116303674A | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 关祎宁 | 申请(专利权)人: | 沈阳创思佳业科技有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F40/49;G06F40/58;G06F40/166;G06F16/33 |
代理公司: | 北京东方盛凡知识产权代理有限公司 11562 | 代理人: | 程小芳 |
地址: | 110000 辽宁省沈阳市皇姑区昆山西*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 翻译 记忆 模糊 查询 方法 系统 | ||
本申请公开了一种翻译记忆库模糊查询方法和系统,包括:将输入文本中的每一个单词进行数字化表达,并进行数字对比;基于数字对比的结果,进行编辑距离计算,得出输入文本同当前翻译记忆库中的原文的编辑距离;当翻译记忆库中的全部原文都参与了编辑距离计算,并得到对应的编辑距离后,取编辑距离最小的一组翻译记忆库原文作为同输入文本相似度最高的模糊查询结果。本申请通过将输入文本的原文和翻译记忆库中的原文的单词内容进行数字化表达的处理方法,无论对于哪种匹配查询算法都将是适用的,因为相比较于传统的按字符串内容比较单词是否相等的做法,数字之间的比较更能降低对操作系统的消耗,提升计算处理性能。
技术领域
本申请属于机器翻译技术领域,具体涉及一种翻译记忆库模糊查询方法及系统。
背景技术
翻译记忆库是翻译领域中比较常用到的翻译辅助软件,它的模糊查询算法可以将记忆库中的已存储原文作为参考原文,对需要翻译的输入文本进行模糊匹配,所述输入文本为需要翻译原文中的某一段内容。算法最终返回翻译记忆库中同输入文本相似度较高的一批原文以及对应的译文。为译员提供译法参考。
随着翻译记忆库里存储的原文越来越多,原文内容的长度越来越大,算法的计算过程对系统的开销也将逐渐加大,因此,查询算法不仅关系到查询结果的准确性,其性能直接决定了算法对返回结果的响应速度。因此查询算法的设计与实现方式,是影响翻译记忆库模糊查询功能的重要环节。
现有的查询算法,是将输入文本里的每一个单词,同翻译记忆库中的原文中每一个单词进行对比,得出是否相等的结论。当输入文本中的全部单词与翻译记忆库中的原文中的每一个单词都进行了对比后,再通过某种编辑距离算法,对上述对比结果进行数学计算,得出翻译记忆库中每条原文对输入文本的编辑距离,编辑距离最小的一组翻译记忆库中的原文即是与输入文本相似度最高的一组原文。
上述将两组单词集合进行循环计算比对的方式,随着句子长度(输入文本或翻译记忆库中的存储原文)增大,翻译记忆库中存储的原文数量增多,由于操作系统对字符串的比较方式是逐个按字符的ASCII码值为单位处理,所以会产生大量的字符级的比较运算,对于操作系统存在不小的开销,直接影响查询的性能和结果返回的速度。
发明内容
传统查询算法由于随着翻译记忆库里的原文越来越多,原文内容越来越长,会产生大量的字符级比较的操作,加大系统开销带来性能问题。为解决这一问题,本申请研发一种新的模糊查询方法,同时实现一种新的编辑距离计算方法,对数字化后的单词进行运算,提升模糊查询的计算性能。
为实现上述目的,本申请提供了如下方案:
一种翻译记忆库模糊查询方法,包括如下步骤:
将输入文本中的每一个单词进行数字化表达,并进行数字对比;
基于数字对比的结果,进行编辑距离计算,得出所述输入文本同当前翻译记忆库中的原文的编辑距离;
当所述翻译记忆库中的全部原文都参与了所述编辑距离计算,并得到对应的编辑距离后,取编辑距离最小的一组翻译记忆库原文作为同输入文本相似度最高的模糊查询结果。
优选的,所述单词的数字表达方法为:
N=fw-n(w)
其中,N为单词转换后的数字内容,w为单词转换前的文本内容。
优选的,所述编辑距离使用虚拟X-Y直角坐标系进行计算,其中X轴刻度值用输入文本的单词顺序表达,Y轴刻度值则用翻译记忆库原文单词顺序表达。
优选的,使用所述虚拟X-Y直角坐标系计算所述编辑距离的方法包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳创思佳业科技有限公司,未经沈阳创思佳业科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310257043.7/2.html,转载请声明来源钻瓜专利网。