[发明专利]用户勾圈网页即时翻译系统及方法无效
申请号: | 200910040304.X | 申请日: | 2009-06-17 |
公开(公告)号: | CN101576878A | 公开(公告)日: | 2009-11-11 |
发明(设计)人: | 董名垂;费晓磊 | 申请(专利权)人: | 董名垂 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/30 |
代理公司: | 广州市华学知识产权代理有限公司 | 代理人: | 陈燕娴;伍宏达 |
地址: | 100088北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用户 网页 即时 翻译 系统 方法 | ||
技术领域
本发明涉及一种全新的网页在线浏览翻译系统及方法,用以对网页中被随意勾圈的网页段落进行截取处理并即时翻译。该系统及方法可应用于各类有线或无线上网的电脑设备、嵌入式系统、便携式系统、系统芯片、手机设备或移动电子装置。本发明的核心价值在于它不受限于网页的内部设计格式和开发语言,也不受限于网页外部的表现风格和动画色彩,彻底克服其他在线翻译系统严重受限于网页内部结构的致命缺点,能让用户将Internet上浏览到的源语言网页的任何内容自如翻译到目标语言来阅读。
背景技术
随着互联网技术的发展与普及,Internet已经成为一个拥有庞大信息量的全球性信息资源体,其大大加速了全球范围内的信息交换。只需借助一台计算机,人们就能轻松快捷地获得世界各地的数据和信息。然而,在享用Internet所带来的巨大便利时,人们会遇到一个语言障碍的问题。Internet上的网页信息由不同国家所提供,包含了世界各国不同的语言文字,由于这些信息以各种语言的形式存在于互联网上,给用户造成了诸多不便,当用户没能掌握某种语言时,也就无法读懂该语言的网页。因此,对网上的页面进行翻译就显得非常必要,网页翻译技术便应运而生。
Internet在线即时翻译是机器翻译的一个最新应用领域,是当前信息时代交流全球化的一个解决方案,人们通过互联网(Internet)查询、浏览资料时,可以借助在线翻译软件,对文本进行即时翻译,以获得他所需要的各种信息。
现有的Internet在线翻译主要用了如下三种方法:
一、通过翻译网站来进行翻译。客户将所要翻译网页的网址发送到提供翻译服务的服务器,服务器翻译完后再将结果返送回来。
二、通过客户端进行翻译。即:利用有翻译功能的浏览器来进行翻译。人们在自己的计算机内,安装一个具有网页翻译功能的浏
览器软件,就可以通过该浏览器来浏览外国语言的网页。
三、通过E-mail进行联机机器翻译。它是由用户将需要翻译的资料用E-mail发给提供翻译服务的翻译公司,等翻译公司翻译完后,再用E-mail将结果发回给用户。
其中,除了第三种不能在真正意义上算是即时机器翻译,另外两种可归结为在线翻译和本地翻译两种模式,但是他们各有缺点。在线翻译的主要缺点是翻译的速度较慢、资源利用不均衡,并且用户缺乏足够的控制力。因为采用了在线语种语料库,所以在翻译过程中,客户端需要不停地向服务器发送请求,此时当用户的网络不稳定或者网络通讯状况不好时,翻译速度将不堪忍受,或者干脆不能翻译。
一个网页即时翻译系统应当具备以下几个基本功能:
1.在线翻译功能。系统应能对原文页面做出实时快速的翻译。
2.原文页面和译文页面的对照显示功能。系统应能支持原文页面和翻译结果页面的对照显示。
3.不打扰用户对计算机的其他正常操作,例如浏览网页或文字处理。当用户需要对所浏览内容进行翻译的时候,才呼叫出即时翻译系统执行操作。
而浏览器翻译系统的一个主要发展则是其运算法则的发展,其主要困难在于分析HTML的结构。一个HTML网页主要由文本加上一些HTML格式标签构成。如果直接将源文件根据格式标签分成几个部分,很可能会将完整的内容切割成不完整的几部分,从而导致无法准确翻译原文。事实上,在翻译时,应当将整个页面当作一个整体而不是分成单独的几个部分,否则会导致误解。要做到这点,机器翻译系统应当能将完整的句子或段落放到一个整体中去翻译,即使有些句子可能会被一些HTML格式标签分开。但是还有一点要注意,翻译后的文本也应当要有正确的格式标签。这就可能会遇到两个问题:如何将HTML格式标签正确地插入到翻译后的文本中以及如何正确地翻译纯文本。关于HTML文件,自然不能将格式标签与文本分开后翻译文本待翻译完后再插入格式标签,因为两种语言结构不同,不能总是找到一一对应的词,因此应当采用别的方法来处理整个问题。依据现有的技术,首先,分别标记HTML格式标签和文本,然后分别翻译纯文本和格式标签文本,之后系统会比较这二者。如果目标语言版本与源语言完全吻合,象源文本那样直接标记它就可以了。如果不一致,系统必须找出对应的部分,再加上必要的标记。
这是一个极为繁琐而且低效率的方法,因为现在网页开发技术日新月异,每时每刻都有新的格式标签出现在网页源代码之中。不仅如此,已有的格式标签所构成网页的版面也会无时不刻地变化,这就要求网页翻译系统能不断地更新网页版面识别模块。这些不仅降低了翻译的效果还增加了系统后期维护的难度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于董名垂,未经董名垂许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910040304.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种固定柱及具有该固定柱的LED模块
- 下一篇:用于涂布机或复合机的操作柜