[发明专利]一种从互联网上自动提取双语翻译词典的方法有效
申请号: | 201010147364.4 | 申请日: | 2010-04-13 |
公开(公告)号: | CN101833571A | 公开(公告)日: | 2010-09-15 |
发明(设计)人: | 周立柱;韩军;刘娟;张崇;茹立云;佟子健 | 申请(专利权)人: | 清华大学;北京搜狗科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/28 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;胡小永 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 互联网 自动 提取 双语 翻译 词典 方法 | ||
技术领域
本发明涉及统计自然语言处理技术领域,特别涉及一种从互联网上自动提取双语翻译词典的方法。
背景技术
无论是科研还是平时生活,人们对外语的接触和依赖程度都很高。传统的翻译词典主要来自人工的整理编辑,生成周期长,而且更新慢,覆盖度不高。现有的基于互联网生成翻译词典的方法需要依靠多种自然语言处理技术和机器学习技术,这些方法在处理很大规模数据时可能成为性能的瓶颈,同时要依赖事先建立的资源。
我们构造的双语翻译词典来自互联网,除了传统词汇外还可以很好的覆盖当前流行词汇以及命名实体,给人们的实际应用以及机器翻译等其他领域的科研带来极大的便利。以下是双语词典相关的名词解析:
1.双语词汇
在中英文双语网页中,存在大量的具有翻译关系或者其他关联的中英双语出现在一起。这些相互对应的中英双语构成双语对,我们称之为双语词汇。随着互联网的快速发展,这些双语词汇已经具有庞大的数量,经过提取便能很好的服务平时的生活和科研应用。
2.词频
同一个双语词汇在不同的网页中可能重复出现,双语词汇在抓取的所有网页中出现的次数称为词频。
3.括号双语词汇
在许多双语网页中,人们常常习惯在一个词或短语之后的括号内跟上该词或短语的翻译,具有这种对应关系双语词汇我们称为括号双语词汇。括号双语词汇出现在各种类型的双语网页中,包括购物、官方主页、新闻等,覆盖了人们生活的各个方面。但括号双语词汇还包括很多非翻译的关系,例如补充说明、论坛id等,整体上覆盖率很高,但正确率偏低。
4.英中双语词汇
括号内为英文、括号前为中文的括号双语词汇。
5.中英双语词汇
括号内为中文、括号前为英文的括号双语词汇。
6.中文语料库
所有双语词汇中括号内的中文组成中文语料库。
7.前缀
在英中双语词汇中,从左括号开始依次从右往左遍历中文,将得到的字串逐个在中文语料库中查找,可以查找到的字串成为该英中双语词汇的一个前缀
8.良结构双语词汇
在一些专业网站或者外语学习网站,会有经过用户整理的某一类词语以及对应的翻译,这些词语和翻译往往以很规整的结构出现,我们称为良结构词汇。这部分双语词汇都是经过人工整理的,正确率高,同时这些双语词汇出现的结构规整,便于提取。但由于这部分双语词汇是经过整理以后的,覆盖率相对括号双语词汇偏低。
9.流行用语
流行用语是指互联网中出现的很多传统词典无法覆盖的英语词汇,例如orz(失意体前屈),ft(晕倒)、pmp(拍马屁)等,这些或者是单词的缩写,或者是拼音的缩写,或者是象形文字等等。
10.命名实体
命名实体主要指一些用来描述地名、公司名、品牌名或者新的技术等的特定词汇,由于公司名、品牌名以及技术都在不断地更新,新的词汇也在不停地出现,所以很多命名实体词汇为传统词典所无法覆盖,例如Baleno(班尼路)、cloud computing(云计算)、kobe(科比)等。
11.词根
词根指英文单词意义的主要部分,通过英文单词中去掉由于语态和复数形式添加的后缀获得。例如witten的词根为wit,managing的词根为manag。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是在从互联网构建双语词典时如何快速有效地自动构建且不依赖任何外来资源的问题。
(二)技术方案
一种从互联网上自动提取双语翻译词典的方法,包括以下步骤:
S1:从中外双语网页中提取括号双语词汇和良结构双语词汇,并记录词频;所述双语词汇为具有翻译关系的中外双语出现在一起组成的词汇,所述良结构双语词汇为先前经过人工整理的具有准确翻译的双语词汇,所述括号双语词汇为词或短语之后的括号内跟上该词或短语的翻译的双语词汇,包括:
外中双语词汇,括号内为外语、括号前为中文的括号双语词汇。
中外双语词汇,括号内为中文、括号前为外语的括号双语词汇。
S2:对所述提取的括号双语词汇进行截取,得到翻译准确的括号双语词汇;
S3:对良结构双语词汇和经过步骤S2后的括号双语词汇进行词根合并和筛选;
S4:对给定的中文或外语,首先在良结构双语词汇中查找对应的翻译,如果找到则忽略括号双语词汇的翻译;否则在括号双语词汇中寻找对应的翻译,所有中文、外语和对应的翻译构成双语翻译词典。
其中,所述步骤S1包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学;北京搜狗科技发展有限公司,未经清华大学;北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010147364.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于粗糙集的地名信息检索方法
- 下一篇:基于应用程序的文件缓存方法和装置