[发明专利]一种基于图片构建资源稀缺语言可比语料库的方法及系统有效
| 申请号: | 201710047514.6 | 申请日: | 2017-01-22 |
| 公开(公告)号: | CN106844648B | 公开(公告)日: | 2019-07-26 |
| 发明(设计)人: | 王志娟 | 申请(专利权)人: | 中央民族大学 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F17/27 |
| 代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁 |
| 地址: | 100081 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 图片 构建 资源 稀缺 语言 可比 语料库 方法 系统 | ||
本发明涉及一种基于图片构建资源稀缺语言可比语料库的方法及系统,该方法包括:S110,下载资源稀缺语言的网页,并作为资源稀缺语言文本,所述网页包括文本中的图片;S120,搜索包含资源稀缺语言文本相同或相似图片的资源丰富语言的网页,作为资源丰富语言文本;S130,对资源稀缺语言和资源丰富语言的网页进行特征提取;S140,基于所述特征计算具有相同或相似图片的资源稀缺语言和资源丰富语言网页的相似度值;S150,选取相似度值最高的资源丰富语言文本作为资源稀缺语言文本的可比文本;S160,重复S120‑S150,直至所有资源稀缺语言网页找到资源丰富语言的可比文本。本发明不受资源稀缺语言信息处理技术以及资源的限制,可以较低成本、快速构建资源稀缺语言的跨语言可比语料库。
技术领域
本发明涉及语言的信息处理技术领域,尤其涉及一种基于图片构建资源稀缺语言可比语料库的方法及系统。
背景技术
跨语言语料库是开展跨语言自然语言处理研究的重要手段,根据语料库互译程度的差异,跨语言语料库可分为平行语料库和可比语料库。平行语料库(Parallel Corpus)是由源语言文本和翻译的目标语言文本构成的文本对集合,两种语言文本间存在严格的互译关系,语料库质量高,是进行跨语言信息处理研究的重要资源,但是平行语料库构建难度大、构建成本高;可比语料库(comparable corpora)则是语言不同、内容相似但非互译的文本对集合,涉及同一主题的不同语言文本的词、句子、段落不一定存在一一对应的翻译关系,可比语料较平行语料而言,资源较为丰富,是构建跨语言语料库的重要补充。
随着自然语言处理研究的推进,研究对象也从资源丰富语言(High resourcelanguages,如英语、汉语、日本语、西班牙语等)扩展到资源稀缺语言(Low resourcelanguage,如豪萨语、孟加拉语、藏语、维吾尔语等),资源稀缺语言不仅使用人口少,而且资源少、语料获取成本高,在这种情况下构建资源稀缺语言的平行语料库非常困难,因此可比语料库是资源稀缺语言的跨语言自然语言处理研究的重要资源。
对于资源丰富语言而言,目前构建可比语料库的方法主要有三种:内容特征匹配、跨语言信息检索、维基百科。基于内容特征的可比语料构建方法需要抽取文本特征以及双语词典的支持,由于资源稀缺语言的文本特征抽取技术有限,而资源稀缺语言的双语词典主要覆盖一些常用词,无法满足翻译文本特征的需求,因此目前没有办法通过基于内容特征的方法大规模、高质量构建资源稀缺语言的可比语料库。基于跨语言信息检索构建可比语料库极大地提高了大规模可比语料采集的速度,其中关键问题在于查询词的选择,这直接决定了源语言文档和目标语言文档的关联程度。但是对于资源稀缺语言而言,一方面一些资源稀缺语言没有搜索引擎系统、另一方面查询词的翻译质量也是制约利用该方法进行资源稀缺语言可比语料库构建的重要瓶颈。目前维基百科中资源稀缺语言的资源较少,且内容分布不平衡,很难通过维基百科构建大规模、高质量的资源稀缺语言的可比语料库。
目前构建可比语料库的方法不仅需要文本特征提取、关键词抽取、跨语言信息检索、机器翻译等技术的支持,还需要词典、维基百科、Wordnet等资源或者知识库支持。对于资源稀缺语言而言,一方面词典、知识库、维基百科等资源较为溃泛;另一方面,资源稀缺语言的信息处理技术,如关键词抽取、跨语言信息检索、机器翻译等技术发展较为滞后,不足以支持资源稀缺语言的跨语言可比语料库的构建。即资源稀缺语言不仅资源少,而且资源稀缺语言的信息处理技术(如关键词抽取、机器翻译、信息检索技术等)导致构建资源丰富语言可比语料的方法通常不适用于资源稀缺语言的可比语料库构建。
发明内容
本发明为解决资源稀缺语言现有信息处理技术的不足,提出了一种基于图片构建资源稀缺语言可比语料库的方法及系统。
一方面,本发明实施例提供了一种基于图片构建资源稀缺语言可比语料库的方法,包括:
S110,下载资源稀缺语言的网页,并作为资源稀缺语言文本,所述网页包括文本中的图片;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中央民族大学,未经中央民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710047514.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于立塑袋补充装的具有计量功能的快速转接装置
- 下一篇:一种洗手液节约装置





