[发明专利]一种基于机器翻译的中文语义知识库的构建方法有效
申请号: | 201610111365.0 | 申请日: | 2016-02-29 |
公开(公告)号: | CN105677913B | 公开(公告)日: | 2019-04-26 |
发明(设计)人: | 曹海龙;李晓倩;赵铁军;杨沐昀;徐冰 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F17/27;G06F17/28 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 牟永林 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器翻译 中文 语义 知识库 构建 方法 | ||
一种基于机器翻译的中文语义知识库的构建方法,本发明涉及中文语义知识库的构建的方法。本发明是要解决中文语义知识库匮乏的问题、现有技术昂贵的人力及时间的问题,和提高基于跨语言映射的语义知识库翻译的性能的问题,而提出的一种基于机器翻译的中文语义知识库的构建方法。该方法是通过一、得到标注了实体的源语言端语料;二、根据主题模型计算得到实体的主题分布;三、根据源语言端实体词表从短语翻译表中抽取源语言端语义知识库中实体的翻译概率,记为p(tj|si);四、构建基于源语言端语义知识库图结构信息的实体翻译模型等步骤实现的。本发明应用于中文语义知识库的构建领域。
技术领域
本发明涉及中文语义知识库构建的方法,特别涉及一种基于机器翻译的中文语义知识库的构建方法。
背景技术
知识库汇集一系列的概念、实例以及关系,在自然语言处理领域的应用越来越广泛,比如自动问答、事件检测、理解用户query等方面。目前较出名的知识库包括WordNet、HowNet、FrameNet、YAGO、Freebase、DBpedia等,分别在搜索、问答等方面发挥了很好的作用。知识库根据构建方法主要分为两种,一种是依赖语言学基础知识以及语言学专家进行的人工构建的知识库,比如WordNet、HowNet等;另外一种是基于大规模现实语料的自动构建的知识库,比如DBpedia、YAGO等。目前人工构建知识库的方法已经很成熟,但是完全依赖于昂贵的人力及时间,而自动构建语义知识库可以节省这方面的消耗。
Freebase是一个由元数据组成的大型合作知识库,内容主要来自其社区成员的贡献,它整合了许多网上的资源,包括部分私人wiki站点中的内容,包含3900万个实体和18亿条实体关系,被谷歌收购并将其全部数据迁移至维基数据;DBpedia是德国莱比锡大学等机构发起的项目,从维基百科中抽取实体关系,包括1千万个实体和14亿条实体关系;YAGO则是德国马克斯·普朗克研究所发起的项目,也是从维基百科和WordNet等知识库中抽取实体,到2010年该项目已包含1千万个实体和1.2亿条实体关系。
在汉语语义知识库方面,董振东构建了知网(HowNet),知网是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库;张潮生构建的中文词语库CWB(Chinese Word Base)是一个规模较大的中文词库,该词库目前收入了13万以上的书面形式的词条,包括单词、固定词组、成语、等等,包含大量的同义、分类等语义信息。
语义知识库构建的巨大推动力是其可以应用于语义搜索、机器问答等实际的应用中。然而现有中文知识库相对匮乏,规模也较小。因此中文语义知识库的构建对中文信息处理和中文信息检索具有重要的价值。
目前语义知识库的构建方法主要有三种:
(1)是依赖语言学基础知识以及语言学专家进行的人工构建的知识库,比如WordNet、HowNet等。目前人工构建知识库的方法已经很成熟,但是完全依赖于昂贵的 人力及时间。
(2)是基于大规模语料的自动构建的知识库,比如DBpedia、YAGO等。该方法可以抽取大量的实体及属性关联,然而存在严重的冗余问题需要处理。
(3)是基于跨语言映射的语义知识库翻译,利用现有的大型外文知识库,如freebase,通过一定的翻译技术得到中文的语义知识库。
发明内容
本发明的目的是为了解决中文语义知识库匮乏的问题、现有技术昂贵的人力及时间的问题,和提高基于跨语言映射的语义知识库翻译的性能的问题,而提出的一种基于机器翻译的中文语义知识库的构建方法。
上述的发明目的是通过以下技术方案实现的:
步骤一、利用源语言语义知识库中实体对原双语语料中源语言端语料进行命名实体识别,得到标注了实体的源语言端语料;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610111365.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种本地搜索结果展示方法、装置及电子设备
- 下一篇:恶意用户检测方法及装置