[发明专利]一种基于机器翻译的中文语义知识库的构建方法有效

申请号：	201610111365.0	申请日：	2016-02-29
公开（公告）号：	CN105677913B	公开（公告）日：	2019-04-26
发明（设计）人：	曹海龙;李晓倩;赵铁军;杨沐昀;徐冰	申请（专利权）人：	哈尔滨工业大学
主分类号：	G06F16/36	分类号：	G06F16/36;G06F17/27;G06F17/28
代理公司：	哈尔滨市松花江专利商标事务所 23109	代理人：	牟永林
地址：	150001 黑龙***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于机器翻译中文语义知识库构建方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于机器翻译的中文语义知识库的构建方法，其特征在于一种基于机器翻译的中文语义知识库的构建方法具体是按照以下步骤进行的：

步骤一、利用源语言语义知识库中实体对源双语语料中源语言端语料进行命名实体识别，得到标注了实体的源语言端语料；

步骤二、利用步骤一得到的标注了实体的源语言端语料构建主题模型，根据主题模型计算得到实体的主题分布；

步骤三、将标注了实体的源语言端语料和源双语语料的目的语言端语料构成源语言端标注了实体的双语语料，利用源语言端标注了实体的双语语料构建基于短语的统计机器翻译模型，利用基于短语的统计机器翻译模型生成短语翻译表，根据源语言端实体词表从短语翻译表中抽取源语言端语义知识库中实体的翻译概率，记为p(t_j|s_i)，其中t_j属于s_i的候选翻译集，s_i表示标注了实体的源语言端语料中的单词；

步骤四、根据步骤二建立的源语言端主题模型和步骤三建立的p(t_j|s_i)构建基于源语言端语义知识库图结构信息的实体翻译模型，其中，源语言端语义知识库图结构信息即实体的上下文信息，其具体过程为；

步骤四一、利用步骤二得到的源语言端的主题模型，得到上下文下的实体主题分布：

其中，C是实体s_i的上下文信息，即其相连节点和边的集合；p(z_k|s_i)代表每个实体的主题分布；z_k是第k个主题；K是主题的总个数；

步骤四二、利用步骤三得到的源语言端语义知识库中实体的翻译概率及步骤四一得到的上下文的实体主题分布，计算上下文信息的实体翻译概率：

步骤四三、利用步骤四二得到的上下文下的实体翻译概率，计算上下文信息下的实体翻译结果；

2.根据权利要求1所述一种基于机器翻译的中文语义知识库的构建方法，其特征在于：步骤一中利用源语言语义知识库中实体对源双语语料中源语言端语料进行命名实体识别具体过程：

步骤一一、利用源语言端语义知识库构建源语言端实体词表，其中，源语言端实体词表包括源语言端语义知识库中所有实体的名称；

步骤一二、将步骤一一得到的源语言端实体词表作为词表添加到命名实体识别模型，即对双语语料中源语言端语料进行命名实体识别。

3.根据权利要求2所述一种基于机器翻译的中文语义知识库的构建方法，其特征在于：步骤二中利用步骤一得到的标注了实体的源语言端语料构建主题模型，根据主题模型计算得到实体的主题分布的具体过程：

步骤二一、利用步骤一得到的标注了实体的源语言端语料训练主题模型得到单词-主题分布：

其中，i∈{1,2....,V_s}，V_s是标注了实体的源语言端语料中词表的大小；z_k是第k个主题，k∈{1,2,...,K}，K是主题的总个数；

步骤二二、利用步骤二一得到的单词-主题分布得到每个实体的主题分布：