[发明专利]一种基于柬汉词对齐语料构建柬埔寨语依存树库的方法在审

专利信息
申请号: 201711005546.6 申请日: 2017-10-25
公开(公告)号: CN107894982A 公开(公告)日: 2018-04-10
发明(设计)人: 严馨;李思远;郭剑毅;周枫;王红斌 申请(专利权)人: 昆明理工大学
主分类号: G06F17/28 分类号: G06F17/28;G06F17/27
代理公司: 暂无信息 代理人: 暂无信息
地址: 650093 云*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及基于柬汉词对齐语料构建柬埔寨语依存树库的方法,属自然语言处理领域。本发明先构建柬汉词对齐平行语料库,在构建柬汉词对齐平行料库时先使用GIZA++进行词对齐,但由于GIZA++会出现数据稀疏的问题,再使用双语词典的模糊匹配和词向量词相似性比较的方法提高词对齐的准确率;柬汉词对齐语料库构建完成后再构建中文依存树语料库;结合柬汉词对齐语料库和中文依存树语料库进而构建柬语依存树语料库,再经过人工调整得到最终的柬语依存树语料库。本发明中构建依存树库的方法简化了人工标注柬埔寨语句子依存关系的过程,节省大量时间,采用双语词典匹配和词向量相似性法构建双语词对齐语料库可以有效的提高依存树库的准确率。
搜索关键词: 一种 基于 柬汉词 对齐 语料 构建 柬埔寨 依存 方法
【主权项】:
一种基于柬汉词对齐语料构建柬埔寨语依存树库的方法,其特征在于:所述方法的具体步骤如下:Step1、构建柬汉词对齐平行语料库;Step1.1、收集柬汉平行句对;Step1.2、对柬汉平行句对使用GIZA++进行词对齐训练;Step1.3、通过双语词典对稀疏数据进行词典的模糊匹配;Step1.4、经过词典的模糊匹配后依然无法对齐的柬语词,采用词向量相似度比较方法处理用于提高词对齐准确率;其中词向量相似度比较是指将原句对中无法对齐的汉语词的词向量与原句对中无法对齐的柬语词的汉语译文所对应的词向量进行相似度比较;Step2、构建中文依存树语料库;Step2.1、对柬汉词对齐平行句对库进行中文句子分词处理;Step2.2、对处理后的中文语料进行词性标注处理;Step2.3、对词性标注后的中文语料采用LTP语言处理平台构建中文依存树库,同时得到中文依存关系;Step3、结合柬汉词对齐平行语料库和中文依存树语料库,构建柬语依存树语料库;Step3.1、把中文依存关系通过柬汉词对齐平行句对语料库映射到柬语的句子中去,从而得到柬语依存树库;Step3.2、根据柬语依存树库构建柬语句子依存关系,依据柬语句子依存关系中左右附加关系的变化对柬语句子依存关系进行调整,再经过人工校正,得到最终的柬语依存树库。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201711005546.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top