[发明专利]一种基于柬汉词对齐语料构建柬埔寨语依存树库的方法在审

申请号：	201711005546.6	申请日：	2017-10-25
公开（公告）号：	CN107894982A	公开（公告）日：	2018-04-10
发明（设计）人：	严馨;李思远;郭剑毅;周枫;王红斌	申请（专利权）人：	昆明理工大学
主分类号：	G06F17/28	分类号：	G06F17/28;G06F17/27
代理公司：	暂无信息	代理人：	暂无信息
地址：	650093 云***	国省代码：	云南;53
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及基于柬汉词对齐语料构建柬埔寨语依存树库的方法，属自然语言处理领域。本发明先构建柬汉词对齐平行语料库，在构建柬汉词对齐平行料库时先使用GIZA++进行词对齐，但由于GIZA++会出现数据稀疏的问题，再使用双语词典的模糊匹配和词向量词相似性比较的方法提高词对齐的准确率；柬汉词对齐语料库构建完成后再构建中文依存树语料库；结合柬汉词对齐语料库和中文依存树语料库进而构建柬语依存树语料库，再经过人工调整得到最终的柬语依存树语料库。本发明中构建依存树库的方法简化了人工标注柬埔寨语句子依存关系的过程，节省大量时间，采用双语词典匹配和词向量相似性法构建双语词对齐语料库可以有效的提高依存树库的准确率。
搜索关键词：	一种基于柬汉词对齐语料构建柬埔寨依存方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于柬汉词对齐语料构建柬埔寨语依存树库的方法，其特征在于：所述方法的具体步骤如下：Step1、构建柬汉词对齐平行语料库；Step1.1、收集柬汉平行句对；Step1.2、对柬汉平行句对使用GIZA++进行词对齐训练；Step1.3、通过双语词典对稀疏数据进行词典的模糊匹配；Step1.4、经过词典的模糊匹配后依然无法对齐的柬语词，采用词向量相似度比较方法处理用于提高词对齐准确率；其中词向量相似度比较是指将原句对中无法对齐的汉语词的词向量与原句对中无法对齐的柬语词的汉语译文所对应的词向量进行相似度比较；Step2、构建中文依存树语料库；Step2.1、对柬汉词对齐平行句对库进行中文句子分词处理；Step2.2、对处理后的中文语料进行词性标注处理；Step2.3、对词性标注后的中文语料采用LTP语言处理平台构建中文依存树库，同时得到中文依存关系；Step3、结合柬汉词对齐平行语料库和中文依存树语料库，构建柬语依存树语料库；Step3.1、把中文依存关系通过柬汉词对齐平行句对语料库映射到柬语的句子中去，从而得到柬语依存树库；Step3.2、根据柬语依存树库构建柬语句子依存关系，依据柬语句子依存关系中左右附加关系的变化对柬语句子依存关系进行调整，再经过人工校正，得到最终的柬语依存树库。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于昆明理工大学，未经昆明理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201711005546.6/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于柬汉词对齐语料构建柬埔寨语依存树库的方法在审

专利文献下载