[发明专利]基于改进的Nivre算法构建越南语依存树库的方法有效
申请号: | 201610599528.4 | 申请日: | 2016-07-27 |
公开(公告)号: | CN106250367B | 公开(公告)日: | 2019-04-09 |
发明(设计)人: | 余正涛;邱国柯;郭剑毅;文永华;王红斌;陈玮 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/36 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及基于改进的Nivre算法构建越南语依存树库的方法,属自然语言处理技术领域。本发明首先构建初始训练语料、扩展语料和测试语料;然后利用构建的初始训练语料基于改进的Nivre算法训练出两个依存分析弱学习器S1和S2作为两个充分冗余的视图;再利用训练出的两个弱学习器S1和S2对扩展语料进行依存分析并构建越南语依存树库模型;最后对测试语料进行依存分析测试并最终构建出越南语依存树库。本发明能够对越南语的句法分析、机器翻译和信息获取等上层应用提供有力支撑;能有效避免了人工标记越南语句子依存关系的过程,节省了人力物力的时间;能够有效利用大量无标记的越南语句子级语料提升依存分析的准确率。 | ||
搜索关键词: | 基于 改进 nivre 算法 构建 越南语 依存 方法 | ||
【主权项】:
1.基于改进的Nivre算法构建越南语依存树库的方法,其特征在于:所述基于改进的Nivre算法构建越南语依存树库的方法的具体步骤如下:Step1、首先构建初始训练语料、扩展语料和测试语料;Step2、然后利用构建的初始训练语料基于改进的Nivre算法训练出两个依存分析弱学习器S1和S2作为两个充分冗余的视图;Step3、再利用训练出的两个弱学习器S1和S2对扩展语料进行依存分析并构建越南语依存树库模型;Step4、最后利用构建的越南语依存树库模型对测试语料进行依存分析测试并最终构建出越南语依存树库;所述步骤Step1的具体步骤为:Step1.1、首先利用爬虫程序爬取若干新闻粗语料,得到越南语文本级语料样本;Step1.2、然后人工对Step1.1得到的越南语文本级语料样本进行反复加工处理,得到标准的越南语句子,从而形成越南语句子级语料样本;Step1.3、其次通过分析越南语语法,制定出符合越南语语言特点的14种依存关系标记规范表,该依存关系标记规范表包含两个内容:一是在一个越南语句子中,哪些词语之间会存在依存关系;二是如何定义它们的依存关系类型;Step1.4、然后利用Step1.3中得到的越南语依存关系标记规范表将Step1.2中得到的一部分越南语句子级语料样本人工地进行越南语依存关系标记,并进行反复校对,得到初始训练语料和测试语料,将剩下的一部分未标记的越南语句子级语料样本用作实验扩展语料;Step1.5、最后进行特征的选取;选取当前词W0、其前一个词W‐1、前两个词W‐2、后一个词W1、后两个词W2,以及当前词的词性POS0、其前一个词的词性POS‐1、前两个词的词性POS‐2、后一个词的词性POS1、后两个词的词性POS2作为特征;所述步骤Step3的具体步骤为:Step3.1、首先从Step1得到的扩展语料中随机抽取少量越南语句子作为集合A和集合B,再分别用Step2训练得到的两个弱学习器S1和S2对集合A和集合B中的越南语句子进行依存预测;Step3.2、然后从扩展语料中选取100个未标记的越南语句子为一个单位,先用弱学习器S1对这100个句子进行预测,然后采用公式1挑选出20个置信度高的句子进行标记,接着再把这些已标记过的句子加入到弱学习器S2中训练更新;
其中,H1为K‐Best结果中任意两个不同结果的分值差的和的倒数,scorei和scorej是弱学习器S1对第i个和第j个句子预测结果的得分;Step3.3、其次再继续以新的100个未标记的越南语句子为一个单位,用弱学习器S2进行预测,再根据公式1从中挑选出20个置信度高的句子进行标记,接着再将这20个已标记过的句子加入到弱学习器S1中训练更新;Step3.4、如此反复循环Step3.2和Step3.3,直到弱学习器S1和弱学习器S2的参数不变为止,即待构建的越南语依存树库模型的参数收敛为止;Step3.5、再利用两个弱学习器对Step1得到的扩展语料进行依存分析并构建越南语依存树库模型;所述步骤Step3.5中,两个弱学习器需要对扩展语料中的句子进行预测,进而得到句子相应的预测结果,因为预测结果是否一致是判断依存分析结果是否正确的前提;其求取预测结果的具体步骤如下所示:在构建越南语依存树库模型的过程中,若两个弱学习器的预测结果一致,则认为依存分析的结果是正确的;若结果不一致,则用公式2和公式3来计算置信度;![]()
其中,公式2中:score1表示弱学习器对第1个句子预测结果的得分,score2表示弱学习器对第2个句子预测结果的得分,H2表示K‐Best置信度判别方法中score1相对于score2的增长率的倒数;公式3中:
表示scorei相对于k个句子预测结果得分总和的比值;其中,scorei表示弱学习器对第i个句子预测结果的得分,scorej表示弱学习器对第j个句子预测结果的得分,k表示句子的个数,H3表示k个结果的熵;Step3.6、最后用公式1、公式2和公式3分别对两个弱学习器的预测结果打取平均分,并选取分值较高的作为正确的预测结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610599528.4/,转载请声明来源钻瓜专利网。