[发明专利]基于树特征选择和迁移学习的汉语词义消歧方法有效
申请号: | 201910834309.3 | 申请日: | 2019-09-05 |
公开(公告)号: | CN110532568B | 公开(公告)日: | 2022-07-01 |
发明(设计)人: | 张春祥;熊经钊;高雪瑶;赵凌云 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/30;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于树的特征选择和迁移学习的汉语词义消歧方法。本发明首先对汉语语料进行处理,对包含歧义词汇的汉语句子进行分词、词性标注、译文标注和语义标注处理,得到处理好的训练语料、测试语料以及辅助训练语料。对得到的训练语料、测试语料和辅助训练语料按照树模型的特征选择方法抽取特征得到训练数据集、测试数据集和辅助训练集。以训练数据集和辅助训练集为基础,利用改进的Tradaboost算法来优化词义消歧模型。使用优化后的消歧模型对测试数据集进行消歧。本发明在词义消歧方面实现了较好的消歧效果。 | ||
搜索关键词: | 基于 特征 选择 迁移 学习 汉语 词义 方法 | ||
【主权项】:
1.基于树特征选择和迁移学习的汉语词义消歧方法,其特征在于,该方法包括以下步骤:/n步骤1:对1998年PFR人民日报语料所包含的所有汉语句子进行分词、词性标注、译文标注和语义类标注。对SemEval-2007:Task#5的训练语料和测试语料进行译文标注和语义类标注。选取歧义词w左右4个邻接词汇单元的词形、词性、译文和语义类作为消歧特征。/n步骤2:提取歧义词w左右4个邻接词汇单元的词形、词性、译文和语义类,统计其出现频率,形成SemEval-2007:Task#5目标训练集、SemEval-2007:Task#5测试集和人民日报辅助训练集。/n步骤3:使用SemEval-2007:Task#5目标训练集对树模型进行训练,选择使树的预测模型达到最优的特征子集作为所使用的消歧特征。/n步骤4:将SemEval-2007:Task#5目标训练集和人民日报辅助训练集输入到改进的Tradaboost算法,经过若干次迭代得到优化后的贝叶斯词义消歧模型。/n步骤5:将歧义词汇w的测试数据输入到优化后的贝叶斯词义消歧模型中,计算歧义词汇w所属的语义类别。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910834309.3/,转载请声明来源钻瓜专利网。