[发明专利]基于树特征选择和迁移学习的汉语词义消歧方法有效

专利信息
申请号: 201910834309.3 申请日: 2019-09-05
公开(公告)号: CN110532568B 公开(公告)日: 2022-07-01
发明(设计)人: 张春祥;熊经钊;高雪瑶;赵凌云 申请(专利权)人: 哈尔滨理工大学
主分类号: G06F40/284 分类号: G06F40/284;G06F40/30;G06K9/62
代理公司: 暂无信息 代理人: 暂无信息
地址: 150080 黑龙*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种基于树的特征选择和迁移学习的汉语词义消歧方法。本发明首先对汉语语料进行处理,对包含歧义词汇的汉语句子进行分词、词性标注、译文标注和语义标注处理,得到处理好的训练语料、测试语料以及辅助训练语料。对得到的训练语料、测试语料和辅助训练语料按照树模型的特征选择方法抽取特征得到训练数据集、测试数据集和辅助训练集。以训练数据集和辅助训练集为基础,利用改进的Tradaboost算法来优化词义消歧模型。使用优化后的消歧模型对测试数据集进行消歧。本发明在词义消歧方面实现了较好的消歧效果。
搜索关键词: 基于 特征 选择 迁移 学习 汉语 词义 方法
【主权项】:
1.基于树特征选择和迁移学习的汉语词义消歧方法,其特征在于,该方法包括以下步骤:/n步骤1:对1998年PFR人民日报语料所包含的所有汉语句子进行分词、词性标注、译文标注和语义类标注。对SemEval-2007:Task#5的训练语料和测试语料进行译文标注和语义类标注。选取歧义词w左右4个邻接词汇单元的词形、词性、译文和语义类作为消歧特征。/n步骤2:提取歧义词w左右4个邻接词汇单元的词形、词性、译文和语义类,统计其出现频率,形成SemEval-2007:Task#5目标训练集、SemEval-2007:Task#5测试集和人民日报辅助训练集。/n步骤3:使用SemEval-2007:Task#5目标训练集对树模型进行训练,选择使树的预测模型达到最优的特征子集作为所使用的消歧特征。/n步骤4:将SemEval-2007:Task#5目标训练集和人民日报辅助训练集输入到改进的Tradaboost算法,经过若干次迭代得到优化后的贝叶斯词义消歧模型。/n步骤5:将歧义词汇w的测试数据输入到优化后的贝叶斯词义消歧模型中,计算歧义词汇w所属的语义类别。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910834309.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top