[发明专利]一种基于随机游走的词义排歧和词义学习方法在审

专利信息
申请号: 201910976701.1 申请日: 2019-10-15
公开(公告)号: CN110750644A 公开(公告)日: 2020-02-04
发明(设计)人: 吕晨;姬东鸿 申请(专利权)人: 广东外语外贸大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/30;G06K9/62
代理公司: 暂无信息 代理人: 暂无信息
地址: 518000 *** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 词义 词义学习 随机游走 新类 词汇资源 自然语言处理技术 处理系统 词汇语义 鲁棒性 分类 标注 判定 抽象 合并 建造 补充 检测 应用
【说明书】:

发明涉及自然语言处理技术领域,具体涉及一种基于随机游走的词义排歧和词义学习方法,其特征在于:采用如下步骤:步骤一、采用随机游走方法指对待标数据进行分类;步骤二、判断是否需要构造新类,若需要,则构造一个新类并考虑是否和以前的类进行合并;然后再进行随机游走分类。如果没有必要产生新类,则意味着结束;步骤三、对未标注的数据进行词义判定;它将词义排岐和词义学习抽象为一个更一般的基于部分指导的词义学习问题,为词义学习增加一部分指导,同时为词义排岐减少一部分指导;其从应用上说,有助于提高词义处理系统的鲁棒性、有助于建造义项级别的词汇资源,包括检测现有词汇语义资源的一致性、补充和丰富现有的词汇资源。

【技术领域】

本发明涉及自然语言处理技术领域,具体涉及一种基于随机游走的词义排歧和词义学习方法。

【背景技术】

在自然语言处理领域,词义学习(word sense learning)和词义排岐(word sensedisambiguation)通常被视作两个相互独立的问题。前者指给定一个词的语料,根据该语料归纳或学习其词义,包括义项数目及每个义项的区别特征;后者指假设某个词的义项已经给定,判断在一定的上下文中该词的具体义项。前者通常被形式化为无指导的学习(unsupervised learning)问题,而后者则通常被形式化为有指导(supervised learning)的学习问题。

实际上,这两个问题具有紧密的联系。首先,词义学习可作为词义排岐的基础,这是因为一方面词义学习的结果可作为词义排岐的训练集;另一方面词义学习可使词义排岐应对训练集不足的情况。其次,词义排岐可作为词义学习的手段,这是因为一方面词义排岐可净化词义学习所依据的上下文;另一方面,词义排岐由于具有一定的训练数据,可在其基础上实现渐进性的词义学习。

更进一步说,词义学习和词义排岐可一般化为同一个问题。对于任一个词,假设它有K个义项,给定训练数据覆盖其中的k(0≤k≤K)个义项,试决定N个测试数据的义项。这是一个典型的部分指导学习(partially-supervised learning)问题,其特点是存在训练数据或标记数据,但它只覆盖部分义项。当k=0的时候,它等价于无指导的词义学习问题;当k=K的时候,它等价于有指导的词义排岐问题。因此,词义排岐和词义学习可看作这个部分指导学习问题的特殊形式。

【发明内容】

本发明的目的在于针对现有技术的缺陷和不足,提供一种基于随机游走的词义排歧和词义学习方法。

本发明所述的一种基于随机游走的词义排歧和词义学习方法,采用如下步骤:

步骤一、采用随机游走方法指对待标数据进行分类;

步骤二、判断是否需要构造新类,若需要,则构造一个新类并考虑是否和以前的类进行合并,然后再进行随机游走分类;如果没有必要产生新类,则意味着结束;

步骤三、对未标注的数据进行词义判定。

进一步地,步骤一采用随机游走方法对待标数据的词义进行分类。

进一步地,步骤一采用基于向量内积的方法来定义数据之间的相似度。

进一步地,步骤二中根据分类结果的清晰度来判断是否需要构造新类。

进一步地,对未标注的数据进行词义判定;词义排岐的结果根据随机游走方法对原有类的分类确定,而词义学习的结果则根据新类确定。

本发明有益效果为:本发明所述的一种基于随机游走的词义排歧和词义学习方法,其从理论上说,将词义排岐和词义学习抽象为一个更一般的基于部分指导的词义学习问题,为词义学习增加一部分指导,同时为词义排岐减少一部分指导;其从应用上说,有助于提高词义处理系统的鲁棒性、有助于建造义项级别的词汇资源,包括检测现有词汇语义资源的一致性、补充和丰富现有的词汇资源。

【附图说明】

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东外语外贸大学,未经广东外语外贸大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910976701.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top