[发明专利]一种基于依存词汇关联度的形容词词义消歧方法在审
申请号: | 201610048601.9 | 申请日: | 2016-01-26 |
公开(公告)号: | CN105718443A | 公开(公告)日: | 2016-06-29 |
发明(设计)人: | 鹿文鹏 | 申请(专利权)人: | 齐鲁工业大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 250353 山东省济南市西部*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 依存 词汇 关联 形容词 词义 方法 | ||
技术领域
本发明涉及到一种形容词词义消歧方法,特别涉及到一种基于依存词汇关联度的形容词词义消歧方法,属于自然语言处理技术领域。
背景技术
自然语言中普遍存在一词多义的现象。词义消歧即指根据多义词所处的上下文环境自动确定其词义。词义消歧属于自然语言处理领域的底层研究,对机器翻译、信息检索、信息抽取、情感分析、舆情监测等均具有直接影响。
词义消歧方法可划分有监督方法、无监督方法和基于知识库的方法。有监督方法利用词义分类器来进行词义的判定;无监督方法主要通过对歧义词的上下文词语进行聚类而对词义进行分类;基于知识库的方法根据上下文环境,利用知识库来判定歧义词的词义。有监督方法需要大量的词义标注语料以训练词义分类器,这严重制约了其应用范围;无监督方法本质上是一种词义辨析方法,并不能真正应用于大规模词义消歧任务;基于知识库的方法需要使用大量的知识库,知识库的优劣直接影响其消歧能力。其中,基于知识库的方法是目前唯一能够真正应用于大规模词义消歧任务的方法。
基于知识库的方法需要结合歧义词的上下文环境,依据其知识库判定歧义词的词义。现有方法通常利用滑动窗口来进行上下文的选择,这难免会引入一些无关的噪声词;现有方法使用的知识库通常是人工构建的,其成本高昂,不易于扩展;现有方法往往并不区分歧义词的词性,未能充分利用不同词性歧义词的自身特征。
发明内容
本发明的目的是为了克服现有技术的不足,主要解决形容词的词义消歧问题,提出一种基于依存词汇关联度的形容词词义消歧方法。
本发明的目的是通过如下技术方案实现的。
一种基于依存词汇关联度的形容词词义消歧方法,其具体操作步骤如下。
步骤一、根据语义词典,收集目标形容词歧义词wt各个词义si的同义词、近义词、反义词,构建相应词义的相关词集Wsi;具体如下。
步骤1.1:根据WordNet,取词义概念si的同义词集。
步骤1.2:根据WordNet,取词义概念si的近义词集。
步骤1.3:根据WordNet,取词义概念si的反义词集。
步骤1.4:将步骤1.1~1.3所得的同义词集、近义词集、反义词集合并,构建相应词义的相关词集Wsi。
步骤二、对目标歧义词所在的句子进行依存句法分析,收集包含目标歧义词的形容词修饰及副词修饰依存元组,提取相应的依存共现词wamod和wadvmod;具体如下。
步骤2.1:利用依存句法分析工具对目标歧义词所在的句子进行依存句法分析,获取其依存元组集合。
步骤2.2:由步骤2.1所得的依存元组集合,提取包含目标歧义词的形容词修饰及副词修饰依存元组。
步骤2.3:由步骤2.2所得的依存元组,提取歧义词的依存共现实词wamod和wadvmod。
步骤三、对大规模语料进行依存句法分析,收集其中的依存共现词对,构建依存共现词对数据库DB;具体如下。
步骤3.1:利用依存句法分析工具对大规模文本语料进行依存句法分析,获取其依存元组集合DSet。
步骤3.2:舍弃DSet中依存元组的依存关系类型信息,统计依存共现词对,构建依存共现词对数据库DB。
步骤四、根据DB,计算目标歧义词的各个词义的依存词汇关联度;具体如下。
步骤4.1:对于词义si的相关词集Wsi中的各个相关词wsi,由公式(1),计算其与wamod、wadvmod的依存词汇关联度,即relatedness(wamod,wsi)及relatedness(wsi,wadvmod)。
relatedness(w1,w2)=LLR(w1,w2)=2[LogL(p1,a,a+b)+LogL(p2,c,c+d)-LogL(p,a,a+b)-LogL(p,c,c+d)](1)
其中,
;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于齐鲁工业大学,未经齐鲁工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610048601.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据建模的方法
- 下一篇:一种格式化Webservice报文的方法