[发明专利]一种基于依存词汇关联度的形容词词义消歧方法在审
申请号: | 201610048601.9 | 申请日: | 2016-01-26 |
公开(公告)号: | CN105718443A | 公开(公告)日: | 2016-06-29 |
发明(设计)人: | 鹿文鹏 | 申请(专利权)人: | 齐鲁工业大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 250353 山东省济南市西部*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 依存 词汇 关联 形容词 词义 方法 | ||
1.一种基于依存词汇关联度的形容词词义消歧方法,其特征在于:其具体操作步骤为:
步骤一、根据语义词典,收集目标形容词歧义词wt各个词义si的同义词、近义词、反义词,构建相应词义的相关词集Wsi;具体为:
步骤1.1:根据WordNet,取词义概念si的同义词集;
步骤1.2:根据WordNet,取词义概念si的近义词集;
步骤1.3:根据WordNet,取词义概念si的反义词集;
步骤1.4:将步骤1.1~1.3所得的同义词集、近义词集、反义词集合并,构建相应词义的相关词集Wsi;
步骤二、对目标歧义词所在的句子进行依存句法分析,收集包含目标歧义词的形容词修饰及副词修饰依存元组,提取相应的依存共现词wamod和wadvmod;具体为:
步骤2.1:利用依存句法分析工具对目标歧义词所在的句子进行依存句法分析,获取其依存元组集合;
步骤2.2:由步骤2.1所得的依存元组集合,提取包含目标歧义词的形容词修饰及副词修饰依存元组;
步骤2.3:由步骤2.2所得的依存元组,提取歧义词的依存共现实词wamod和wadvmod;
步骤三、对大规模语料进行依存句法分析,收集其中的依存共现词对,构建依存共现词对数据库DB;具体为:
步骤3.1:利用依存句法分析工具对大规模文本语料进行依存句法分析,获取其依存元组集合DSet;
步骤3.2:舍弃DSet中依存元组的依存关系类型信息,统计依存共现词对,构建依存共现词对数据库DB;
步骤四、根据DB,计算目标歧义词的各个词义的依存词汇关联度;具体为:
步骤4.1:对于词义si的相关词集Wsi中的各个相关词wsi,由公式(1),计算其与wamod、wadvmod的依存词汇关联度,即relatedness(wamod,wsi)及relatedness(wsi,wadvmod);
relatedness(w1,w2)=LLR(w1,w2)=2[LogL(p1,a,a+b)+LogL(p2,c,c+d)-LogL(p,a,a+b)-LogL(p,c,c+d)](1)
其中,
;
a=freq(w1,w2)表示支配词是w1,且从属词是w2的依存元组的总数;
b=freq(w1,*)-a表示支配词是w1,但从属词不是w2的依存元组的总数;
c=freq(*,w2)-a表示从属词是w2,但支配词不是w1的依存元组的总数;
d=N-a-b-c表示支配词不是w1并且从属词不是w2的依存元组的总数;
N表示语料库所包含的全部依存元组的总数;
步骤4.2:由公式(2),计算词义si与依存共现词wamod和wadvmod的整体依存词汇关联度;
relatedness(si)=relatedness(wamod,Wsi)+relatedness(Wsi,wadvmod)(2)
其中,
;
;
Wsi表示由步骤一所获得的词义si的相关词集;
步骤五、将整体依存词汇关联度最大的词义判定为正确词义;具体为:
比较由步骤4.2所获得的各个词义的整体依存词汇关联度,将依存词汇关联度最大的词义判定为歧义词的正确词义;
经过以上步骤的操作,即可判定形容词歧义词的词义,完成词义消歧任务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于齐鲁工业大学,未经齐鲁工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610048601.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据建模的方法
- 下一篇:一种格式化Webservice报文的方法