[发明专利]一种基于Wikipedia概念向量的英文词语相关度计算方法和装置有效
申请号: | 201710708577.1 | 申请日: | 2017-08-17 |
公开(公告)号: | CN107436955B | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | 鹿文鹏;张玉腾 | 申请(专利权)人: | 齐鲁工业大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/216;G06F40/284;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 250353 山东省济南*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 wikipedia 概念 向量 英文 词语 相关 计算方法 装置 | ||
本发明公开了一种基于Wikipedia概念向量的英文词语相关度计算方法和装置。方法包括:1.由Wikipedia Dump服务站点获取生语料,进行规范化处理,生成Wikipedia基础语料库;2.进行概念标注扩充,构建Wikipedia概念语料库;3.根据Wikipedia概念语料库,训练概念向量;4.对于待比较词语对,根据Wikipedia,获得其词语概念集合;5.计算概念集合的笛卡尔积中的每个概念对所对应的概念向量的相似度,取最大值作为待比较词语对的相关度。利用本发明,可以充分挖掘Wikipedia蕴含的词语概念信息,生成词语概念向量,更准确有效地计算词语相关度。
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于Wikipedia概念向量的英文词语相关度计算方法和装置。
背景技术
词语相关度是指两个词语之间的语义关联程度,其在自然语言处理领域有着广泛的应用,对信息检索、语义理解、词义消歧、文本聚类的效果具有直接影响。现有的词语相关度计算方法可分为两类:一类是基于知识库的方法,通常利用WordNet等语义本体知识库,分析词语的释义的重叠词数量或者词语在本体概念树中的路径长度、概念密度等,来评判词语的相关程度;另一类是基于统计的方法,根据词语在语料库中一定窗口内的共现频次,将词语表示成词语向量,利用词语向量的相似度来评判词语的相关程度。基于知识库的方法的效果依赖于知识库的规模和质量,而知识库的构建需要大量的人工劳动;而且随着社会发展,新词层出不穷,知识库难以全面覆盖,这制约了基于知识库方法的效果和应用范围。基于统计的方法主要依据语料库的共现关系,而对于缺乏对其它关系的考虑;而且,构建的词语向量往往十分稀疏,这导致其计算精度并不理想。
随着深度学习技术的发展,词向量(word embeddings)技术被提出,并被广泛应用于词语相关度计算。但是,现有的词向量技术往往以词语为基本对象,而忽略了词语所对应的词义概念。同一个词语可能会有多种概念,对应多种词义。现有的词向量技术以词语为基本对象,对每个词语只会生成一个词向量。这导致词向量会融合一个词语的所有概念信息,而无法准确区分每个不同的概念。如果能够为每个概念单独生成相应的概念向量(conceptembeddings),将有利于精确描述词语的词义概念,推动相关应用的发展。
训练概念向量的前提是有充足的概念标注语料。如何快速有效地构建概念标注语料是一个重要问题。一旦获得了词义概念向量,对于待比较相关度的词语对,只需找到词语所对应的概念集合,便可以将词语相关度的计算转化为概念向量的相似度计算。如何确定词语的概念集合也是一个重要问题。
Wikipedia为解决上述问题奠定了基础。Wikipedia是世界上规模最大的在线百科知识库,蕴含了丰富的语义知识,数据范围广,更新速度快,且具有良好的结构化信息。Wikipedia已成为自然语言领域的一个重要知识来源。
面对词语相关度计算所存在的以上技术问题,本发明专利针对英文Wikipedia的特点,充分挖掘其中蕴含的概念信息,实现一种基于Wikipedia概念向量的英文词语相关度计算方法和装置,力求能够在一定程度上推动这些问题的解决。
发明内容
为解决现有技术存在的不足,本发明公开了一种基于Wikipedia概念向量的英文词语相关度计算方法和装置,以更准确地计算英文词语相关度。
为此,本发明提供如下技术方案:
一种基于Wikipedia概念向量的英文词语相关度计算方法,包括以下步骤:
步骤一、由Wikipedia Dump服务站点获取其Dump生语料;并对生语料进行规范化处理,仅保留namespace属性为0的Wikipedia概念文档;对于每个概念文档,只保留其正式文本及概念标注信息;将处理后的概念文档收集起来,作为Wikipedia基础语料库;
步骤二、对Wikipedia基础语料库进行概念标注扩充,构建Wikipedia概念语料库;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于齐鲁工业大学,未经齐鲁工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710708577.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种急救复方丹参含片及其制备工艺
- 下一篇:一种复方丹参片及其制备工艺