[发明专利]基于Wikipedia链接结构的英文概念向量生成方法和装置有效

申请号：	201711407859.4	申请日：	2017-12-22
公开（公告）号：	CN108132928B	公开（公告）日：	2021-10-15
发明（设计）人：	薛若娟	申请（专利权）人：	山东师范大学
主分类号：	G06F40/30	分类号：	G06F40/30;G06F40/216;G06K9/62;G06N3/08
代理公司：	济南圣达知识产权代理有限公司 37221	代理人：	张勇
地址：	250014 山***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 wikipedia 链接结构英文概念向量生成方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于Wikipedia链接结构的英文概念向量生成方法和装置，该方法包括：根据英文Wikipedia页面中的标题概念和/或链接概念构建链接信息库；针对链接信息库中样本是否存在链接概念分别构建训练正例和训练负例，选择一定数量训练正例和训练负例建立训练数据集；建立概念向量模型，模型包括输入层、嵌入层、概念向量运算层和输出层；采用训练数据集训练概念向量模型，并由概念向量模型中提取概念向量。

技术领域

本发明属于自然语言处理的技术领域，尤其是涉及一种基于Wikipedia链接结构的英文概念向量生成方法和装置。

背景技术

Wikipedia，维基百科，是当前规模最大的百科全书，其不仅是一个规模巨大的语料库，而且还是一个包含了大量人类背景知识和语义关系的知识库，是进行自然语言处理的理想资源。

词语概念的语义表示是自然语言处理领域的一个基础问题。传统的方法可分为基于共现计数(count-based)的方法和基于预测(prediction-based)的方法。前者，首先统计词语概念的共现计数，通过对共现矩阵的分解而学习词语的概念向量；后者，通过预测给定上下文环境中的共现词而学习词语的概念向量。这两种方法实质上均通过挖掘利用语料库中蕴含的词语共现信息而学习词语概念的向量表示。当前流行的word2vec词向量方法属于后者。

自然语言文本中，普遍存在一词多义的问题。然而，现有的词向量方法，通常只能从词形上对词语进行区分，而不能从本质上区分词语所对应的词义概念。对于一个词语，只能学习到一个统一的向量表示；而这个词语，可能会对应多个词义概念；显然，现在方法无法准确区分这些词义概念。

综上所述，现有技术的词向量方法无法从本质上区分词义概念的问题，尚缺乏行之有效的解决方案。

发明内容

针对现有技术中存在的不足，解决现有技术的词向量方法无法从本质上区分词义概念的问题，本发明提出了一种基于Wikipedia链接结构的英文概念向量生成方法和装置，解决了Wikipedia的链接信息库的构建问题、提出了概念向量训练数据集的构建方法、并设计了概念向量的训练模型及训练方法、概念向量矩阵的返回方法。

本发明的第一目的是提供一种基于Wikipedia链接结构的英文概念向量生成方法。

为了实现上述目的，本发明采用如下一种技术方案：

一种基于Wikipedia链接结构的英文概念向量生成方法，该方法包括：

根据英文Wikipedia页面中的标题概念和/或链接概念构建链接信息库；

针对链接信息库中样本是否存在链接概念分别构建训练正例和训练负例，选择一定数量训练正例和训练负例建立训练数据集；

建立概念向量模型，模型包括输入层、嵌入层、概念向量运算层和输出层；

采用训练数据集训练概念向量模型，并由概念向量模型中提取概念向量。

作为进一步的优选方案，该方法还包括根据英文Wikipedia页面中的正文描述和类别链接信息结合标题概念和/或链接概念构建链接信息库。

作为进一步的优选方案，所述构建链接信息库的具体方法为：

预处理原始英文Wikipedia页面，得到处理后的有效文本数据；

统计处理后的有效文本数据中的标题概念、链接概念和类别链接的出现频次，得到当前页面的标题概念、链接概念和类别链接的频次信息；

根据所有页面中的标题概念及其相应的链接概念和类别链接的频次信息构建链接信息库；