[发明专利]一种基于Wikipedia概念向量的英文词语相关度计算方法和装置有效

申请号：	201710708577.1	申请日：	2017-08-17
公开（公告）号：	CN107436955B	公开（公告）日：	2022-02-25
发明（设计）人：	鹿文鹏;张玉腾	申请（专利权）人：	齐鲁工业大学
主分类号：	G06F16/33	分类号：	G06F16/33;G06F40/216;G06F40/284;G06K9/62
代理公司：	暂无信息	代理人：	暂无信息
地址：	250353 山东省济南***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 wikipedia 概念向量英文词语相关计算方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于Wikipedia概念向量的英文词语相关度计算方法，在特征在于，该方法包括以下步骤：

步骤一、由Wikipedia Dump服务站点获取其Dump生语料；并对生语料进行规范化处理，仅保留namespace属性为0的Wikipedia概念文档；对于每个概念文档，只保留其正式文本及概念标注信息；将处理后的概念文档收集起来，作为Wikipedia基础语料库；具体为：

步骤1-1)访问Wikipedia Dump服务站点，下载最新的enwiki数据库；

步骤1-2)根据enwiki数据库依次处理＜page＞节点，提取ns的值为0的＜page＞节点，提取该节点中的title、redirect、id和text的内容，同时对text做如下处理：删除用户编辑记录和外部链接，替换特殊字符，保留概念标注信息，利用＜h#n＞标记段落标题；其中，#n＝{1，2，3...n}，代表文档标题的层级，从1到n表示由高到低；

步骤二、对Wikipedia基础语料库进行概念标注扩充，构建Wikipedia概念语料库；具体为：

步骤2-1)对Wikipedia基础语料库进行词形还原，具体为：

将文档中的单词记作token_i，token_i的原形记作lemma_i，token_i的词性记作pos_i；进行词形还原后，原文：token₁，token₂，...，token_n，变为：token₁/pos₁/lemma₁ token₂/pos₂/lemma₂…token_n/pos_n/lemma_n；后面的步骤中涉及词语查找的操作均使用词的原形进行查找；

步骤2-2)根据one sense per discourse假设，对基础语料库中的每篇文档进行概念标记扩充，具体为：

将基础语料库中的某一篇文档记作doc_l，其标题记作title_l，标识记作id_l；该篇文档中的某一概念标记的热点文本记作link_l，k，目标概念记作target_l，k；doc_l中未加概念标记的词语记作w_l，i；lemma(w)表示取词语w的原形；

步骤2-2-1)在doc_l中，收集＜h#n＞...＜/h#n＞(#n＝1，2，...，n)标签中的词语，作为doc_l的子标题集合，记作遍历中的元素，若lemma(head_l，i)＝lemma(title_l)，则将原文中head_l，i左右加上三个中括号的概念标记，变为：[[[head_l，i]]]；

步骤2-2-2)在doc_l中，收集所有概念标记信息，构建概念标记集合，记作按照每个元素中link所包含的单词个数降序排列；

步骤2-2-3)遍历若在doc_l中存在lemma(w_l，j)＝lemma(link_l，i)，则将w_l，j左右添加三个中括号的概念标记，变为：[[[w_l，j]]]；

步骤2-3)根据最大频率词义算法，对步骤2-2)处理过的基础语料库做进一步的概念标记扩充，具体为：

收集经过步骤2-2)扩充概念的基础语料库中的概念标记信息元组，构建概念标记集合，记作：概念标记信息元组包含热点文本(link_i)、目标概念集合(T_i)、热点文本的数量与热点文本一致但未加概念标记的词语的数量统计每个概念标记的目标概念和及其数量得到目标概念元组集合，记作：T_i＝{(target_i，1，num_i，1)，(target_i，2，num_i，2)，...，(target_i，n，num_i，n)}；语料库中未加概念标记的词语记作w_k；

步骤2-3-1)遍历LS，按照公式(1)计算词语的概念标注概率P_l(link_i)；保留结果大于50％的link_i生成高频概念标注集合，记为LS_H；

步骤2-3-2)遍历LS_H，依次对link_i中T_i的每个元素按照公式(2)计算目标概念的标注概率P_t(target_i，j)；保留标注概率大于90％的目标概念(target)，生成高频目标概念集合，记为LS_HC＝{(link_i，target_i，j)，...}，将集合的各个元素按照link_i中含有的单词数降序排列；

步骤2-3-3)遍历LS_HC，若存在lemma(w_k)＝lemma(link_i)，则将w_k左右添加五个中括号的概念标记，变为：[[[[[w_k]]]]]；

步骤三、根据Wikipedia概念语料库，训练概念向量；

步骤四、对于待比较词语对，根据Wikipedia查询由用户指定的不同层次的概念集合，获得其词语概念集合；

步骤五、取得待比较词语对的概念集合的笛卡尔积，计算其中每个概念对所对应的概念向量的相似度；取最大的概念向量的相似度作为待比较词语对的相关度。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于齐鲁工业大学，未经齐鲁工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710708577.1/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于Wikipedia概念向量的英文词语相关度计算方法和装置有效

专利文献下载