[发明专利]一种基于编辑距离以及词频和词向量的实体关系识别方法有效

专利信息
申请号: 201610349298.6 申请日: 2016-05-24
公开(公告)号: CN106066856B 公开(公告)日: 2019-05-21
发明(设计)人: 段大高;赵宁;韩忠明 申请(专利权)人: 北京工商大学
主分类号: G06F16/953 分类号: G06F16/953;G06F17/27
代理公司: 北京慧泉知识产权代理有限公司 11232 代理人: 王顺荣;李娜
地址: 100048*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种基于编辑距离以及词频和词向量的实体关系识别方法:步骤一:获取文本数据;步骤二:采用分词软件进行分词,对分词后的文本进行每个词个数的统计;步骤三:调整词向量的维数、窗口大小,进行词向量的训练;步骤四:利用训练好的词向量,对词进行聚合;步骤五:对步骤四中获得的实体进行编辑距离的计算,结合步骤一中得到的词频,进而得到给定实体词的别名或简称;基于编辑距离,在步骤四的基础上,计算给定实体词到其它实体的d[i,j]值,结合步骤一获取每个实体词的个数;经加权平均得到G(X),即:获取给定实体词的前n个最可能的简称,通过比重可以看出其关系强度,便可得到给定实体词的别名或简称。
搜索关键词: 一种 基于 编辑 距离 以及 词频 向量 实体 关系 识别 方法
【主权项】:
1.一种基于编辑距离以及词频和词向量的实体关系识别方法,该方法具体步骤如下:步骤一:获取文本数据;步骤二:采用分词软件进行分词,基于分词的基础上,对分词后的文本进行每个词个数的统计,并记录下来;步骤三:采用Google的word2vec模型,调整词向量的维数、窗口大小,进行词向量的训练,窗口大小即在一句话中给定实体词的前后几个词,它是基于词的上下文训练方法;经过word2vec训练后的每个词向量为如下形式:wm(vm1,vm2,vm3,vm4,......,vmn)其中,w表示文本中的词,m表示词的序号,v表示w的词向量,1,2…n:表示词向量的维数,可以根据需要,设置词向量的维数,即设置n的值;步骤四:利用训练好的词向量,对词进行聚合,即获取给定实体词,在词向量上分别计算到其它实体的距离,根据距离,进而得到距离给定实体词关系最近的实体,先获取离给定实体词WE最近的x个实体:实体词WE:WE(vE1,vE2,vE3,vE4,....,vEn)实体词w1:w1(v11,v12,v13,v14,....,v1n)x1=(vE1‑v11),x2=(vE2‑v12),x3=(vE3‑v13),...,xm=(vEn‑v1n)   (1)其中,x1表示词向量在第一维的分量差,dis表示WE与w1在词向量上的距离,依次迭代计算公式(1)与公式(2),获取最近的x个实体,实体词w1:w1(v11,v12,v13,v14,....,v1n)实体词w2:w2(v21,v22,v23,v24,....,v2n)实体词w3:w3(v31,v32,v33,v34,....,v3n)实体词wx:wx(vx1,vx2,vx3,vx4,....,vxn)步骤五:对步骤四中获得的实体进行编辑距离的计算,结合步骤一中得到的词频,进而得到给定实体词的别名或简称,其编辑距离主要公式如下:其中d[i‑1,j]+1代表给定实体词插入一个字符,d[i,j‑1]+1代表给定实体词删除一个词,然后当xi=yj时,不需要代价,所以和上一步d[i‑1,j‑1]代价相同,否则+1,接着d[i,j]是以上三者中最小的一项;基于编辑距离,在步骤四的基础上,计算给定实体词到其它实体的d[i,j]值,结合步骤一获取每个实体词的个数;经加权平均得到G(X),即:获取给定实体词的前n个最可能的简称,通过比重可以看出其关系强度,便可得到给定实体词的别名或简称:G(X)=(sort(f(disx1/x1count),f(disx2/x2count),f(disx3/x3count),......,f(disxn/xncount)));sort:表示排序,从小到大排序;disx1:表示给定实体词变换到实体x1的编辑距离;xmcount:表示实体xm在文中所出现的次数;f(disx1/x1count):表示给定实体词对实体x1的比重,换句话,就是说实体x1,是给定实体词简称的可能性大小,值越小表示可能性越大。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学,未经北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610349298.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top