[发明专利]一种基于词向量表示的条件随机场的命名实体识别方法在审

专利信息
申请号: 201710169446.0 申请日: 2017-03-21
公开(公告)号: CN106980609A 公开(公告)日: 2017-07-25
发明(设计)人: 李丽双;姜宇新;陈曦;冯轶然 申请(专利权)人: 大连理工大学
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 大连理工大学专利中心21200 代理人: 温福雪,侯明远
地址: 116024 辽*** 国省代码: 辽宁;21
权利要求书: 暂无信息 说明书: 暂无信息
摘要: 发明提供了一种基于词向量表示的条件随机场的命名实体识别方法,属于自然语言处理技术领域。本发明包括基于词向量表示的条件随机场算法、利用融入词向量表示的条件随机场算法与采用B/S结构设计的提供图形交互界面的在线命名实体识别系统。使用本发明可以对用户待解析的生物医学文本进行生物医学命名实体进行识别,识别过程发挥了词向量的语义表示的特点,较少的依赖人工特征参与,并解决了条件随机场只对离散的特征表示有效的问题,而且也发挥了条件随机场算法这种判别式无向图模型的优点;本发明为用户提供命名实体交互关系数据检索的服务;另外,本发明还为用户提供了对自动解析结果的修正功能。
搜索关键词: 一种 基于 向量 表示 条件 随机 命名 实体 识别 方法
【主权项】:
一种基于词向量表示的条件随机场的命名实体识别方法,其特征在于,步骤如下:(一)语料的提取与预处理用word2vec工具中的Skip‑gram语言模型将待处理语料中的每一个单词转化为d维的词向量;(二)标记计划给单词分配不同的标签,采用IOBES标记计划对语料进行标记;IOBES标记计划:表一BeginInsideEndSingleOtherBIESO对于由几个单词表示的命名实体:用B对表示该命名实体开始的单词进行标注,用I对表示该命名实体中间的单词进行标注,用E对表示该命名实体结尾的单词进行标注;对于由一个单词表示的命名实体:用S对表示该命名实体的单词进行标注;对于非命名实体:用O对表示非命名实体的单词进行标注;标签的个数为5,用labelnum表示;(三)由词向量到状态特征权重的计算本命名实体识别方法以线性链条件随机场模型为基础,对于语料的处理是以句子为单位进行的;对于任意句子即任意单词序列:L为句子的长度;X={X1,X2,X3,……,Xn},X表示句子即单词序列,Xi表示句子中的第i个单词;Y={Y1,Y2,Y3,……,Yn},Y表示句子对应的标签序列,Yi表示句子中的第i个单词所对应的标签,它的取值为I、O、B、E、S五种,表示句子中的第i个单词所对应的标签为标签j,即Yi=label[j];1.由词向量到特征矩阵Feature Matrix的计算利用窗口法将每个单词与它周围几个单词的词向量拼接起来构建单词的特征向量;窗口法:确定固定窗口的大小为M,以句子为单位,对于每个单词Xi,用Xi‑(M‑1)/2,……,Xi,……,Xi+(M‑1)/2连续M个单词的词向量依次拼接,再在每个单词Xi末尾加上1作为这个单词的特征向量;然而,若在句子开头处和结尾处的一些单词左右两边没有足够相邻的(M‑1)/2个单词,用none的词向量,也就是零向量,作为填补,其与用‘start’和‘stop’标记起到了相同的效果;用窗口法对句子中的每一个单词进行处理,即得到句子对应的特征矩阵Feature Matrix,它的大小为(d×M+1)×L;2.由特征矩阵Feature Matrix到状态特征权重的计算由于采用IOBES标记计划,对任意单词Xi,Yi有五种可能,本步骤将介绍Yi在取值为IOBES的不同的情况下对应的状态特征权重的大小;将大小为labelnum×(d×M+1)的参数矩阵θ与上个步骤得到的特征矩阵Feature Matrix点乘,结果为一个大小为labelnum×L的矩阵μ′,并且对μ′中的每一个数值用Hardtanh函数处理,最终得到大小为labelnum×L的状态特征权重矩阵μ;μ中的第j行、第i列个元素的大小表示句子中的第i个单词Xi的标签Yi为时的状态特征权重大小,用表示;(四)对标签序列Y进行估计,以识别命名实体对标签序列进行估计,找出所有被标记为S的单词以及被标记为B、零个或多个I、E组合的单词串,也就找到了命名实体;对句子所对应的标签序列进行估计,即在已知句子X的情况下,找出标签序列Y*,使得当Y=Y*时,条件概率P(Y|X)达到最大;首先介绍大小为(labelnum+1)×labelnum的状态转移权重矩阵AA:A的前labelnum行分别表示一种标签情况,最后一行表示无标签的情况,A的每一列分别表示一种标签情况,Am,n:即A的第m行第n列个元素,它表示Xi‑1对应的标签且Xi对应的标签时的状态转移权重;为了将句子中的单词位置也体现出来,状态转移权重用符号表示;1.势函数:exp(∑jλjtj(Yi‑1,Yi,X,i)+∑kμksk(Yi,X,i))势函数中符号的定义及解释如下:j:当Xi在句首时,1≤j≤labelnum;当Xi不在句首时,1≤j≤labelnum×labelnum;j是整数,每一个不同的j表示一种特定的由标签p转移到标签q的状态转移情况;k:1≤k≤labelnum,k是整数,每一个不同的k表示一种特定的标签状态q;tj(Yi‑1,Yi,X,i):两个相邻标记位置上的状态转移特征函数,tj(Yi-1,Yi,X,i)=1,ifYi-1=lable[p],Yi=lable[q];0,otherwise;]]>sk(Yi,X,i):序列位置i上的状态特征函数,sk(Yi,X,i)=1,ifYi=lable[q];0,otherwise;]]>λj:状态转移特征权重函数,对与某个特定的j,它表示的标签状态转移情况为Yi‑1=lable[p],Yi=lable[q],则μk:状态特征权重函数,对于某个特定的k,它表示的标签状态情况为Yi=lable[q],则∑jλjtj(Yi‑1,Yi,X,i)的计算结果:在给定句子序列X与对应的给定标签序列Y的情况下,位置i上的单词与它前面的单词的状态转移特征权重λ(Yi‑1,Yi,Xi),即状态转移权重矩阵A中的∑kμksk(Yi,X,i)的计算结果:在给定句子序列X与对应的给定标签序列Y的情况下,位置i上的单词的状态特征权重μ(Yi,Xi);对于每个单词,词级别的势函数exp(∑jλjtj(Yi‑1,Yi,X,i)+∑kμksk(Yi,X,i))是在计算单词的状态转移特征权重与状态特征权重之和,简单地表示为2.条件概率P(Y|X)由于tj(Yi‑1,Yi,X,i)与sk(Yi,X,i)都是特征函数,令它们均为fj(Yi‑1,Yi,X,i),同时令λj和μk均为λj,则∑jλjtj(Yi‑1,Yi,X,i)+∑kμksk(Yi,X,i)表示为∑jλjfj(Yi‑1,Yi,X,i);条件随机场算法是通过条件概率表示句子序列X对应特定标签序列Y的可能性;P(Y|X)=1Z(x)exp(Σi=1n(Σjλjtj(Yi-1,Yi,X,i)+Σkμksk(Yi,X,i)))=1Z(x)exp(Σi=1nΣjλjtj(Yi-1,Yi,X,i))]]>其中,是句子级别的势函数,句子级别的势函数就是句子中每一单词的词级别的势函数之和,简单地表示为为归一化因子,它是句子对应的所有可能的标签序列Y的句子级别的势函数之和;3.对标签序列Y进行估计,以识别命名实体对于某个特定的句子序列,Z(X)是一个常数,所以找到使句子级势函数最大的标签序列Y*即可;Y*=argmaxYP(Y|X)=argmaxY1Z(x)exp(Σi=1nΣjλjfj(Yi-1,Yi,X,i))=argmaxYΣi=1nΣjλjfj(Yi-1,Yi,X,i)]]>(五)参数训练将参数状态转移权重矩阵A和参数矩阵θ都称为P(Y|X)即表示为在训练集中,每一个句子序列X都有正确的标签序列Y与之对应,将正确的标签序列Y称为Y′;本命名实体识别方法使用随机梯度下降法调整参数使得对于训练集中每一个X,当Y=Y′时,对应的对数似然函数值达到最大;1.对应对数似然函数:logP(Y|X,θ~)=log(1Z(x)exp(Σi=1nΣjλjfj(Yi-1,Yi,X,i))=Σi=1nΣjλjfj(Yi-1,Yi,X,i)-log(Z(X))=Σi=1nΣjλjfj(Yi-1,Yi,X,i)-log(ΣYexp(Σi=1nΣjλjfj(Yi-1,Yi,X,i)))]]>在利用随机梯度下降调参时,涉及到的计算,尽管是常数,但仍需计算,为了方便符号表示,定义logadd操作:因此,logP(Y|X,θ~)=Σi=1nΣjλjfj(Yi-1,Yi,X,i)-logaddYΣi=1nΣjλjfj(Yi-1,Yi,X,i))]]>令k,m表示任意标签tag,t表示序列的位置,定义下面的公式以方便计算:δt(k)=logadd(Y∩Yt=k)Σi=1t(Σjλjfj(Yi-1,Yi,X,i))=logadd(Y∩Yt=k)Σi=1t(AYi-1,Yi+μ(Yi,Xi))=logaddmlogadd(Y∩Yt=k∩Yt-1=m)Σi=1t(AYi-1,Yi+μ(Yi,Xi))=logaddmlogadd(Y∩Yt=k∩Yt-1=m)(Σi=1t-1(AYi-1,Yi+μ(Yi,Xi))+Am,k+μ(k,Xt))=μ(k,Xt)+logaddmlogadd(Y∩Yt=k∩Yt-1=m)(Σi=1t-1(AYi-1,Yi+μ(Yi,Xi))+Am,k)=μ(k,Xt)+logaddm(δt-1(k)+Am,k),∀k,m]]>因此,由递归计算即得出结果;2.利用随机梯度下降法调整参数本命名实体识别方法采用的随机梯度法,是一种迭代算法;通过随机地选择一个示例(X,Y),更新参数的值,使得目标函数的最大化,不断迭代,直到收敛;梯度更新的迭代式为:θ~←θ~+λ∂logP(y|x,θ~)∂θ~]]>其中λ是选择的学习率,是搜索方向;因此,通过微分链式法则计算导数,从而求得使目标函数最大化时的参数
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710169446.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top