[发明专利]融合部首向量的分词和胶囊网络法律命名实体识别方法有效

专利信息
申请号: 202110647232.6 申请日: 2021-06-10
公开(公告)号: CN113312918B 公开(公告)日: 2022-05-17
发明(设计)人: 王星;蹇木伟;陈吉;于丽美 申请(专利权)人: 临沂大学;山东财经大学
主分类号: G06F40/295 分类号: G06F40/295;G06F16/33;G06K9/62;G06N3/04
代理公司: 济南泉城专利商标事务所 37218 代理人: 张贵宾
地址: 276000 山东*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 融合 部首 向量 分词 胶囊 网络 法律 命名 实体 识别 方法
【权利要求书】:

1.一种融合部首向量的分词和胶囊网络法律命名实体识别方法,其特征在于, 具体包括以下步骤:

S1:分词;利用字根向量R与ALBERT的位置向量、段向量、词向量融合,通过卷积神经网络序列标注得到法律数据集语料分词结果,构建法律数据集;具体包括以下步骤:

S1-1:特征表示;在ALBERT训练词向量的过程中,模型将文本数据处理成词向量、位置向量和段向量相加的模式,R-ALBERT分词模型中,还加入字符的偏旁部首向量R,汉字的偏旁部首承载着一个汉字的形体特征和引申词义,与其他向量融合能够丰富词向量的表征内容;

S1-2:特征提取;特征提取阶段使用卷积神经网络提取文本局部特征,获得相邻词语互相之间的关联信息;计算过程如公式(1),

(1)

其中表示卷积之后的文本特征,为卷积核,表示文本序列,bt为偏置;

S1-3:标签推理;将提取到的特征线性变换后,通过SoftMax计算每一个标签对于字符的概率,取最大概率标签标记字符,实现分词;字符标签包括{B,M,E,S},其中B表示一个词的开始字符,M表示词的中间字符,E表示结尾字符,S表示单字成词;标签推理过程如公式(2)~(4),

(2)

(3)

(4)

其中,表示文本特征线性变换后的结果,之后作为条件概率的输入得到条件概率,条件概率中X为文本序列,y为标签序列;T表示文本序列中的字符个数;最后通过公式(4)得到最大标签概率;

S2:根据语料分词结果,对语料进行四词位标注;

S3:提取句子间特征;将分词后的训练语料利用BERT语言模型得到句子向量和BERT词向量,通过胶囊网络对句子向量表示的文本数据进行计算,提取句子间特征E;

S4:提取句子内部特征H;将BERT的词向量表示的文本向量通过BILSTM神经网络提取句子内部特征H;

S5:将语料句子内部特征和句子间特征联合表示得到文本特征;通过得到的文本特征进行序列标注得到实体识别结果,具体包括以下步骤:通过胶囊网络和BILSTM网络特征提取后会得到句子间特征E和句子内部特征H,将两种层级的特征通过拼接得到特征提取层的最终文本特征,通过SoftMax对序列进行计算,得到实体识别中每一个字符对应的标签概率,选取概率最大的标签作为字符最终的标签,得到实体识别结果,计算过程如公式(12)~(13):

(12)

(13)

其中X表示融合句子间特征和句子内部特征的特征序列,w为线性变换参数,最后通过argmax得到最大概率的标签序列Y,完成实体识别。

2.根据权利要求1所述的一种融合部首向量的分词和胶囊网络法律命名实体识别方法,其特征在于,所述步骤S2中,还包括检查利用R-ALBERT分词模型分词之后的语料,将错误部分进行纠正,对专有名词进行重新标注。

3.根据权利要求1所述的一种融合部首向量的分词和胶囊网络法律命名实体识别方法,其特征在于,所述步骤S3中,具体包括以下步骤:

S3-1:将训练语料通过BERT得到句向量,将句向量作为胶囊网络的输入,利用能够提取空间特征的胶囊网络来提取文本的句子间特征;

S3-2:在胶囊网络中,首先经过卷积层对文本特征计算得到初级胶囊层中的胶囊;然后对文本进行n次卷积操作,将n次卷积提取到的特征组合,得到初级胶囊层中的特征;再对胶囊进行卷积得到胶囊卷积层中更深层次的特征,初级胶囊层和胶囊卷积层之间通过动态路由的方式进行迭代优化,动态路由计算过程如公式(5)~(8),

(5)

(6)

(7)

(8)

卷积胶囊层得到的特征为,通过权重共享矩阵变换后得到投票向量表示第i个胶囊与第j个实体的对应关系,然后经过SoftMax函数为每个投票向量分配一个权重系数,从而计算对应于每个命名实体类别j的的加权和;最后通过非线性挤压函数作为激活函数得到对实体的向量,以用于下一次迭代。

4.根据权利要求1所述的一种融合部首向量的分词和胶囊网络法律命名实体识别方法,其特征在于,所述步骤S4中,具体包括以下步骤:利用BILSTM网络对BERT词向量表示的文本进行特征提取,以得到文本句子内部的上下文特征;BILSTM计算过程如公式(9)~(11),

(9)

(10)

(11)

其中和分别表示正向LSTM和反向LSTM提取的特征,H为隐藏层计算,公式(9)、(10)中的、表示正向和反向输入数据的权重参数,表示上一时刻正向和反向的隐藏层输出的权重参数,、表示正向LSTM层和反向LSTM层的偏置,由公式(9)(10)得到正向和反向文本特征之后,通过公式(11)的concat拼接得到最终特征向量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于临沂大学;山东财经大学,未经临沂大学;山东财经大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110647232.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top