[发明专利]基于自注意力机制的中文命名实体识别方法、系统、装置有效
申请号: | 201811621018.8 | 申请日: | 2018-12-28 |
公开(公告)号: | CN109783812B | 公开(公告)日: | 2020-08-11 |
发明(设计)人: | 陈玉博;刘康;赵军;曹鹏飞 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/289 |
代理公司: | 北京市恒有知识产权代理事务所(普通合伙) 11576 | 代理人: | 郭文浩;黎慧华 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 机制 中文 命名 实体 识别 方法 系统 装置 | ||
1.一种基于自注意力机制的中文命名实体识别方法,其特征在于,包括:
步骤S10,提取待识别语句的私有特征h1,提取该待识别语句的中文命名实体识别数据和中文分词数据的共有特征s1;
步骤S20,基于自注意力机制分别计算s1之间的长距离依赖关系,以及h1之间的长距离依赖关系,获取基于依赖关系的私有特征h′1、基于依赖关系的共有特征s′1;其中,计算长距离依赖关系的方法为:
其中,z′k表示基于依赖关系的共有特征或私有特征,headi表示第i个自注意力的输出,表示拼接操作,Attention()表示自注意力机制,和Wo表示在提取s′1或h′1时网络的参数矩阵,Q、K和V分别表示为s′1或h′1中的查询矩阵、键矩阵、值矩阵,d表示在提取s′1或h′1时网络的输出维度,T表示转置;
步骤S30,基于s′1,通过预先构建的任务分类器判断所述待识别语句是否为中文命名实体识别数据,若是则执行步骤S40;
步骤S40,将h′1与s′1进行拼接,获取融合后的中文命名实体识别数据特征h″1;采用条件随机场对h″1进行标签预测,输出所述待识别语句的中文命名实体识别结果;
所述中文命名实体识别结果基于训练后的对抗迁移学习模型获取;所述对抗迁移学习模型包括特征提取网络、依赖关系计算网络、任务分类器;所述特征提取网络基于双向长短期记忆网络构建;所述依赖关系计算网络基于自注意力机制构建。
2.根据权利要求1所述的基于自注意力机制的中文命名实体识别方法,其特征在于,
所述特征提取网络包括第一特征提取网络、第二特征提取网络、第三特征提取网络;所述第一特征提取网络用于提取中文命名实体识别数据和中文分词数据的共有特征;所述第二特征提取网络用于提取中文命名实体识别数据特征;所述第三特征提取网络用于提取中文分词数据特征;
所述依赖关系计算网络包括第一依赖关系计算网络、第二依赖关系计算网络、第三依赖关系计算网络;所述第一依赖关系计算网络用于计算所述第一特征提取网络输出共有特征的依赖关系;所述第二依赖关系计算网络用于计算所述第二特征提取网络输出私有特征的依赖关系;所述第三依赖关系计算网络用于计算所述第三特征提取网络输出私有特征的依赖关系;
所述任务分类器基于第一依赖关系计算网络的输出判断输入样本语句的类别;所述输入样本语句的类别包括中文命名实体识别数据、中文分词数据。
3.根据权利要求2所述的基于自注意力机制的中文命名实体识别方法,其特征在于,所述对抗迁移学习模型的训练样本包括语句样本、语句种类标签。
4.根据权利要求3所述的基于自注意力机制的中文命名实体识别方法,其特征在于,所述对抗迁移学习模型的训练所用目标函数L为:
L=LNER·I(x)+LCWS·(1-I(x))+λLAdυ
其中,LNER和LCWS分别代表中文命名实体识别的损失函数和中文分词的损失函数;LAdv为任务分类器产生的损失,λ为调节系数,用于调节任务分类器产生的损失的权重;I(x)为指示函数,x为某个待预测标签的语句;DNER和DCWS分别代表中文命名实体识别的数据集和中文分词的数据集。
5.根据权利要求1-4任一项所述的基于自注意力机制的中文命名实体识别方法,其特征在于,所述特征提取网络基于双向长短期记忆网络构建。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811621018.8/1.html,转载请声明来源钻瓜专利网。