[发明专利]一种多神经网络协作的军事领域命名实体识别方法在审
申请号: | 202010315730.6 | 申请日: | 2020-04-21 |
公开(公告)号: | CN111680511A | 公开(公告)日: | 2020-09-18 |
发明(设计)人: | 尹学振;赵慧;陈沁蕙;李欣妍 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/33;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 上海德禾翰通律师事务所 31319 | 代理人: | 陈艳娟 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 神经网络 协作 军事 领域 命名 实体 识别 方法 | ||
本发明提出了一种多神经网络协作的军事领域命名实体识别方法,包括以下步骤:步骤A:获取公开的微博数据,形成原始数据集;步骤B:结合领域知识,提出考虑实体模糊边界的军事领域实体标注策略,制定军事领域命名实体分类标准;步骤C:针对原始数据集进行文本预处理,结合步骤B实体标注策略及实体分类标准构建军事语料集MilitaryCorpus;步骤D:利用深度学习和统计学习的框架,训练了基于BERT‑BiLSTM‑CRF网络结构的多神经网络协作军事领域命名实体识别模型,以进行针对微博为代表的中文社交文本的军事领域命名实体识别任务。
技术领域
本发明属于军事技术领域,涉及一种多神经网络协作的命名实体识别方法,特别针对军事领域实体的命名实体识别方法。
背景技术
命名实体识别是进行智能问答、知识图谱等自然语言处理研究的基础工作,一直受到研究者的关注。早期的命名实体识别研究大多采用基于规则和基于字典的方法,依赖于大量手工设定的识别规则,很难对语料全面覆盖,并且规则的制定往往依赖于数据集,当数据集发生变化即需要更新规则。基于统计学习的实体识别方法避免了大量规则的制定,其将命名实体识别问题转化为序列化标注问题,但是,基于统计学习的命名实体识别方法依赖于预先定义的特征,特征工程不仅代价高而且与特定领域相关,导致领域知识提高了模型的识别有效性的同时牺牲了模型的泛化能力和迁移能力。
计算能力的提升以及词的分布式表示技术的支持,使得基于深度神经网络的命名实体识别任务不再依赖特征工程,并取得了显著的研究进展。目前已有研究证明在中文命名实体识别中应用字向量表征的识别准确度要优于应用词向量表征的方式;已有研究者使用卷积神经网络、BiLSTM、CRF等进行模型网络结构的设计,并在生物医药等专有领域的实体识别中取得较好的识别效果;针对军事领域,有研究者针对作战文书、想定文书等规范的文本进行实体识别工作,取得了积极、客观的研究成果。然而,电子病历、军事文本、作战文书等规范化文本中实体分布相对密集、具有一定的规律且实体边界较为清晰,而微博、Tweets等社交媒体数据中实体分布稀疏,实体表达不规范,实体边界常常不清晰,因而如何面向微博等含有模糊边界实体的社交媒体数据进行军事领域的命名实体识别成为一个新的研究问题。
发明内容
本发明的目的在于提供一种军事领域的命名实体识别方法,其包括:提出针对实体模糊边界的实体标注机制解决实体识别任务中实体边界难以界定以及实体简化表达的问题;利用多神经网络协作的基于Transformer的双向编码器(BERT)并结合双向长短时记忆神经网络(BiLSTM)和条件随机场(CRF)的军事领域命名实体识别模型(BERT-BiLSTM-CRF)解决基于单CRF模型需要依赖大量人工特征选取工作,基于LSTM模型需要依靠庞大的语料库构建词向量的问题,提升了实体识别效果。
本发明提出的多神经网络协作的军事领域命名实体识别方法,包含以下步骤:
步骤A:获取公开的微博文本数据,形成原始数据集;
步骤B:结合领域知识,提出考虑实体模糊边界的军事领域实体标注策略,制定军事领域命名实体分类标准;
步骤C:针对所述原始数据集进行文本预处理,结合步骤B中实体标注策略及实体分类标准构建军事语料集MilitaryCorpus;
步骤D:利用深度学习和统计学习的框架,训练基于BERT-BiLSTM-CRF网络结构的多神经网络协作军事领域命名实体识别模型,以进行针对文本数据的军事领域命名实体识别任务。
本发明中,步骤B包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010315730.6/2.html,转载请声明来源钻瓜专利网。