[发明专利]一种命名实体识别方法、装置、存储介质及终端设备有效
申请号: | 201910450114.9 | 申请日: | 2019-05-27 |
公开(公告)号: | CN110287480B | 公开(公告)日: | 2023-01-24 |
发明(设计)人: | 徐波 | 申请(专利权)人: | 广州多益网络股份有限公司;广东利为网络科技有限公司;多益网络有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/279 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 麦小婵;郝传鑫 |
地址: | 510000 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 命名 实体 识别 方法 装置 存储 介质 终端设备 | ||
本发明公开了一种命名实体识别方法,包括:获取未标注语料;根据所述未标注语料对预设的语言模型进行训练;对所述未标注语料进行标注,获得标注语料;根据所述标注语料对预设的命名实体识别模型进行训练;其中,所述命名实体识别模型根据训练后的语言模型构建获得;根据训练后的命名实体识别模型对待识别文本中的命名实体进行识别。相应的,本发明还公开了一种命名实体识别装置、计算机可读存储介质及终端设备。采用本发明的技术方案能够充分利用未标注语料训练语言模型,增强语言模型的上下文理解能力,从而降低训练成本,提高识别效果。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种命名实体识别方法、装置、计算机可读存储介质及终端设备。
背景技术
自然语言处理(Natural Language Processing,NLP)是计算机科学、人工智能、语言学所关注的计算机和人类语言之间相互作用的领域,是计算机科学领域与人工智能领域中的一个重要方向。作为NLP中的一项基本任务,命名实体识别(Named EntityRecognition,NER)是指从文本中识别出具有特定类别的实体,例如人名、地名、机构名、专有名词等的技术,在所有涉及NLP的人工智能研究中,命名实体识别都是一个必须攻克的任务,命名实体的识别效果,对后续的一系列人工智能技术都有重要的影响。
现有技术一般通过构建命名实体识别模型,并根据训练后的命名实体识别模型对文本中的命名实体进行识别,在训练命名实体识别模型时,需要大量的标注语料,由于标注语料获取困难,通常做法是针对特定领域收集未标注语料,人工进行标注,但是,人工标注需要耗费大量的时间和精力,能够获得的标注语料较少,导致训练成本加高,并且根据少量的标注语料训练获得的命名实体识别模型的识别效果较差。
发明内容
本发明实施例所要解决的技术问题在于,提供一种命名实体识别方法、装置、计算机可读存储介质及终端设备,能够充分利用未标注语料训练语言模型,增强语言模型的上下文理解能力,从而降低训练成本,提高识别效果。
为了解决上述技术问题,本发明实施例提供了一种命名实体识别方法,包括:
获取未标注语料;
根据所述未标注语料对预设的语言模型进行训练;
对所述未标注语料进行标注,获得标注语料;
根据所述标注语料对预设的命名实体识别模型进行训练;其中,所述命名实体识别模型根据训练后的语言模型构建获得;所述语言模型包括Word Embedding层、Bi-LSTM层和Softmax层,所述命名实体识别模型包括Word Embedding层、Bi-LSTM层、Softmax层和CRF层;所述命名实体识别模型中的Word Embedding层和Bi-LSTM层为所述语言模型中的经过训练的Word Embedding层和Bi-LSTM层;
根据训练后的命名实体识别模型对待识别文本中的命名实体进行识别。
进一步地,所述获取未标注语料,具体包括:
收集文本语料;
对所述文本语料进行预处理,获得所述未标注语料;其中,所述预处理包括语料去重、繁体转简体、全角符号转半角符号和去除噪音字符。
进一步地,所述根据所述未标注语料对预设的语言模型进行训练,具体包括:
基于所述Word Embedding层,根据所述未标注语料获得词向量;
基于所述Bi-LSTM层,根据所述词向量获得第一输出结果;
基于所述Softmax层,根据所述第一输出结果相应获得预测概率;
根据所述预测概率和预设的第一损失函数计算第一损失值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州多益网络股份有限公司;广东利为网络科技有限公司;多益网络有限公司,未经广州多益网络股份有限公司;广东利为网络科技有限公司;多益网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910450114.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:命名实体识别方法、电子装置及存储介质
- 下一篇:命名实体语料标注训练系统