[发明专利]一种命名实体识别方法、装置及电子设备有效
申请号: | 201810660597.0 | 申请日: | 2018-06-25 |
公开(公告)号: | CN109101481B | 公开(公告)日: | 2022-07-22 |
发明(设计)人: | 赵知纬 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06K9/62 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 丁芸;项京 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 命名 实体 识别 方法 装置 电子设备 | ||
本发明实施例提供了一种命名实体识别方法、装置及电子设备,其中,该方法包括:对待识别文本进行分词,得到多个待识别词;在至少两个预设向量库中查询多个待识别词中每个待识别词对应的至少两个待识别词向量,并将多个待识别词中每个待识别词对应的至少两个待识别词向量输入训练得到的注意力模型中,输出每个待识别词的合成词向量,将每个待识别词的合成词向量输入训练得到的神经网络命名实体识别模型中,输出待识别文本对应的实体类别标签序列,其中,每个待识别词在至少两个预设向量库中的词向量不同,至少两个预设向量库包括通用领域向量库和特定领域向量库;从而可以提高识别特定领域的命名实体的准确度。
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种命名实体识别方法、装置及电子设备。
背景技术
近年来,随着神经网络的再次兴起,许多自然语言处理任务都通过神经网络技术而达到了更好的处理效果,命名实体识别作为自然语言处理中非常重要的基础性任务,通过与神经网络技术相结合,使得识别命名实体的效果大大增加。
目前,基于神经网络的命名实体识别的方法,主要有:基于循环神经网络的命名实体识别方法、基于卷积神经网络的命名实体识别方法、基于条件随机场的命名实体识别方法、基于循环神经网络和条件随机场的命名实体识别方法,以及基于卷积神经网络和条件随机场的命名实体识别方法。
然而,发明人在实现本发明的过程中发现,现有技术至少存在如下问题:
同一个词在特定的领域可能代表不同的含义,例如,“仙剑奇侠传”这一词,在游戏领域,该词表示游戏名,在影视领域,该词表示电视名。而现有技术中的命名实体识别方法并未针对这一情况进行优化处理,因此,在将现有技术中的基于神经网络的命名实体识别方法应用于特定领域时,命名实体识别的准确度不高。
发明内容
本发明实施例的目的在于提供一种命名实体识别方法、装置及电子设备,以实现提高识别特定领域的命名实体的准确度。具体技术方案如下:
在本发明实施的一个方面,本发明实施例还提供了一种命名实体识别方法,该方法包括:
对待识别文本进行分词,得到多个待识别词;
在至少两个预设向量库中查询多个待识别词中每个待识别词对应的至少两个待识别词向量,并将多个待识别词中每个待识别词对应的至少两个待识别词向量输入训练得到的注意力模型中,输出每个待识别词的合成词向量,其中,每个待识别词在至少两个预设向量库中的词向量不同,至少两个预设向量库包括通用领域向量库和特定领域向量库;
将每个待识别词的合成词向量输入训练得到的神经网络命名实体识别模型中,输出待识别文本对应的实体类别标签序列。
可选的,建立至少两个预设向量库的过程,包括:
针对每个预设向量库,获取建立该预设向量库的训练语料,通过word2vec训练模型或GloVe训练模型对训练语料进行训练,得到训练语料的词向量;
将训练语料和训练语料的词向量存储在预设数据库中,得到该预设向量库。
可选的,训练得到注意力模型和神经网络命名实体识别模型的过程,包括:
获取训练文本,将训练文本分词,得到训练文本的多个样本词,并在至少两个预设向量库中查询多个样本词中每个样本词对应的至少两个样本词向量;
获取训练文本的多个样本词的命名实体,将每个样本词对应的至少两个样本词向量,作为注意力模型和神经网络命名实体识别模型的训练输入量,根据多个样本词的命名实体,并通过神经网络BP算法,训练得到注意力模型和神经网络命名实体识别模型。
可选的,将多个待识别词中每个待识别词对应的至少两个待识别词向量输入训练得到的注意力模型中,输出每个待识别词的合成词向量,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810660597.0/2.html,转载请声明来源钻瓜专利网。