[发明专利]文本实体识别方法、装置在审
申请号: | 202110582797.0 | 申请日: | 2021-05-27 |
公开(公告)号: | CN115409034A | 公开(公告)日: | 2022-11-29 |
发明(设计)人: | 罗超;陈曙东 | 申请(专利权)人: | 中国科学院微电子研究所 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/04 |
代理公司: | 北京华沛德权律师事务所 11302 | 代理人: | 房德权 |
地址: | 100029 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 实体 识别 方法 装置 | ||
本申请的实施例提供了一种文本实体识别方法、装置。该方法包括:获取待识别文本;通过多种词向量模型对所述待识别文本进行特征转换,得到所述待识别文本的多个文本特征向量;由预先训练的神经网络模型学习所述多个文本特征向量,得到实体特征向量,所述实体特征向量用于表征所述待识别文本中的实体特征;基于所述实体特征向量,通过条件随机场模型确定所述待识别文本对应的实体标签序列,以识别出所述待识别文本中各个实体的实体标签。本申请实施例的技术方案可以提高对文本实体进行识别的准确率。
技术领域
本申请涉及人工智能及自然语言处理技术领域,具体而言,涉及一种文本实体识别方法、装置。
背景技术
命名实体识别作为自然语言处理的一项基本任务,旨在从非结构化文本中识别出命名实体,其本质在于从一段文字描述中,识别出某一领域的专有名词或具有特殊意义的词或短语,然而,现有技术中的命名实体识别的准确率还有待提升,基于此,如何提高对文本实体进行识别的准确率是亟待解决的技术问题。
发明内容
本申请的实施例提供了一种文本实体识别方法、装置、计算机程序产品或计算机程序、计算机可读介质及电子设备,进而至少在一定程度上可以提高对文本实体进行识别的准确率。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供了一种文本实体识别方法,所述方法包括:获取待识别文本;通过多种词向量模型对所述待识别文本进行特征转换,得到所述待识别文本的多个文本特征向量;由预先训练的神经网络模型学习所述多个文本特征向量,得到实体特征向量,所述实体特征向量用于表征所述待识别文本中的实体特征;基于所述实体特征向量,通过条件随机场模型确定所述待识别文本对应的实体标签序列,以识别出所述待识别文本中各个实体的实体标签。
根据本申请实施例的一个方面,提供了一种文本实体识别装置,所述装置包括:第一获取单元,被用于获取待识别文本;转换单元,被用于通过多种词向量模型对所述待识别文本进行特征转换,得到所述待识别文本的多个文本特征向量;学习单元,被用于由预先训练的神经网络模型学习所述多个文本特征向量,得到实体特征向量,所述实体特征向量用于表征所述待识别文本中的实体特征;确定单元,被用于基于所述实体特征向量,通过条件随机场模型确定所述待识别文本对应的实体标签序列,以识别出所述待识别文本中各个实体的实体标签。
在本申请的一些实施例中,基于前述方案,所述多个文本特征向量包括第一文本特征向量和第二文本特征向量,所述转换单元配置为:通过所述多种词向量模型分别对所述待识别文本中的字符进行编码处理,得到多个文本词向量;在所述多个文本词向量中选择任意一个作为所述第一文本特征向量;对所述多个文本词向量进行拼接,得到拼接向量,并将所述拼接向量作为所述第二文本特征向量。
在本申请的一些实施例中,基于前述方案,所述学习单元配置为:将所述多个文本特征向量分别输入至所述神经网络模型,以由所述神经网络模型输出多个子实体特征向量;对所述多个子实体特征向量求平均处理,得到所述实体特征向量。
在本申请的一些实施例中,基于前述方案,所述装置还包括:分配单元,被用于在基于所述实体特征向量,通过条件随机场模型确定所述待识别文本对应的实体标签序列之前,通过注意力机制模型为所述实体特征向量中的各个特征值分配权重,所述权重用于区分所述待识别文本中各个字符串在实体特征上的重要程度;调整单元,被用于基于所述权重调整所述实体特征向量中的各个特征值,以更新所述实体特征向量。
在本申请的一些实施例中,基于前述方案,所述装置还包括第二获取单元,被用于在获取待识别文本之前,获取训练文本集,所述训练文本集中包括多条训练文本,其中,每一条训练文本配置有实体标签序列;训练单元,被用于基于所述训练文本集中的多条训练文本,通过迭代的方式对所述神经网络模型和所述注意力机制模型进行有监督训练,并基于所述训练文本配置的实体标签序列调整所述神经网络模型和所述注意力机制模型,直至所述神经网络模型和所述注意力机制模型收敛。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院微电子研究所,未经中国科学院微电子研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110582797.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电感装置
- 下一篇:自移动机器人返回基站的方法及自移动机器人