[发明专利]命名实体检测方法、装置、电子设备及可读存储介质在审
申请号: | 201910704579.2 | 申请日: | 2019-07-31 |
公开(公告)号: | CN110399616A | 公开(公告)日: | 2019-11-01 |
发明(设计)人: | 蔡世清;江建军;郑凯;段立新 | 申请(专利权)人: | 国信优易数据有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京超成律师事务所 11646 | 代理人: | 张栋栋 |
地址: | 100070 北京市丰台*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 命名实体 目标文本 上下文信息 向量 检测结果 检测 可读存储介质 电子设备 实体位置 上下文语境 编码模型 实体类型 输入识别 字符向量 申请 图谱 | ||
1.一种命名实体检测方法,其特征在于,所述命名实体检测方法包括:
获取目标文本中每个字符的字符向量;
将每个字符的字符向量输入至训练好的编码模型中,生成相应字符对应的上下文信息向量;
将各个字符对应的上下文信息向量输入至训练好的检测模型中,确定所述目标文本对应的实体位置检测结果;
根据所述目标文本对应的实体位置检测结果,确定所述目标文本中的命名实体;
将每个命名实体对应的上下文信息向量输入至训练好的识别模型中,确定所述目标文本对应的实体类型检测结果。
2.根据权利要求1所述的命名实体检测方法,其特征在于,所述训练好的检测模型包括第一全连接层和条件随机场处理层;则确定所述目标文本对应的实体位置检测结果,包括:
将每个字符对应的上下文信息向量输入至所述第一全连接层,确定相应字符对应的第一维度变换向量;
将各个字符对应的第一维度变换向量输入至所述条件随机场处理层,确定所述目标文本对应的实体位置检测结果。
3.根据权利要求1所述的命名实体检测方法,其特征在于,所述训练好的识别模型包括第二全连接层和池化层;则确定所述目标文本对应的实体类型检测结果,包括:
将每个命名实体对应的上下文信息向量输入至所述第二全连接层,确定相应命名实体对应的第二维度变换向量;
将每个命名实体对应的第二维度变换向量输入至所述池化层,确定相应命名实体对应的实体类型检测结果;
根据各个命名实体对应的实体类型检测结果,确定所述目标文本对应的实体类型检测结果。
4.根据权利要求1所述的命名实体检测方法,其特征在于,按照以下步骤训练检测模型:
获取样本文本中的每个样本字符对应的样本字符向量,以及所述样本文本对应的实体位置标注信息;
根据所述样本字符向量,生成各个样本字符对应的样本上下文信息向量;
将各个样本字符对应的样本上下文信息向量输入至待训练的检测模型中,确定所述样本文本对应的实体位置检测结果;
根据所述样本文本对应的实体位置检测结果和所述实体位置标注信息,对待训练的检测模型进行训练。
5.根据权利要求1所述的命名实体检测方法,其特征在于,按照以下步骤训练识别模型:
获取样本文本中的每个样本字符对应的样本字符向量,以及所述样本文本对应的实体位置标注信息和实体类型标注信息;
根据所述样本字符向量,生成各个样本字符对应的样本上下文信息向量;
基于所述样本文本对应的实体位置标注信息,确定所述样本文本中的命名实体;
将每个命名实体对应的样本上下文信息向量输入至待训练的识别模型,确定所述样本文本对应的实体类型检测结果;
根据所述样本文本对应的实体类型检测结果和所述实体类型标注信息,对待训练的识别模型进行训练。
6.根据权利要求4或5所述的命名实体检测方法,其特征在于,按照以下步骤生成每个样本字符对应的样本上下文信息向量:
随机将至少一个样本字符确定为变换样本字符;
将每个变换样本字符对应的样本字符向量进行变换,生成相应变换样本字符对应的变换样本字符向量;
将各个变换样本字符对应的变换样本字符向量,以及,其他样本字符对应的样本字符向量输入至待训练的编码模型中,生成相应样本字符对应的样本上下文信息向量;
其中,其他样本字符为样本文本中变换样本字符之外的样本字符。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国信优易数据有限公司,未经国信优易数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910704579.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:交易风险监控方法及装置
- 下一篇:审计数据处理方法、系统和可读存储介质