[发明专利]一种应用于制造业科学技术文档的命名实体识别模型在审
| 申请号: | 202111643086.6 | 申请日: | 2021-12-29 |
| 公开(公告)号: | CN114510940A | 公开(公告)日: | 2022-05-17 |
| 发明(设计)人: | 王明浩 | 申请(专利权)人: | 中云开源数据技术(上海)有限公司 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242;G06F40/247;G06F40/126;G06N3/04;G06N3/08;G06N5/02 |
| 代理公司: | 上海伯瑞杰知识产权代理有限公司 31227 | 代理人: | 俞磊 |
| 地址: | 200131 上海市浦东新区中国(上海)自*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 应用于 制造业 科学技术 文档 命名 实体 识别 模型 | ||
1.一种应用于制造业科学技术文档的命名实体识别模型,其特征在于,包括如下步骤:
I.数据收集
选取现有目标文本,构成训练命名实体识别模型的原始语料库;
II.数据预处理
去除原始语料库中的标点和停用词,执行词形还原,形成语料库对应的词典;人工定义若干种制造文本类别;并为词典中的每一个词分配一个制造文本类别标签;采用定制化的词表提取算法,用BIOES格式自动标注原始语料库;
III.命名实体识别模型的网络结构
1)词嵌入层SciBERT,其用于将输入的词转换为固定长度的向量;
2)位于词嵌入层SciBERT之上的BiLSTM层,其利用文本序列的上下文信息挖掘隐藏特征,其用于编码文本;
3)位于BiLSTM层之上的注意力层,其用于降低实体内部不相关修饰词的权重,界定实体的边界,避免重要实体抽取的遗漏;
4)位于注意力层之上的CRF层,其作为网络结构的输出层,用于避免文本序列中的实体被错误标注;
IV.命名实体识别模型的训练
把第I步得到的原始语料库按70:20:10的比例划分,分别得到训练集、验证集和测试集;命名实体识别模型需要训练的参数包括SciBERT词嵌入参数、BiLSTM的权重、注意力机制的权重、转移矩阵A和矩阵E;采用后向传播算法更新每一次训练的参数,每一次训练使用学习率为0.01的随机梯度下降算法SGD和值为5.0的梯度裁剪;用维度为100的单层前向LSTM和后向LSTM实现BiLSTM;网络的失活率DropOut设置为0.5;共执行20次试验,每一次试验执行100个epoch,每一个epoch执行500次iteration,Batch size的大小为256;
V.模型预测
用第IV步训练好的命名实体识别模型对已准备好的测试集进行命名实体标注;
VI.主题识别
通过使用已训练好的命名实体识别模型寻找重点命名实体;其方法是:查找给定的段落文本中出现的命名实体的数量;若两个或多个实体的数量相等,将优先考虑段落中第一个识别的实体。
2.根据权利要求1所述的应用于制造业科学技术文档的命名实体识别模型,其特征在于,所述BiLSTM层利用文本序列的上下文信息挖掘隐藏特征的过程为:BiLSTM层计算每一个单词t处句子左边的上下文表示以及句子右边的上下文表示然后连接左边和右边的上下文表示得到表示单词t处的上下文信息。
3.根据权利要求1所述的应用于制造业科学技术文档的命名实体识别模型,其特征在于,所述注意力层的表示公式参见式(1)-式(3);
scoreki=vTtanh(Whk+Uhi+b) (2)
其中,αki是结点k和结点i之间的注意力分布,scoreki是结点k和结点i之间的注意力打分函数;v、W和U是权重矩阵,hk是BiLSTM右边的上下文表示hi是BiLSTM左边的上下文表示C是注意力编码。
4.根据权利要求1所述的应用于制造业科学技术文档的命名实体识别模型,其特征在于,所述CRF层的原理如下:
设X={x1,x2,…,xn-1,xn}是输入的句子向量,注意力机制学得的特征向量为E={v1,v2,…,vn-1,vn},n是句子中词的个数;对一个预测序列注意力机制学得的特征向量Y={y1,y2,…,yn},则预测序列的得分计算公式可用公式(4)表示;
其中,A是转移矩阵,表示从标签yi转移到标签yj的得分;表示第i个词是标签yi的得分;对于一个序列Y,在所有可能的标签序列上的softmax产生的一个概率如公式(5)所示;
命名实体识别模型训练时用公式(6)最大化正确标签序列;
其中,YX表示句子X的所有可能的标签序列,解码时可获得得分最大的输出序列为最优的Y*就是从文本中自动标注得到的命名实体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中云开源数据技术(上海)有限公司,未经中云开源数据技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111643086.6/1.html,转载请声明来源钻瓜专利网。





