[发明专利]一种基于预训练语言模型的实体识别方法在审
申请号: | 202210361634.4 | 申请日: | 2022-04-07 |
公开(公告)号: | CN114647715A | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 戴国骏;蒋世豪;叶晨;张桦;吴以凡;支浩仕 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/335;G06F16/35;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 训练 语言 模型 实体 识别 方法 | ||
1.一种基于预训练语言模型的实体识别方法,其特征在于包括如下步骤:
步骤1:数据预处理,根据基于文本相似度的处理方法预先生成所有的实体候选对,针对每个实体候选对(记录u,记录v),先将记录u和记录v的实体文本描述分别生成序列Ⅰ和生成序列Ⅱ,然后使用特殊标识符连接生成序列Ⅰ和生成序列Ⅱ,从而得到一个综合生成序列Ⅲ;
步骤2:使用预训练语言模型将预处理之后的生成序列Ⅰ、生成序列Ⅱ和综合生成序列Ⅲ分别进行分词、提取单词嵌入向量特征,并根据不同的文本长度进行对齐,最后分别得到生成序列Ⅰ、生成序列Ⅱ和综合生成序列Ⅲ对应的词向量Eu、词向量Ev和组合后的整个词向量Et;
步骤3:提取后的词向量Eu、词向量Ev和词向量Et输入相似片段编码器,捕获每个实体候选对(记录u,记录v)两条记录之间的相似片段;
步骤4:同时也利用数字信息片段编码器来编码预处理的输入,并根据预训练语言模型对数字本身的自注意力权重来筛选数字信息片段,给出经过数字编码器的向量;
步骤5:拼接相似片段编码器和数字片段编码器输出向量和将该联合特征向量通过一个线性层和一个softmax层输出分类概率;根据标签数据,计算损失函数,然后进行反向传播,不断微调和优化模型的参数,再次从步骤2得到新的模型输入,反复迭代,当损失函数收敛时停止训练;得到最终的语言模型和编码器参数。
2.根据权利要求1所述的一种基于预训练语言模型的实体识别方法,其特征在于步骤3具体实现如下:
输入:记录u和记录v经过预训练语言模型提取的词向量Eu和Ev,以及实体候选对(记录u,记录v)组合后的整个词向量Et;
3-1.提取背景语义,将整个实体候选对(记录u,记录v)的词向量Et作为背景语义,这里选择Et[CLS]来表征整个背景语义,“[CLS]”的词向量汇总了词向量Et的所有token词向量;
3-2.背景语义融合,分别在两个记录的词向量Eu和词向量Ev上执行一个背景语义的融合算子,因为Et[CLS]包含了记录对的整体背景语义,采用该融合算子将有助于记录u和记录v之间的注意力交互;
3-3.两个记录之间的交互注意力,提出一个记录v到记录u的注意力计算机制和一个记录u到记录v的注意力计算机制;结合整体背景语义表达,得到在整体背景语义下的包含相似片段感知的嵌入向量;
3-4.特征压缩与提取,采用卷积神经网络CNN进行特征压缩,输入经过交互注意力机制后的词向量和的拼接向量将其进行卷积获得相似片段的信息;定义一个卷积矩阵其中da是CNN的输出向量维度,l是卷积核大小,d是词向量维度;利用不同大小的卷积核进行卷积运算,进一步执行最大池化的操作以获取输出特征
步骤4:同时也利用数字信息片段编码器来编码预处理的输入,并根据预训练语言模型对数字本身的自注意力权重来筛选数字信息片段,给出经过数字编码器的向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210361634.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:信息处理方法、装置、存储介质及电子设备
- 下一篇:一种电子信息无线通信装置