[发明专利]一种改进的用于命名实体识别的主动学习方法有效
| 申请号: | 201811624411.2 | 申请日: | 2018-12-28 |
| 公开(公告)号: | CN109697289B | 公开(公告)日: | 2023-01-13 |
| 发明(设计)人: | 李焕;李建强 | 申请(专利权)人: | 北京工业大学 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295 |
| 代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 张慧 |
| 地址: | 100124 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 改进 用于 命名 实体 识别 主动 学习方法 | ||
1.一种改进的用于命名实体识别的主动学习方法,其特征在于,包括:
步骤一:获取初始已标注的样本训练集、已标注的样本验证集和未标注的样本数据集,将已标注的训练集中已被标注出的实体作为已登录实体存储到已登录实体词库中作为对未标注样本的先验知识;
步骤二:设置模型性能标准,即终止学习条件,然后基于已标注的样本数据集训练得到初始的命名实体识别模型,判断该模型是否达到模型性能标准,若模型性能达标,则终止学习,否则进入下述步骤三至步骤九,即主动学习算法中的查询-训练阶段;
步骤三:利用当前的命名实体识别模型对未标注的样本数据集中的样本进行预测以得到预测结果,并利用已登录实体词库对未标注样本中的已登录实体进行标记,然后利用下述步骤四到步骤六在实体粒度上分别从三种情况计算不确定性;
步骤四:计算已登录实体识别概率小于概率阈值的情况下所产生的不确定性;
步骤五:计算已登录实体未被正确识别的情况下所产生的不确定性;
步骤六:计算未登录实体识别概率小于概率阈值的情况下所产生的不确定性;
步骤七:分别赋予上述步骤得到的三种不确定性一个权重参数,然后进行加权求和,作为最终的整个样本预测结果的不确定性;
步骤八:将模型对所有未标注样本的预测结果的不确定性进行排序,选取不确定性最高的部分样本进行人工标注,然后分别对已标注的样本数据集和已登录实体词库进行更新和扩充;
步骤九:基于新的已标注的样本训练集重新训练以得到新的模型,然后再次判断模型是否达到模型性能标准,若性能达标,则终止学习,否则重复步骤三至步骤九。
2.根据权利要求1所述的一种改进的用于命名实体识别的主动学习方法,其特征在于,所述步骤一中获取初始的已标注的样本训练集、已标注的样本验证集、未标注的样本数据集,其中在已标注的样本训练集中已经出现并被标注出的实体被认为是已登录实体,将所有已登录实体存储到已登录实体词库ED中,作为对未标注样本的先验知识:对于在已标注的样本中出现的已登录实体,如果在未标注的样本中出现了,也应该是同样的实体。
3.根据权利要求2所述的一种改进的用于命名实体识别的主动学习方法,其特征在于,所述步骤二中先设定一个模型性能标准作为终止学习的条件,即要求模型能够在已标注的样本验证集上达到预设的性能标准,然后基于已标注的样本训练集训练得到初始的命名实体识别模型,再判断模型的性能是否达到性能标准,若达标,则终止学习,否则进入步骤三至步骤九,即主动学习方法中的查询-训练循环。
4.根据权利要求3所述的一种改进的用于命名实体识别的主动学习方法,其特征在于,所述步骤三中用当前的命名实体识别模型对未标注的样本数据集中的样本进行预测以得到预测结果,再利用当前的已登录实体词库ED对未标注样本中的已登录实体进行标记,然后利用步骤四到步骤六在实体粒度上分别从以下三种情况计算不确定性:已登录实体识别概率小于概率阈值的情况、已登录实体未被识别的情况、未登录实体识别概率小于概率阈值的情况。
5.根据权利要求4所述的一种改进的用于命名实体识别的主动学习方法,其特征在于,所述步骤四中对已登录实体识别概率小于概率阈值的情况所产生的不确定性进行计算具体为:采用不确定值衡量该不确定性,设已登录实体识别的概率阈值为,若对某已登录实体的识别概率为,且有,则认为对该实体的识别具有较高的不确定性,并用来衡量该不确定性;遍历每个样本中所有该类实体,并基于以下计算公式计算每个样本的不确定值:
其中,表示已登录的实体词库,表示预设的已登录实体识别概率阈值,表示模型识别出已登录实体时的预测概率,表示被模型识别出、且预测概率低于阈值的已登录实体。
6.根据权利要求5所述的一种改进的用于命名实体识别的主动学习方法,其特征在于,所述步骤五中对已登录实体未被正确识别的情况所产生的不确定性进行计算具体为:采用不确定值衡量该不确定性,遍历每个样本中所有该类实体,并基于以下计算公式计算每个样本的不确定值:
其中, 表示未被模型识别出的已登录实体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811624411.2/1.html,转载请声明来源钻瓜专利网。





