[发明专利]一种改进的用于命名实体识别的主动学习方法有效
| 申请号: | 201811624411.2 | 申请日: | 2018-12-28 |
| 公开(公告)号: | CN109697289B | 公开(公告)日: | 2023-01-13 |
| 发明(设计)人: | 李焕;李建强 | 申请(专利权)人: | 北京工业大学 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295 |
| 代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 张慧 |
| 地址: | 100124 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开一种改进的用于命名实体识别的主动学习方法,包括:1、获取初始的数据集,将训练集中的实体作为已登录实体存储到实体词库;2、设置模型性能标准,基于初始训练集得到初始模型,判断模型性能是否达标;3、用当前模型对未标注样本进行预测,用实体词库对未标注样本中的已登录实体进行标记,然后在实体粒度上分别从三种情况计算不确定性;4、赋予三种不确定性权重参数,并加权求和作为最终的不确定性;5、将模型对未标注样本的的不确定性进行排序,选择不确定性最高的样本进行标注,并更新训练集和实体词库;6、基于新训练集重新训练模型,并判断模型性能是否达标。本发明在实体粒度上更加精细和全面地考虑了预测结果的不确定性。 | ||
| 搜索关键词: | 一种 改进 用于 命名 实体 识别 主动 学习方法 | ||
【主权项】:
1.一种改进的用于命名实体识别的主动学习方法,其特征在于,包括:步骤一:获取初始已标注的样本训练集、已标注的样本验证集和未标注的样本数据集,将已标注的训练集中已被标注出的实体作为已登录实体存储到已登录实体词库中作为对未标注样本的先验知识;步骤二:设置模型性能标准,即终止学习条件,然后基于已标注的样本数据集训练得到初始的命名实体识别模型,判断该模型是否达到模型性能标准,若模型性能达标,则终止学习,否则进入下述步骤三至步骤九,即主动学习算法中的查询‑训练阶段;步骤三:利用当前的命名实体识别模型对未标注的样本数据集中的样本进行预测以得到预测结果,并利用已登录实体词库对未标注样本中的已登录实体进行标记,然后利用下述步骤四到步骤六在实体粒度上分别从三种情况计算不确定性;步骤四:计算已登录实体识别概率较低的情况下所产生的不确定性;步骤五:计算已登录实体未被正确识别的情况下所产生的不确定性;步骤六:计算未登录实体识别概率较低的情况下所产生的不确定性;步骤七:分别赋予上述步骤得到的三种不确定性一个权重参数,然后进行加权求和,作为最终的整个样本预测结果的不确定性;步骤八:将模型对所有未标注样本的预测结果的不确定性进行排序,选取不确定性最高的部分样本进行人工标注,然后分别对已标注的样本数据集和已登录实体词库进行更新和扩充;步骤九:基于新的已标注的样本训练集重新训练以得到新的模型,然后再次判断模型是否达到模型性能标准,若性能达标,则终止学习,否则重复步骤三至步骤九。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811624411.2/,转载请声明来源钻瓜专利网。





