[发明专利]基于模型融合的实体识别方法和系统在审
申请号: | 202111338582.0 | 申请日: | 2021-11-12 |
公开(公告)号: | CN114091458A | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | 刘伟硕 | 申请(专利权)人: | 北京明略软件系统有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06K9/62;G06N20/00 |
代理公司: | 青岛清泰联信知识产权代理有限公司 37256 | 代理人: | 栾瑜 |
地址: | 100089 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 模型 融合 实体 识别 方法 系统 | ||
本申请涉及一种基于模型融合的实体识别方法和系统,该方法包括:利用至少两个打标模型分别对一标注单元进行标注,获得对应的初始标注结果,组成初始标注结果集,并根据预设的先验数据集对每一初始标注结果进行打分;根据获得的每一初始标注结果的分数得到分数向量,并对分数向量进行归一化处理获得权重向量;根据权重向量和由每一打标模型的概率分布向量组成的概率矩阵进行模型融合,获得概率向量;根据概率向量获取该标注单元的最终标注结果;依次遍历待识别文本序列中的每一标注单元,获得每一标注单元的最终标注结果,进而对待识别文本序列进行实体识别。通过对多个打标模型的标注结果集成融合得到最终标注结果。
技术领域
本申请涉及机器学习技术领域,特别是涉及基于模型融合的实体识别方法和系统。
背景技术
在机器学习领域中,同一个问题通常可以利用不同参数、不同结构的多种模型来解决,需要一种方法将不同模型的集成为一个健壮的模型。还需要保证集成后的模型要优于基础的子模型。
现有技术具体包括有:Bagging(bootstrap aggregating),分类问题采用N个模型预测投票的方式,回归问题采用N个模型预测平均的方式;Boosting,刚开始训练时对每一个训练例赋相等的权重,然后用该算法对训练集训练t轮,每次训练后,对训练失败的训练例赋以较大的权重,也就是让学习算法在每次学习以后更注意学错的样本,从而得到多个预测函数;Stacking,首先训练多个不同的模型,然后把之前训练的各个模型的输出为输入来训练一个模型,以得到一个最终的输出。
但上述现有的模型融合方法没有考虑所解决任务的特点和所处理数据的结构特征,针对特定的某类型任务时现有的模型融合方法对模型的提升效果有限。
目前针对相关技术中模型融合后打标效果不好的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种基于模型融合的实体识别方法和系统,以至少解决相关技术中模型融合后打标效果不好的问题。
第一方面,本申请实施例提供了一种基于模型融合的实体识别方法,包括以下步骤:
标注结果打分步骤,利用至少两个打标模型分别对一标注单元进行标注,获得对应的初始标注结果,组成初始标注结果集,并根据预设的先验数据集对每一初始标注结果进行打分;
分数归一化处理步骤,根据获得的每一初始标注结果的分数得到分数向量,并对分数向量进行归一化处理获得权重向量;
概率向量获取步骤,根据权重向量和由每一打标模型的概率分布向量组成的概率矩阵进行模型融合,获得概率向量;
标注结果获取步骤,根据概率向量获取该标注单元的最终标注结果;
实体识别步骤,依次遍历待识别文本序列中的每一标注单元,获得每一标注单元的最终标注结果,进而对待识别文本序列进行实体识别。
在其中一些实施例中,标注结果打分步骤中,具体通过下述公式根据预设的先验数据集对每一初始标注结果进行打分:
Scorei=(Ci+Ri)·Fi+Fi
其中,Scorei为第i个打标模型对当前标注单元的标注结果的分数,i=1,2,...n,n表示打标模型的个数,Ci表示第i个打标模型对当前标注单元前一标注单元的标注结果是否存在于先验数据集中,如存在,则Ci=1,否则Ci=0;Ri第i个打标模型对当前标注单元的标注结果是否存在于先验数据集中,如存在,则Ri=1,否则,Ri=0;Fi表示第i个打标模型对当前标注单元的标注结果在对应的标注结果集中出现的次数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111338582.0/2.html,转载请声明来源钻瓜专利网。