[发明专利]一种基于概率分布自适应的实体关系分类方法有效
申请号: | 201911085383.6 | 申请日: | 2019-11-08 |
公开(公告)号: | CN111104509B | 公开(公告)日: | 2023-06-16 |
发明(设计)人: | 熊盛武;陈振东;段鹏飞;刁月月 | 申请(专利权)人: | 武汉理工大学;武汉水象电子科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F18/241;G06F18/2415;G06N3/047;G06N3/08;G06N3/084;G06N3/045;G06N3/0442 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 罗飞 |
地址: | 430070 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 概率 分布 自适应 实体 关系 分类 方法 | ||
1.一种基于概率分布自适应的实体关系分类方法,其特征在于,包括:
步骤S1:将获取的有类别标记的数据作为源域数据,获取的待进行实体关系分类的领域标注数据作为目标域数据,并训练获得源域数据字向量特征和实体词的位置特征、目标域数据的字向量特征和实体词的位置特征;
步骤S2:将源域数据的字向量特征和实体词的位置特征通过预设深度神经网络模型的前向传播计算,得到源域数据的高级特征表示,将目标域数据的字向量特征和实体词的位置特征通过预设深度神经网络模型的前向传播计算,得到目标域数据的高级特征表示;
步骤S3:计算源域数据高级特征表示与目标域数据高级特征表示之间的最大均值差异,作为边缘概率分布差异,计算源域数据高级特征表示与目标域数据高级特征表示之间的条件概率分布的最大均值差异,作为关系分类的条件概率分布差异;
步骤S4:计算源域数据边缘概率分布和目标域数据边缘概率分布之间的第一距离、源域数据条件概率分布和目标域数据条件概率分布之间的第二距离,并根据计算出的第一距离和第二距离,对边缘概率分布差异和条件概率分布差异分配相应的权重,得到概率分布差异的损失函数;
步骤S5:将源域数据和目标域数据通过预设领域关系类型的损失函数和概率分布差异的损失函数的计算,反向传播更新网络参数,得到分类模型;
步骤S6:利用分类模型对待处理的数据进行实体关系分类;
其中,预设深度神经网络模型为基于注意力机制的双向长短期记忆神经网络,步骤S2具体包括:
步骤S2.1:将得到的源域数据包含的语句中每个字的字向量组成的特征矩阵,并拼接实体词的位置特征向量,经过Bi-LSTM层的前向传播计算和注意力层的注意力计算,得到源域数据的高级特征表示;
步骤S2.2:将得到的目标域数据包含的语句中每个字的字向量组成的特征矩阵,并拼接实体词的位置特征向量,经过Bi-LSTM层的前向传播计算和注意力层的注意力计算,得到目标域的高级特征表示;
步骤S3具体包括:
步骤S3.1:根据公式(1)计算源域数据高级特征表示与目标域数据高级特征表示之间的最大均值差异,作为边缘概率分布差异:
其中,RS、RT分别代表源域数据高级特征向量和目标域数据高级特征向量,m、n分别表示源域数据高级特征向量的总数、目标域数据高级特征向量的总数,rti、rtj分别表示目标域数据中第i个的高级特征向量和第j个高级特征向量,分别表示源域数据中第i个的高级特征向量和第j个高级特征向量;高斯核函数的形式为k(x,y)=exp(-||x-y||2/2σ2),其中x,y代表待计算的向量,σ为控制高斯核函数局部作用范围的带宽参数,高级特征向量为高级特征的表示形式;
步骤S3.2:根据公式(1)计算源域数据高级特征表示与目标域数据高级特征表示之间的条件概率分布的最大均值差异,作为关系分类的条件概率分布差异:
其中,c代表该类别对应的高级特征数据,nc、mc分别表示源域数据高级特征在第c类的向量的总数、目标域数据高级特征在第c类的向量的总数,rtci、rtcj分别表示目标域数据中在第c类的第i个的高级特征向量和第j个高级特征向量,分别表示源域数据中在第c类的第i个的高级特征向量和第j个高级特征向量;
步骤S4具体包括:
步骤S4.1:根据公式(3)计算源域数据边缘概率分布和目标域数据边缘概率分布之间的第一距离:
dP=dA(RS,RT)=2(1-2ε(h)) (3)
其中,RS表示源域数据高级特征向量,RT表示目标域数据高级特征向量,ε(h)线性分类器h区分源域数据和目标域数据高级特征向量之间的误差;
步骤S4.2:根据公式(4)计算源域数据条件概率分布和目标域数据条件概率分布之间的第二距离:
其中,表示分类为第c类的源域数据的高级特征向量,表示表示分类为第c类的目标域数据的高级特征向量;
步骤S4.3:根据第一距离和第二距离所占比例的大小分配边缘概率分布差异和条件概率分布差异的权重,得到概率分布差异的损失函数
其中,表示边缘概率分布差异,表示条件概率分布差异,γ表示边缘概率分布差异自适应超参数,μ(c)表示条件概率分布差异的自适应超参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉理工大学;武汉水象电子科技有限公司,未经武汉理工大学;武汉水象电子科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911085383.6/1.html,转载请声明来源钻瓜专利网。