[发明专利]一种基于概率分布自适应的实体关系分类方法有效
申请号: | 201911085383.6 | 申请日: | 2019-11-08 |
公开(公告)号: | CN111104509B | 公开(公告)日: | 2023-06-16 |
发明(设计)人: | 熊盛武;陈振东;段鹏飞;刁月月 | 申请(专利权)人: | 武汉理工大学;武汉水象电子科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F18/241;G06F18/2415;G06N3/047;G06N3/08;G06N3/084;G06N3/045;G06N3/0442 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 罗飞 |
地址: | 430070 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 概率 分布 自适应 实体 关系 分类 方法 | ||
本发明公开了一种基于概率分布自适应的实体关系分类方法,首先获取源域数据和目标域数据,训练两个领域数据的字向量特征和实体词的位置特征;接着经过深度神经网络模型的前向传播计算,得到两个领域数据的高级特征表示;接下来计算领域数据高级特征表示之间边缘概率分布差异和条件概率分布差异;然后计算两种概率分布之间的A‑distance,赋予两种概率分布差异不同的学习权重,并在训练过程中自动更新权重;再经过损失函数计算,并结合概率分布差异的损失,反向传播更新网络参数,最终训练得到分类模型进行分类测试。本发明通过降低不同领域数据之间的分布差异达到领域适应,利用源域的大量数据提升目标域分类效果。
技术领域
本发明涉及机器学习与自然语言处理技术领域,具体涉及一种基于概率分布自适应的实体关系分类方法。
背景技术
近年来随着互联网技术的蓬勃发展,尤其是移动网络设备的普及,全球互联网用户数量超过了40亿,产生的数据量呈现几何级增长。网络中的信息有不同的组织形式,而非结构化或半结构化的文本是最常见的信息载体。信息抽取技术是指从结构化程度不同的文本数据中提取符合特定需求的信息,在海量文本信息处理和知识库构建中扮演了重要角色。
实体关系抽取任务,则是为了抽取文本中两个实体之间的关系,是信息抽取研究中的一个重要任务。在知识库和知识图谱构建过程中,实体间关系的抽取效果直接影响了知识库的易用性和准确性,因此成为近年来的研究热点。现有的关系抽取机器学习方法,大多以有监督学习方法为主,将关系抽取任务当作分类问题,根据训练数据设计有效的特征,从而学习各种分类模型,然后使用训练好的分类器预测关系。但是基于有监督的机器学习的关系抽取方法需要以大量有标签的训练数据为前提,这带来了大量的人力和时间上的花费。为了缓解训练数据缺乏的困扰,迁移学习方法应运而生,并逐渐成为研究热点。在面对特定领域如地理领域的数据量不足问题时,通过迁移学习的方法,可以使用其他领域学习到的知识,通过领域适应的调整,应用到本领域的学习中,并提升本领域的关系抽取等任务的效果。
本申请发明人在实施本发明的过程中,发现现有技术的方法,至少存在如下技术问题:
目前较多的实体关系抽取研究多应用在英文公开语料库中,并且不同领域的关系类型不同不可通用,而中文关系提取需要更多的自然语言处理任务的支持,如分词和命名实体识别等,相比英文更为复杂,更容易产生误差,经过迭代运算会放大误差影响性能,过多的自然语言处理工作获取的特征不利于迁移学习提升目标任务的性能。目前较多的基于深度迁移学习方法的工作,大都围绕图像分类领域展开,但是在NLP领域,无法像图像信息一般直观地感受到不同领域之间的区别。
由此可知,现有技术中的方法存在分类效果不佳的技术问题。
发明内容
有鉴于此,本发明提供了一种基于概率分布自适应的实体关系分类方法,用以解决或者至少部分解决现有技术中的方法存在的分类效果不佳的技术问题。
为了解决上述技术问题,本发明提供了一种基于概率分布自适应的实体关系分类方法,包括:
步骤S1:将获取的有类别标记的数据作为源域数据,获取的待进行实体关系分类的领域标注数据作为目标域数据,并训练获得源域数据字向量特征和实体词的位置特征、目标域数据的字向量特征和实体词的位置特征;
步骤S2:将源域数据的字向量特征和实体词的位置特征通过预设深度神经网络模型的前向传播计算,得到源域数据的高级特征表示,将目标域数据的字向量特征和实体词的位置特征通过预设深度神经网络模型的前向传播计算,得到目标域数据的高级特征表示;
步骤S3:计算源域数据高级特征表示与目标域数据高级特征表示之间的最大均值差异,作为边缘概率分布差异,计算源域数据高级特征表示与目标域数据高级特征表示之间的条件概率分布的最大均值差异,作为关系分类的条件概率分布差异;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉理工大学;武汉水象电子科技有限公司,未经武汉理工大学;武汉水象电子科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911085383.6/2.html,转载请声明来源钻瓜专利网。