[发明专利]基于知识蒸馏和多任务学习的篇章关系识别方法与装置有效
申请号: | 202110078740.7 | 申请日: | 2021-01-21 |
公开(公告)号: | CN112395876B | 公开(公告)日: | 2021-04-13 |
发明(设计)人: | 邬昌兴;谢子若 | 申请(专利权)人: | 华东交通大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/30;G06N20/20;G06N3/04 |
代理公司: | 北京中济纬天专利代理有限公司 11429 | 代理人: | 黄攀 |
地址: | 330000 江西省南*** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 知识 蒸馏 任务 学习 篇章 关系 识别 方法 装置 | ||
本发明提出一种基于知识蒸馏和多任务学习的篇章关系识别方法与装置,在本发明中,一方面,基于参数共享的方式在连接词分类辅助任务和隐式篇章关系识别主任务之间共享知识;另一方面,将连接词增强的教师模型中的知识基于知识蒸馏技术从特征层和分类层迁移到相应的隐式篇章关系识别模型中;以充分利用语料标注时插入的连接词信息提高学生模型的识别性能。
技术领域
本发明涉及计算机智能分析处理技术领域,特别涉及一种基于知识蒸馏和多任务学习的篇章关系识别方法与装置。
背景技术
篇章一般是指由一系列结构衔接、语义连贯的语言单位(句子或子句),按照一定的语义关系或者层次结构组成的整体语言单位。通常把句子或子句之间的语义关系称作篇章关系,例如,因果关系、转折关系等。篇章关系识别指的是自动判断两个论元(句子或子句)之间的语义关系,是篇章结构分析的核心子任务之一,也是其性能瓶颈所在。因此,篇章关系识别性能的提高,不但能够促进篇章结构分析的发展,也有利于众多下游的自然语言处理任务。例如,机器翻译、情感分析、问答系统以及文本摘要等。
其中,篇章连接词(例如,因为、但是等)是篇章关系识别中最重要的特征之一。当两个论元有篇章连接词相连时,显式篇章关系识别仅使用连接词作为特征就能达到90%以上的分类准确率。反之,当两个论元之间省略了篇章连接词时,隐式篇章关系识别需要根据两个论元的语义推导它们之间的关系,对应的准确率目前仅60%左右。例如,如图1所示,隐式篇章关系实例的两个论元之间省略了连接词“所以”,则需要基于文本“积水”和“没去打篮球”推导它们之间语义上的“因果关系”,而这是非常困难的。实际上,即便是语料标注人员也常利用连接词信息来辅助隐式篇章关系的标注。例如,目前规模最大的宾州篇章树库(The Penn Discourse TreeBank, PDTB)在进行标注时,也要求标注人员首先在隐式篇章关系实例的两个论元之间插入一个合适的连接词,然后综合论元和插入的连接词两个方面的信息来判断该实例的篇章关系。也就是说,篇章语料标注人员常使用(插入的)连接词信息来辅助隐式篇章关系的标注。
从以上分析可知:一方面,基于连接词的显式篇章关系识别与基于论元语义的隐式篇章关系识别之间存在巨大的性能差距(90%与60%);另一方面,语料的标注过程也说明了连接词信息对隐式篇章关系识别是有帮助的。因此,一些研究人员尝试在隐式篇章关系识别模型中利用连接词信息,以提高识别的性能。目前,已有研究人员使用基于对抗学习的方法,利用语料标注时插入的连接词信息帮助隐式篇章关系识别。
然而,现有的基于对抗学习的方法对连接词信息的利用并不充分,仅停留在特征抽取层上迁移知识,且识别性能不是很理想。
发明内容
鉴于上述状况,有必要解决现有的基于对抗学习的方法,仅停留在特征抽取层迁移知识,且识别性能不是较为理想的问题。
本发明实施例提供了一种基于知识蒸馏和多任务学习的篇章关系识别方法,其中,所述方法包括如下步骤:
以标注了连接词与隐式篇章关系类别的隐式篇章关系实例作为训练实例;
基于双向注意力机制分类模型构造连接词加强的教师模型,以所述连接词作为额外输入,对所述连接词加强的教师模型对应的代价函数进行迭代最小化处理直至收敛,以得到训练好的教师模型;
基于所述双向注意力机制分类模型构造多任务学习学生模型,引入连接词分类作为辅助任务,以确定基于多任务学习的代价函数,利用所述训练好的教师模型计算训练实例的特征和预测结果,以确定基于知识蒸馏的代价函数,继而确定学生模型总代价函数;
迭代最小化所述学生模型总代价函数直至收敛,以输出训练好的学生模型,进而用于识别测试实例的隐式篇章关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东交通大学,未经华东交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110078740.7/2.html,转载请声明来源钻瓜专利网。