[发明专利]一种基于共指消除的语言模型预训练方法在审
| 申请号: | 202111237852.9 | 申请日: | 2021-10-25 |
| 公开(公告)号: | CN113886591A | 公开(公告)日: | 2022-01-04 |
| 发明(设计)人: | 侯良学;王冠;杨根科;褚健;王宏武 | 申请(专利权)人: | 上海交通大学宁波人工智能研究院 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/295;G06F40/30;G06N3/08 |
| 代理公司: | 上海剑秋知识产权代理有限公司 31382 | 代理人: | 徐浩俊 |
| 地址: | 315012 浙江省*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 消除 语言 模型 训练 方法 | ||
本发明公开了一种基于共指消除的语言模型预训练方法,涉及自然语言处理技术领域,包括如下步骤:S100、数据预处理,通过字符串匹配提取语料中的代词,处理工具提取所述语料中命名实体、名词短语,作为训练数据生成阶段的遮盖候选集合;S200、训练数据生成,通过mask_word模式和mask_phrase模式进行遮盖处理,分别生成mask_word训练数据和mask_phrase训练数据:S300、预训练,根据训练模式选择因子αt自适应地切换word_learning模式或phrase_learning模式进行训练。本发明增加了对代词、短语、实体的语义训练,并且自适应切换学习模式,增强了模型的语义表示能力,更好地适用于共指消除任务。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于共指消除的语言模型预训练方法。
背景技术
共指消解的任务是将文本中指代同一实体的表述(包括代词、命名实体、名词短语等)进行归类。目前,先进的端到端的神经网络共指消解模型均以词向量为输入,基于注意力模块获取跨度(span)表示,再对跨度对(span-pair)进行共指评分,从而实现共指消解。共指消解的实现需要利用上下文信息及世界知识进行推理,即需要先进的语言模型来获取语义更为丰富的词向量表示。Bert(Bidirectional Encoder Representations fromTransformer)是目前使用较多的语言模型,它通过对海量文本语料随机遮盖单词(本文主要针对英文语料,单词指的的英文中的一个word),基于Transformer算法框架预测被遮盖的词,然而这种预训练方式存在一些缺点。比如在句子“Harry Potter is a wonderfulwork of magic literature”中,如果只遮盖“Harry”,预测“Potter”是很容易的,这样模型学习到的“Harry Potter”词向量就无法包含“magic literature”这样的信息,即上下文信息不够丰富。尤其是在共指消解领域,需要更为丰富语义信息的语言表示来捕捉实体之间的关系。另外,共指消解任务中,由于代词本身语义薄弱,造成代词消解错误率较高,Bert的预训练方法对于代词的遮盖几率较低,对其进行消解时也需要更多外界知识,因此需要加强模型对于代词的学习。
Spanbert针对跨度级(span)的任务如知识问答、命名实体识别等提出了随机遮盖任意连续跨度的预训练方法,跨度长度服从L~Geo(0.2)的分布。
百度的ERNIE模型针对中文使用了一种三阶段的遮盖机制进行预训练,即basic-level、phrase-level、entity-level,这种单字、短语、实体粒度的层级递进,潜入了短语和实体知识,大大提高了语言模型的表示能力。然而,实际使用中发现ERNIE的这种预训练方式,在entity-level训练阶段会导致basic-level知识的遗忘,从而使模型词语表示能力有所下降。
因此,本领域的技术人员致力于开发一种基于共指消除的语言模型预训练方法。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是如何为英语的共指消除的语言模型预训练方法提供语义信息更为丰富的词向量,从而提高共指消解的预测精度。
人类学习语言的过程一般为先学习基本单词,然后学习短语,最后才应用到句子、篇章级任务。但由于神经网络语言模型的知识是以网络权重的形式存储,如果先训练单词,再训练短语,可能会存在遗忘字粒度信息的情况。因此,发明人提出根据当前函数损失自适应地训练不同粒度词块,同时针对共指消解中代词消解精度低的问题,增加语言模型对代词的训练。即在训练阶段,前20%的步数先采用word_learning模式学习单词信息,训练单词,后80%的步数根据损失自适应地选择word_learning模式训练单词或phrase_learning模式训练短语,两种模式采用不同损失函数。
本发明的一个实施例中,提供了一种基于共指消除的语言模型预训练方法,包括。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学宁波人工智能研究院,未经上海交通大学宁波人工智能研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111237852.9/2.html,转载请声明来源钻瓜专利网。





