[发明专利]一种基于迁移学习的低资源领域分词器训练方法及分词方法在审

申请号：	201711026810.4	申请日：	2017-10-27
公开（公告）号：	CN107967253A	公开（公告）日：	2018-04-27
发明（设计）人：	孙栩;许晶晶;李炜;马树铭	申请（专利权）人：	北京大学
主分类号：	G06F17/27	分类号：	G06F17/27;G06K9/62;G06N3/04
代理公司：	北京君尚知识产权代理事务所(普通合伙)11200	代理人：	司立彬
地址：	100871 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于迁移学习资源领域分词训练方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于自然语言处理领域，涉及资源不足场景下的中文文本分词，尤其涉及一种基于迁移学习的低资源领域分词器训练方法及分词方法。

背景技术

对于传统的新闻领域上的分词任务，基于统计的方法最开始取得不错的效果，主要包括条件随机场和感知器模型。然而，这些模型需要抽取大量的特征，所以泛化能力受到了限制。

近年来，越来越多地采用基于神经网络的方法进行自动化抽取特征的工作，其中出现了比较多的分词模型，主要包括卷积神经网络(Convolutional Neural Network,CNN)、长短时记忆神经网络(Long Short Term Memory Network,LSTM)等。虽然这些基于神经网络的方法非常有效，但是，训练这些模型并且得到一个比较好的效果需要大量的标注数据。而对于很多专门领域来说，标注数据的数量很有限，使得采用基于神经网络的方法进行分词难以取得较好的效果。

发明内容

为了克服上述现有技术的不足，本发明提供一种用于解决资源不足问题的低资源领域分词器训练方法及分词方法，通过在不同领域模型上建立堆叠式神经网络，利用其它富资源领域的数据和少量特定领域资源的数据，对特定领域分词模型进行训练，由此减少不同领域间标注等方面的冲突，从而更顺畅地学习多领域知识，进而提升在低资源领域下分词的效果。

本发明的原理是：为了弥补特定领域分词的数据不足的问题，本发明利用了跨领域的标注数据来提升低资源领域中分词的效果。本发明包括建立多领域分词器和集成式神经网络学习器的学习过程。首先，为了利用不同领域各自的标注数据，本发明采用传统方法学习各自领域的分词器；其次为了更顺畅地将不同领域分词器结合起来，本发明使用堆叠式神经网络，通过在不同模型间建立通讯路径来自动决定如何使用不同领域的模型的信息。这种方法利用了不同领域间大量的有标注数据的同时，尽量减少了不同领域间的冲突。在使用跨领域的数据中，数据偏移是影响跨领域学习的主要障碍。首先，当源语料和目标语料数据分布不一致时，直接使用源语料训练得到的分类器反而会导致效果的进一步下降。其次，源语料和目标语料的标注标准存在部分差异，直接使用源语料会导致分类器对目标语料的标注标准适应性较差。最后，因为有很多源语料，如何有效地结合在不同源语料上学习得到的分类器也是一个比较大的问题。为了解决数据偏移的问题，本发明首先在不同的源语料上预训练了不同的源分类器，其次，采用新的堆叠式神经网络中的通讯路径的方法，通过对不同领域分类器自动赋予权重的方式进行源分类器的集成和选择。在使用目标语料的训练过程中，可使用层次式(layer-wise)的训练方式：先训练源分类器，再训练堆叠式神经网络。

本发明提供的技术方案是：

一种用于解决资源不足问题的低资源领域分词器训练方法，通过建立不同领域各自的分词器和堆叠式神经网络，利用设定领域，即富资源领域(如新闻领域)，语料对资源不足的目标领域进行堆叠式神经网络模型的训练，由此提升在目标领域，即低资源领域，中分词的效果。此方法包括模型训练和模型预测两个部分；其中模型的训练过程包括如下步骤：

1.训练不同领域(包括设定领域和目标领域)的分词器，对任意一个领域，

(a)输入该领域的待切分数据X＝x₁x₂,…,x_i,…,x_n和对应的标注结果Y＝y₁y₂,…,y_i,…,y_n。其中，X为文本中的带切分的中文句子，x_i为文本样例X中的一个字；y_i为相应的x_i对应的标签(BIEO)。