[发明专利]一种基于领域适应性的网络文本的分词方法有效
申请号: | 201710397541.6 | 申请日: | 2017-05-31 |
公开(公告)号: | CN107291837B | 公开(公告)日: | 2020-04-03 |
发明(设计)人: | 孙栩;许晶晶;马树铭 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06N3/08 |
代理公司: | 北京万象新悦知识产权代理有限公司 11360 | 代理人: | 黄凤茹 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公布了一种基于领域适应性的社交网络文本的分词方法,通过建立集成式神经网络和采用自训练的学习方法,利用跨领域的新闻语料、社交网络中的标注数据和无标注数据对集成式神经网络模型进行训练;具体将社交网络文本分为标注和未标注数据集合作为输入;将新闻领域语料作为源语料,在新闻源语料上预训练源分类器;通过对源分类器赋予权重的方式进行源分类器的集成;使用社交网络语料对集成式神经网络模型进行训练;利用训练好的集成式神经网络模型进行预测,由此提升社交网络分词的效果。本发明可用于解决社交网络中因为数据过少导致的效果差的问题,能够有效地提升社交网络文本分词的效果。 | ||
搜索关键词: | 一种 基于 领域 适应性 网络 文本 分词 方法 | ||
【主权项】:
一种基于领域适应性的社交网络文本的分词方法,通过建立集成式神经网络和采用自训练的学习方法,利用跨领域的新闻语料、社交网络中的标注数据和无标注数据进行集成式神经网络模型的训练,由此提升社交网络分词的效果;所述分词方法包括模型训练过程和模型预测过程;模型训练过程包括如下步骤:11)将社交网络文本分为标注数据集合Tl和未标注数据集合Tu,作为输入;输入集合包括样例X=x1x2,…,xi,…,xn;其中,xi为社交网络文本样例中的一个字;12)将新闻领域语料作为源语料,在不同的新闻源语料上预训练不同的源分类器;13)通过对源分类器赋予权重的方式进行源分类器的集成,建立集成式神经网络;将m个源分类器的隐层输出结果hi,1,…,hi,j,…,hi.m作为所述集成式神经网络的输入,所述集成式神经网络的输出为预测标签yi;14)使用社交网络语料对所述集成式神经网络模型进行训练:所述社交网络语料包括标注数据和无标注的数据;对标注数据直接求交叉熵损失函数;对于无标注数据,通过自训练的方式进行训练;得到训练好的集成式神经网络模型;模型预测过程包括如下步骤:21)将待分词的社交文本样例输入到所述训练好的集成式神经网络模型中;22)按照步骤13)对源分类器赋予权重的方式,通过计算得到集成式神经网络模型的隐层输出,再得到最终的预测结果,即为分词结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710397541.6/,转载请声明来源钻瓜专利网。