[发明专利]利用基于词上下文的字嵌入与神经网络的中文分词方法有效

专利信息
申请号: 201710368867.6 申请日: 2017-05-23
公开(公告)号: CN107168955B 公开(公告)日: 2019-06-04
发明(设计)人: 戴新宇;郁振庭;陈家骏;黄书剑;张建兵 申请(专利权)人: 南京大学
主分类号: G06F17/27 分类号: G06F17/27;G06N3/02
代理公司: 江苏圣典律师事务所 32237 代理人: 胡建华
地址: 210023 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 利用 基于 上下文 嵌入 神经网络 中文 分词 方法
【说明书】:

发明提出了一种利用基于词上下文的字嵌入与神经网络的中文分词方法,在大规模的自动切分数据上学习字嵌入,将学习得到的字嵌入作为神经网络分词模型的输入,可以有效帮助模型学习。具体步骤如下:根据字上下文以及词位标记在大规模自动切分数据上学习字嵌入,将字嵌入作为神经网络分词模型的输入,有效地提高了分词的性能。对比其它基于神经网络的中文分词技术,该方法采用了基于词上下文的字嵌入,有效地将词信息融合进了分词模型,成功的提高了分词任务的准确性。

技术领域

本发明涉及一种利用计算机进行中文分词的方法,特别是一种利用基于词上下文的字嵌入与神经网络相结合的方式进行自动中文分词的方法。

背景技术

中文分词是自然语言处理的一项基本任务,其广泛的应用需求吸引了大量相关研究从而促进了其相关技术的快速发展。中文这样的黏着语与西方语言不同,中文句子的词与词之间并没有明显的间隔。而一般自然语言处理任务的最小单元是“词”,所以对于中文来说,首要的问题是先识别词串。目前处理中文分词的手段大体可以分为两类,基于规则的方法与基于统计方法。基于词典的规则方法需要构建一个大规模的词典。切词时会根据预先设计好的匹配规则来匹配词典中的词,从而完成对文本的切分。在计算资源相对受限和紧缺的时期,机器学习方法需要占用大量的计算资源和耗费很大内存开销,并不具有实用性,所以规则方法在相当长的一段时期内成为了处理中文分词问题的主流方法。而随着计算资源的不断增长,基于机器学习的方法慢慢成为了解决中文分词的主要手段。

在SIGHAN2003举行的首届中文分词评测中,基于字标注的方法首次被提出,该方法的性能虽然不是最高的,但是其未登录词的识别率位居榜首。对于中文分词任务来说,主要有两大难点,歧义切分和未登录词的识别,实验证明这两类问题并不是平等的,未登录词的影响要远远大于歧义切分。基于字的序列化标注的方法慢慢的被大家接受,成为了处理分词问题的主流方法。

在建模分词任务的方式,将其看成序列化标注任务是一种常见的手段。其工作过程是:针对待分词的句子,以字为单位,从左至右对每个字进行标注(即打标签),一般采用的标注体系是包括B、M、E、S四个标记的四词位标注集,其中B代表当前字占据一个多字词的词首,M代表当前字占据一个多字词的词中E代表当前字占据一个多字词的词尾,S代表当前字是一个单字词。得到标注序列之后,可以转换成分词的结果。本发明在建模中文分词任务是也将其看成序列化标注任务并采用了上述的标注集。

神经网络是一种常用的机器学习方法,它具有从一些基本原子特征自动学习特征组合方式的能力,这区别于需要使用者根据语言学相关等先验知识来设计大量任务相关的模板的传统方法。神经网络的使用,可以省去人工定制大量组合特征模板的工作,同时可以借助神经网络强大的表达能力来自动地学习特征之间的组合。在本发明使用了双向长短记忆神经网络来对句子的字序列进行计算,从而更多地捕获远距离特征。

对于基于神经网络的模型方法而言,一个重要的问题就是如何使用词嵌入。如果拥有足够多的训练数据,那么可以首先随机初始化词嵌入,然后把词嵌入的学习融合到模型的训练中来,从而得到高质量的词嵌入。但是对于分词这样的任务,标注数据集的规模非常有限,一般在几万条左右。首先很难训练好字嵌入,其次由于数据规模有限,遇到测试数据时,经常会遇到未登录词这样的问题。一种方法是利用无监督数据学习字嵌入,典型的方法有Word2vec、GloVe,这些的方法的基本依据是根据分布式假设,相似的词会出现在相似的上下文中。相似的词之间会具有相似或相近的词嵌入。但“相似”这一特性又依赖于具体的任务,对于不同的任务,“相似”这一概念是不同的。

发明内容

发明目的:本发明针对目前中文分词技术中现有基于字标注的模型不能充分利用词信息的缺点,提出了了一种基于词上下文的字嵌入学习方法来间接的融合词级别的信息,从而提升中文分词任务的准确度。

为了解决上述技术问题,本发明公开了一种利用基于词上下文的字嵌入与神经网络的中文分词方法以及关于分析过程中所使用模型参数训练方法的附加说明。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710368867.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top