[发明专利]一种基于隐多粒度局部特征的中文分词方法在审
申请号: | 201710269863.2 | 申请日: | 2017-04-24 |
公开(公告)号: | CN107145484A | 公开(公告)日: | 2017-09-08 |
发明(设计)人: | 包祖贻;李思;徐蔚然 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 粒度 局部 特征 中文 分词 方法 | ||
技术领域
本发明涉及信息处理领域,特别涉及一种基于神经网络的中文分词方法。
背景技术
中文分词是中文自然语言处理中的基础任务,它的目的在于将中文汉字序列转换为中文词语的序列。中文词语是中文语义表达的基本单元,所以分词的好坏会直接影响到中文自然语言处理的上层任务,例如,信息检索和机器翻译。
目前最普遍的分词方法是把分词任务作为一个有监督的序列标注任务来完成。比较常见的传统分词模型有结构化感知器、条件随机场(CRFs)等。但是这些传统模型都十分依赖人工设计的特征,需要复杂的特征才能取得较好的分词效果。最近,由于神经网络可以自己学习特征以代替复杂的人工设计特征,大大减轻特征工程的负担,许多工作尝试将神经网络应用于中文分词任务。但是这些工作并没有很好地提取和利用句子中的局部特征,也没有很好地将局部特征和上下文的信息结合起来。而本发明为了解决上述的问题,采用了多卷积核的卷积神经网络,结合循环神经网络,得到了较好的分词效果。
发明内容
为了解决现有的技术问题,本发明提供了一种基于神经网络的分词方法。方案如下:
步骤一,我们将输出句子的每个字符都映射为字符向量,通过这一步将句子参数化,句子映射为一个数值矩阵。
步骤二,我们使用一个多卷积核的卷积神经网络对参数化的句子进行卷积操作,不同窗口大小的卷积核从句子中提取到隐多粒度的局部特征。
步骤三,隐多粒度局部特征经过一个k-max池化层,k-max池化层仅保留局部特征中比较重要的一些,对局部特征进行了一个筛选。
步骤四,经过筛选的隐多粒度局部特征再送入一个双向LSTM循环神经网络层。双向的LSTM循环神经网络再引入字符前后句子中上下文信息,这就使得多粒度的局部信息和上下文信息结合到了一起。
步骤五,将之前所得到的信息送入一个前向网络中,得到各个字符序列标注的标签概率。
步骤六,在句子层面上,对整个句子中各个字符的标签概率进行维特比解码,得到句子层面的最优分词结果。
附图说明
图1是本发明提供的分词方法的网络结构图
图2为LSTM循环神经网络单元的内部结构图
具体实施方式
接下来将对本发明的实施方法作更详细的描述。
图1是本发明提供的分词方法的网络结构图,其中包括:
步骤S1:输入句子的字符向量参数化;
步骤S2:卷积神经网络提取隐多粒度局部信息;
步骤S3:k-max池化操作增强非线性,并控制参数个数;
步骤S4:双向循环神经网络提取长距离的上下文信息;
步骤S5:前向神经网络计算各个字符的标签得分;
步骤S6:使用标签推断方法得到最优标签序列;
下面将对每个步骤进行具体的说明:
步骤S1:向量参数化,为了克服传统one-hot表示法所带来的稀疏性和无关性的问题,本发明首先将句子中的各个字符参数化,通过一个映射字典,将字符映射为不稀疏的向量表示。假设中文汉字一共有C个字符,那么整个映射字典可以表示为一个C*d维的数值矩阵,其中每一个行是一个字符的数值表示,一个d维的数值向量。那么一个句子,就可以表示为句子中每一个字符都映射为向量后组成的数值矩阵。
其中x为句子的矩阵表示,xi为句子中第i个字符映射后的向量,表示向量的连接。
在这一步骤中,借鉴去噪自动编码器的思想,本发明引入了dropout的机制,在训练网络时,随机将一部分参数置零,使得参数训练更具有鲁棒性,训练过程更为平滑。
步骤S2:使用卷积神经网络层提取隐多粒度局部信息。卷积神经网络擅长于局部特征的提取,并已经被广泛用于中文自然语言处理任务中,如:情感分类、文档分类。不同的卷积核卷积句子,得到不同的局部特征。卷积神经网络提取到的局部特征比传统使用的uni-gram、bi-gram有更好的表现。所以本发明中将多卷积核的卷积神经网络引入中文分词中,用于提取更好的局部特征。
对于文本处理中的卷积神经网络而言,一个窗口为w的卷积核可以表示为一个w*d维的矩阵,其中d是文本参数化后的向量维度。则卷积核对窗口内的w个向量的卷积操作,可以表示为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710269863.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于嵌入式表示的自适应中文分词方法
- 下一篇:一种新型电缆桥架