[发明专利]一种基于嵌入式表示的自适应中文分词方法有效
申请号: | 201710269840.1 | 申请日: | 2017-04-24 |
公开(公告)号: | CN107145483B | 公开(公告)日: | 2018-09-04 |
发明(设计)人: | 李思;包祖贻;徐蔚然;高升 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 嵌入式 表示 自适应 中文 分词 方法 | ||
1.一种基于嵌入式表示的自适应中文分词方法,其特征在于,包含以下结构和步骤:
训练时:
(1)分词网络和字符语言模型网络共享字符的嵌入式表示层;将输入已标注句子和未标注句子中的每一个字符都映射为字符向量,输入的待分词文本即数值化为每个字符向量列连接而成的数值矩阵,表示为:
其中x为句子的矩阵表示即数值矩阵,xi为句子中的第i个字符映射后的向量,表示向量的列连接;
(2)卷积神经网络提取隐多粒度局部信息:对步骤(1)得到的已标注句子的数值矩阵,得到文本中各个字符的隐多粒度局部特征;表示为:
其中,m∈Rd×w,m是窗口大小为w的卷积核,表示卷积操作,x为步骤(1)中给出的数值矩阵,b是一个偏置项,f是一个非线性函数,使用ReLu函数,c是维度为n的向量,向量c即整句话的隐多粒度局部特征;
(3)前向神经网络计算各个字符的标签得分:对步骤(2)中得到的隐多粒度局部特征经过一个前向网络得到各个字符的各个标签的概率;
(4)使用标签推断方法得到最优标签序列:对步骤(3)中得到的各个字符的各个标签的概率进行处理,在整个句子层面对各个字符的标签进行推断,得到整个句子上最优的损失函数值和标签序列,即整个句子上最优的分词结果,得到的整个句子上的最优的损失函数值为分词网络的损失函数值;
(5)长短期记忆单元循环神经网络得到未标注句子各个位置的隐层表示:对步骤(1)中得到的未标注句子的参数表示进行处理,得到句子各个位置的隐层表示;
(6)前向神经网络预测句子下一个字符的概率分布:将步骤(5)中得到的隐层表示送入一个前向神经网络,得到下一个位置字符的概率分布和损失函数值,得到的下一个位置字符的损失函数值即为字符语言模型网络的损失函数值;
(7)组合分词网络损失函数和字符语言模型网络损失函数,更新网络权值:对步骤(4)中得到的分词网络的损失函数值和步骤(6)字符语言模型网络的损失函数值进行组合,得到整体的损失函数值,利用误差反向传播算法,更新网络权值;
分词时,仅激活分词网络一侧,执行步骤(1)至步骤(4)即得到分词结果。
2.如权利要求1所述的方法,其特征在于,所述步骤(1)具体包括:
(1.1)初始化字典向量矩阵以及字符到向量编号的映射索引;
(1.2)对输入文本进行字符切分,通过映射索引将字符映射为向量编号;
(1.3)通过各个字符的向量编号取得字典向量矩阵中各个字符的向量表示;
(1.4)将各个字符向量连接起来,得到输入文本的数值化矩阵。
3.如权利要求1所述方法,其特征在于,所述步骤(2)具体包括:
(2.1)初始化各个卷积核的参数矩阵;
(2.2)按照卷积核的窗口大小,对输入矩阵进行补齐;
(2.3)对补齐后的矩阵,用卷积核进行卷积操作,得到卷积结果;
(2.4)对不同窗口大小的卷积核重复步骤(2.2)和步骤(2.3),得到各个窗口大小卷积核的卷积结果,即隐多粒度局部特征。
4.如权利要求1所述方法,其特征在于,所述步骤(3)具体包括:
(3.1)初始化前向网络参数;
(3.2)对相同的句子,改变卷积核窗口大小,得到不同隐多粒度局部特征的向量,将这些向量行连接得到特征矩阵;特征矩阵中每一个字符对应的信息输入前向神经网络,得到每一个字符对应各个标签的得分;
(3.3)对每一个字符对应的各个标签的得分输入softmax函数,得到每一个字符各个标签的概率。
5.如权利要求1所述方法,其特征在于,所述步骤(4)具体包括:
(4.1)初始化标签转移矩阵;
(4.2)对步骤(3)得到的每一个字符各个标签的概率,标签共有4个,因此每一个字符各个标签的概率表示为一个固定维度为4的向量,将一个句子中的每一个字符对应各个标签的概率的向量按照句子中字符的顺序按列连接在一起,作为该句子的标签概率矩阵,对标签概率矩阵补齐开始位置和结束位置;
(4.3)对补齐的标签概率矩阵,根据标签转移矩阵进行维特比译码,得到最优的标签序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710269840.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种带检测功能的吸收性制品
- 下一篇:一种基于隐多粒度局部特征的中文分词方法