[发明专利]一种基于嵌入式表示的自适应中文分词方法有效
申请号: | 201710269840.1 | 申请日: | 2017-04-24 |
公开(公告)号: | CN107145483B | 公开(公告)日: | 2018-09-04 |
发明(设计)人: | 李思;包祖贻;徐蔚然;高升 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例公开了一种基于嵌入式表示的自适应中文分词方法。属于信息处理领域。该方法的特征包括:分词网络和字符语言模型共享一个字符的嵌入式表示层。字符的嵌入式表示,一方面通过基于卷积神经网络的分词网络,得到待分词文本的隐多粒度局部特征;再经过一个前向网络层,得到字符的标签概率;最后应用标签推断,得到句子级别上的最优分词结果。另一方面,我们随机抽取未标注的文本,通过一个基于长短期记忆单元(LSTM)循环神经网络的字符语言模型,预测该字符下一个位置的字符,对分词网络进行约束;本发明通过字符语言模型建模中文不同领域文本中的字符共现关系,并通过嵌入式表示将信息传递给分词网络,使得分词的领域迁移能力得到提升,具有很大的实用价值。 | ||
搜索关键词: | 一种 基于 嵌入式 表示 自适应 中文 分词 方法 | ||
【主权项】:
1.一种基于嵌入式表示的自适应中文分词方法,其特征在于,包含以下结构和步骤:训练时:(1)分词网络和字符语言模型网络共享字符的嵌入式表示层;将输入已标注句子和未标注句子中的每一个字符都映射为字符向量,输入的待分词文本即数值化为每个字符向量列连接而成的数值矩阵,表示为:
其中x为句子的矩阵表示即数值矩阵,xi为句子中的第i个字符映射后的向量,
表示向量的列连接;(2)卷积神经网络提取隐多粒度局部信息:对步骤(1)得到的已标注句子的数值矩阵,得到文本中各个字符的隐多粒度局部特征;表示为:
其中,m∈Rd×w,m是窗口大小为w的卷积核,
表示卷积操作,x为步骤(1)中给出的数值矩阵,b是一个偏置项,f是一个非线性函数,使用ReLu函数,c是维度为n的向量,向量c即整句话的隐多粒度局部特征;(3)前向神经网络计算各个字符的标签得分:对步骤(2)中得到的隐多粒度局部特征经过一个前向网络得到各个字符的各个标签的概率;(4)使用标签推断方法得到最优标签序列:对步骤(3)中得到的各个字符的各个标签的概率进行处理,在整个句子层面对各个字符的标签进行推断,得到整个句子上最优的损失函数值和标签序列,即整个句子上最优的分词结果,得到的整个句子上的最优的损失函数值为分词网络的损失函数值;(5)长短期记忆单元循环神经网络得到未标注句子各个位置的隐层表示:对步骤(1)中得到的未标注句子的参数表示进行处理,得到句子各个位置的隐层表示;(6)前向神经网络预测句子下一个字符的概率分布:将步骤(5)中得到的隐层表示送入一个前向神经网络,得到下一个位置字符的概率分布和损失函数值,得到的下一个位置字符的损失函数值即为字符语言模型网络的损失函数值;(7)组合分词网络损失函数和字符语言模型网络损失函数,更新网络权值:对步骤(4)中得到的分词网络的损失函数值和步骤(6)字符语言模型网络的损失函数值进行组合,得到整体的损失函数值,利用误差反向传播算法,更新网络权值;分词时,仅激活分词网络一侧,执行步骤(1)至步骤(4)即得到分词结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710269840.1/,转载请声明来源钻瓜专利网。
- 上一篇:一种带检测功能的吸收性制品
- 下一篇:一种基于隐多粒度局部特征的中文分词方法