[发明专利]一种基于隐多粒度局部特征的中文分词方法在审
申请号: | 201710269863.2 | 申请日: | 2017-04-24 |
公开(公告)号: | CN107145484A | 公开(公告)日: | 2017-09-08 |
发明(设计)人: | 包祖贻;李思;徐蔚然 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例公开了一种基于隐多粒度局部特征的中文分词方法。属于信息处理领域。该方法的特征包括先利用多卷积核的卷积神经网络处理待分词文本,得到待分词文本的隐多粒度局部特征;再经过一个k‑max池化层,仅保留其中比较重要的局部特征;接着由一个双向的LSTM循环神经网络将句子中的上下文信息联系起来;最后应用标签推断,得到句子级别上的最优分词结果。本发明通过结合隐多粒度局部特征和上下文信息,使得分词效果得到提升,具有很大的实用价值。 | ||
搜索关键词: | 一种 基于 粒度 局部 特征 中文 分词 方法 | ||
【主权项】:
一种基于隐多粒度局部特征的中文分词方法,其特征在于,所述神经网络包含以下结构和步骤:(1)输入句子的字符向量参数化:对输入字符进行映射,将离散的字符转化为数值向量,即嵌入式的字符表示,输入的待分词文本即可数值化为各个字符的数值向量连接而成的矩阵;(2)卷积神经网络提取隐多粒度局部信息:对步骤(1)得到的文本矩阵进行卷积操作,得到文本中各个字符周围的隐多粒度局部特征;(3)池化层的k‑max池化操作增强网络的非线性,并控制参数个数:对步骤(2)中得到的隐多粒度局部特征进行k‑max池化操作,对每个卷积核得到的结果仅保留k个最显著的局部特征;(4)双向循环神经网络提取长距离的上下文信息:对步骤(3)中得到的局部特征进行处理,双向循环神经网络的两个网络单元从上文和下文分别将上下文的信息结合进局部特征之中,得到新的特征表示;(5)前向神经网络计算各个字符的标签得分:对步骤(4)中得到的包含了局部特征和上下文信息的特征表示进行处理,特征表示经过一个前向网络得到各个字符的各个标签的概率;(6)使用标签推断方法得到最优标签序列:对步骤(5)中得到的各个字符的各个标签的概率进行处理,在整个句子层面对各个字符的标签进行推断,得到整个句子上最优的标签序列,即整个句子上最优的分词结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710269863.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种基于嵌入式表示的自适应中文分词方法
- 下一篇:一种新型电缆桥架