[发明专利]一种基于隐多粒度局部特征的中文分词方法在审

专利信息
申请号: 201710269863.2 申请日: 2017-04-24
公开(公告)号: CN107145484A 公开(公告)日: 2017-09-08
发明(设计)人: 包祖贻;李思;徐蔚然 申请(专利权)人: 北京邮电大学
主分类号: G06F17/27 分类号: G06F17/27;G06N3/04
代理公司: 暂无信息 代理人: 暂无信息
地址: 100876 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明实施例公开了一种基于隐多粒度局部特征的中文分词方法。属于信息处理领域。该方法的特征包括先利用多卷积核的卷积神经网络处理待分词文本,得到待分词文本的隐多粒度局部特征;再经过一个k‑max池化层,仅保留其中比较重要的局部特征;接着由一个双向的LSTM循环神经网络将句子中的上下文信息联系起来;最后应用标签推断,得到句子级别上的最优分词结果。本发明通过结合隐多粒度局部特征和上下文信息,使得分词效果得到提升,具有很大的实用价值。
搜索关键词: 一种 基于 粒度 局部 特征 中文 分词 方法
【主权项】:
一种基于隐多粒度局部特征的中文分词方法,其特征在于,所述神经网络包含以下结构和步骤:(1)输入句子的字符向量参数化:对输入字符进行映射,将离散的字符转化为数值向量,即嵌入式的字符表示,输入的待分词文本即可数值化为各个字符的数值向量连接而成的矩阵;(2)卷积神经网络提取隐多粒度局部信息:对步骤(1)得到的文本矩阵进行卷积操作,得到文本中各个字符周围的隐多粒度局部特征;(3)池化层的k‑max池化操作增强网络的非线性,并控制参数个数:对步骤(2)中得到的隐多粒度局部特征进行k‑max池化操作,对每个卷积核得到的结果仅保留k个最显著的局部特征;(4)双向循环神经网络提取长距离的上下文信息:对步骤(3)中得到的局部特征进行处理,双向循环神经网络的两个网络单元从上文和下文分别将上下文的信息结合进局部特征之中,得到新的特征表示;(5)前向神经网络计算各个字符的标签得分:对步骤(4)中得到的包含了局部特征和上下文信息的特征表示进行处理,特征表示经过一个前向网络得到各个字符的各个标签的概率;(6)使用标签推断方法得到最优标签序列:对步骤(5)中得到的各个字符的各个标签的概率进行处理,在整个句子层面对各个字符的标签进行推断,得到整个句子上最优的标签序列,即整个句子上最优的分词结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710269863.2/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top