[发明专利]一种基于LSTM的分词方法在审
申请号: | 201710946908.5 | 申请日: | 2017-10-12 |
公开(公告)号: | CN107844475A | 公开(公告)日: | 2018-03-27 |
发明(设计)人: | 岳永鹏;唐华阳 | 申请(专利权)人: | 北京知道未来信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/04;G06N3/08 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙)11200 | 代理人: | 司立彬 |
地址: | 100102 北京市朝阳区阜*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 lstm 分词 方法 | ||
技术领域
本发明属于计算机软件技术领域,涉及一种基于LSTM的分词方法。
背景技术
自然语言处理问题中亚洲类型的文字并非像西文具有天然的空格分隔符,很多西文处理方法并不能直接用于亚洲类型(中文、韩文和日文)文字的处理,这是因为亚洲类型(中文、韩文和日文)必须经过分词的这道工序才能保持和西文一致。因此,分词在亚洲类型文字的处理中是信息处理的基础,其应用场景包括:
1.搜索引擎:搜索引擎中一个重要的功能就是做文档的全文索引,其内容是将文字进行分词,然后将文档的分词结果和文档形成一个倒排索引,用户在查询的时候也是先将查询的输入语句进行分词,而后将分词的结果和索引数据库进行对比,从而找出与当前输入最为相似的文档。
2.自动摘要生成:自动摘要是指将一篇较长的文档用一段较短的语言文字去总结。而在总结的过程中,就需要计算一篇文档中关键词,因此在计算关键词之前必须先对文档做分词处理。
3.自动校对:自动校对是指对一段文字作语法错误的检查,其检查的粒度还是基于词的方式做的检查,因此需要将用户输入的连续文字做分词处理。
传统的分词方法可以分为基于词典的分词,基于词频统计的方法以及基于知识的方法;基于词典的分词严重依赖于词典库,词频统计的HMM(隐马尔可夫)和CRF(条件随机场)其只能关联当前词的前一个词的语义。基于知识的人工神经网络模型因模型训练时的梯度消失问题,在实际的应用中网络层数少,最终分词结果优势不明显。
基于词典的分词方法严重依赖于词典库,效率比较低,且不能够识别未登录词;本发明中登录词指的是已经出现在语料词表中的词,未登录词指的是没有出现在语料词表中的词。
基于词频统计分词方法(例如N-Gram),其只能关联当前词的前N-1个词的语义,识别精度不够高,当N增加的时,效率非常低。而且对未登录的识别率偏低。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种基于LSTM(Long Short-Term Memory,长短期记忆神经网络)的分词方法。本发明通过自然语言处理中的序列标注(sequential labeling)将一个序列作为输入,并训练一个模型使其为每一序列片段数据产生正确的输出。
针对与中文类似(英文天然带有空格作为词之间的分割符)的语言进行分词的方法。本发明的核心问题包含三个:1分词的效率,2分词的精度,3未登录词的识别精度。
本发明的技术方案为:
一种基于LSTM的分词方法,其步骤包括:
1)将训练语料数据Original转化为字符级的语料数据New_Data;
2)将该语料数据New_Data按照句子长度划分,得到若干句子;然后根据句子长度对得到的句子进行分组,得到包括n组句子的数据集合GroupData;
3)从该数据集合GroupData中抽取若干数据作为迭代数据;
4)将每次的迭代数据转换为固定长度的向量送入深度学习模型LSTM,训练该深度学习模型LSTM的参数,当深度学习模型产生的损失值迭代变化小于设定阈值不再降低或者达到最大迭代次数,则终止深度学习模型的训练,得到训练后的深度学习模型LSTM;
5)将待预测的语料数据转换成转化为字符级的语料数据,并将其送入训练好的深度学习模型LSTM,得到分词结果。
进一步的,该固定长度等于该深度学习模型LSTM中的第一层LSTM层的LSTM单元个数。
进一步的,产生该损失值的方法为:
31)将迭代数据在深度学习模型LSTM的字符向量量化层进行向量化,将迭代数据中的每个字符转换成一向量;
32)将该迭代数据中的每一字符对应的向量分别传入该深度学习模型LSTM中第一LSTM层的一LSTM单元,获得分词中字符的特征,且将第一层LSTM第i个LSTM单元的输出同时作为第一层LSTM第i+1个LSTM单元的输入;然后将该第一层LSTM的输出输入到该深度学习模型LSTM中第二LSTM层,获得分词中词的特征,且将第二层LSTM第i个LSTM单元的输出同时作为第二层LSTM第i+1个LSTM单元的输入;
33)将第二层LSTM每一LSTM单元的输出输入到该深度学习模型LSTM的DropOut层;
35)将每一DropOut层的输出经一分类模型处理后,根据得到的输出利用基于熵的损失函
数计算损失值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京知道未来信息技术有限公司,未经北京知道未来信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710946908.5/2.html,转载请声明来源钻瓜专利网。