[发明专利]一种基于LSTM的分词方法在审
申请号: | 201710946908.5 | 申请日: | 2017-10-12 |
公开(公告)号: | CN107844475A | 公开(公告)日: | 2018-03-27 |
发明(设计)人: | 岳永鹏;唐华阳 | 申请(专利权)人: | 北京知道未来信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/04;G06N3/08 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙)11200 | 代理人: | 司立彬 |
地址: | 100102 北京市朝阳区阜*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 lstm 分词 方法 | ||
1.一种基于LSTM的分词方法,其步骤包括:
1)将训练语料数据Original转化为字符级的语料数据New_Data;
2)将该语料数据New_Data按照句子长度划分,得到若干句子;然后根据句子长度对得到的句子进行分组,得到包括n组句子的数据集合GroupData;
3)从该数据集合GroupData中抽取若干数据作为迭代数据;
4)将每次的迭代数据转换为固定长度的向量送入深度学习模型LSTM,训练该深度学习模型LSTM的参数,当深度学习模型产生的损失值迭代变化小于设定阈值不再降低或者达到最大迭代次数,则终止深度学习模型的训练,得到训练后的深度学习模型LSTM;
5)将待预测的语料数据转换成转化为字符级的语料数据,并将其送入训练好的深度学习模型LSTM,得到分词结果。
2.如权利要求1所述的方法,其特征在于,该固定长度等于该深度学习模型LSTM中的第一层LSTM层的LSTM单元个数。
3.如权利要求2所述的方法,其特征在于,产生该损失值的方法为:
31)将迭代数据在深度学习模型LSTM的字符向量量化层进行向量化,将迭代数据中的每个字符转换成一向量;
32)将该迭代数据中的每一字符对应的向量分别传入该深度学习模型LSTM中第一LSTM层的一LSTM单元,获得分词中字符的特征,且将第一层LSTM第i个LSTM单元的输出同时作为第一层LSTM第i+1个LSTM单元的输入;然后将该第一层LSTM的输出输入到该深度学习模型LSTM中第二LSTM层,获得分词中词的特征,且将第二层LSTM第i个LSTM单元的输出同时作为第二层LSTM第i+1个LSTM单元的输入;
33)将第二层LSTM每一LSTM单元的输出输入到该深度学习模型LSTM的DropOut层;
35)将每一DropOut层的输出经一分类模型处理后,根据得到的输出利用基于熵的损失函数计算损失值。
4.如权利要求3所述的方法,其特征在于,所述损失值其中,yi为字符xi通过深度学习模型LSTM的输出结果,为字符xi的实际标记结果。
5.如权利要求4所述的方法,其特征在于,所述步骤4)中,当损失值迭代变化|Li-Li+1|<ε时终止深度学习模型的训练。
6.如权利要求1所述的方法,其特征在于,所述步骤3)中,每次随机无放回的从该数据集合GroupData中选取一句子分组,从该句子分组中抽取若干句子作为模型单次的迭代数据。
7.如权利要求1所述的方法,其特征在于,所述步骤2)中,将|li-lj|<δ的句子归入一组;其中,li表示第i句话的句子长度、lj表示第j句话的句子长度,δ表示句子长度间隔。
8.如权利要求1所述的方法,其特征在于,所述步骤1)中,按照BMES的标记方式将原始训练语料数据字符切分标记New_Data;设一词语对应的标签为Label,则位于该词语最开始的字符标记为Label B,位于该词语中间的字符标记为Label M,位于该词语末尾的字符标记为Label E,如果该字符独立构成一个词则标记为Label S。
9.如权利要求1所述的方法,其特征在于,使用Adam梯度下降算法训练该深度学习模型LSTM的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京知道未来信息技术有限公司,未经北京知道未来信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710946908.5/1.html,转载请声明来源钻瓜专利网。