[发明专利]一种基于Bi-LSTM-CNN的分词方法在审

申请号：	201710946824.1	申请日：	2017-10-12
公开（公告）号：	CN107967252A	公开（公告）日：	2018-04-27
发明（设计）人：	唐华阳;岳永鹏;刘林峰	申请（专利权）人：	北京知道未来信息技术有限公司
主分类号：	G06F17/27	分类号：	G06F17/27;G06N3/08
代理公司：	北京君尚知识产权代理事务所(普通合伙)11200	代理人：	司立彬
地址：	100102 北京市朝阳区阜***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 bi lstm cnn 分词方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于计算机软件技术领域，涉及一种基于Bi-LSTM-CNN的分词方法。

背景技术

自然语言处理问题中亚洲类型的文字并非像西文具有天然的空格分隔符，很多西文处理方法并不能直接用于亚洲类型(中文、韩文和日文)文字的处理，这是因为亚洲类型(中文、韩文和日文)必须经过分词的这道工序才能保持和西文一致。因此，分词在亚洲类型文字的处理中是信息处理的基础，其应用场景包括：

1.搜索引擎：搜索引擎中一个重要的功能就是做文档的全文索引，其内容是将文字进行分词，然后将文档的分词结果和文档形成一个倒排索引，用户在查询的时候也是先将查询的输入语句进行分词，而后将分词的结果和索引数据库进行对比，从而找出与当前输入最为相似的文档。

2.自动摘要生成：自动摘要是指将一篇较长的文档用一段较短的语言文字去总结。而在总结的过程中，就需要计算一篇文档中关键词，因此在计算关键词之前必须先对文档做分词处理。

3.自动校对：自动校对是指对一段文字作语法错误的检查，其检查的粒度还是基于词的方式做的检查，因此需要将用户输入的连续文字做分词处理。

传统的分词方法可以分为基于词典的分词，基于词频统计的方法以及基于知识的方法；基于词典的分词严重依赖于词典库，词频统计的HMM(隐马尔可夫)和CRF(条件随机场)其只能关联当前词的前一个词的语义。基于知识的人工神经网络模型因模型训练时的梯度消失问题，在实际的应用中网络层数少，最终分词结果优势不明显。

基于词典的分词方法严重依赖于词典库，效率比较低，且不能够识别未登录词；本发明中登录词指的是已经出现在语料词表中的词，未登录词指的是没有出现在语料词表中的词。

基于词频统计分词方法(例如N-Gram)，其只能关联当前词的前N-1个词的语义，识别精度不够高，当N增加的时，效率非常低。而且对未登录的识别率偏低。

发明内容

针对现有技术中存在的技术问题，本发明的目的在于提供一种基于Bi-LSTM-CNN的分词方法。本发明通过自然语言处理中的序列标注(sequential labeling)将一个序列作为输入，并训练一个模型使其为每一序列片段数据产生正确的输出。

针对与中文类似(英文天然带有空格作为词之间的分割符)的语言进行分词的方法。本发明要解决的核心问题包含三个：1分词的效率，2分词的精度，3未登录词的识别精度。

本发明的技术方案为：

一种基于Bi-LSTM-CNN的分词方法，其步骤包括：

1)将训练语料数据OrgData转化为字符级的语料数据NewData；

2)统计该语料数据NewData字符得到一字符集合CharSet，并对该字符集合CharSet中每个字符进行编号，得到该字符集合CharSet对应的字符编号集合CharID；统计NewData中的字符的标签，得到一标签集合LabelSet，对该标签集合LabelSet的标签进行编号，得到对应的标签编号集合LabelID；

3)将NewData按照句子长度划分，得到若干句子；然后根据句子长度对得到的句子进行分组，得到包括n组句子的数据集合GroupData；

4)随机无放回的从该数据集合GroupData中选取一句子分组，从该句子分组中抽取BatchSize个句子，每一个句子的字符构成一数据w，该句子的字符对应的标签集合为y；根据字符编号集合CharID将数据w转换为对应的编号，得到数据BatchData；根据标签编号集合LabelID将集合y中的标签转换为对应的编号，得到数据y_ID；

5)将步骤4)生成的多个数据BatchData及其对应的标签数据y_ID一起送入深度学习模型Bi-LSTM-CNN，训练该深度学习模型Bi-LSTM-CNN的参数，当深度学习模型产生的损失值Cost(y′,y_ID)满足设定条件或者达到最大迭代次数N，则终止深度学习模型的训练，得到训练后的深度学习模型Bi-LSTM-CNN；否则采用步骤4)的方法重新生成数据BatchData训练该深度学习模型Bi-LSTM-CNN；

6)将待预测的数据PreData转换成与该深度学习模型Bi-LSTM-CNN匹配的数据PreMData，并将其送入训练好的深度学习模型Bi-LSTM-CNN，得到分词结果OrgResult。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京知道未来信息技术有限公司，未经北京知道未来信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710946824.1/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于Bi-LSTM-CNN的命名实体识别方法
下一篇：一种基于迁移学习的低资源领域分词器训练方法及分词方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于Bi-LSTM-CNN的分词方法在审

专利文献下载