[发明专利]一种基于LSTM‑CNN的命名实体识别方法在审
申请号: | 201710946731.9 | 申请日: | 2017-10-12 |
公开(公告)号: | CN107832289A | 公开(公告)日: | 2018-03-23 |
发明(设计)人: | 唐华阳;岳永鹏;刘林峰 | 申请(专利权)人: | 北京知道未来信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙)11200 | 代理人: | 邱晓锋 |
地址: | 100102 北京市朝阳区阜*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于LSTM‑CNN的命名实体识别方法。该方法在训练阶段将带有标签的训练语料数据转换为字符级的语料数据,然后训练基于LSTM‑CNN的深度学习模型;在预测阶段将没有标签的测试语料数据转换为字符级的语料数据,然后使用训练阶段训练好的深度学习模型进行预测。本发明采用字符级而不是词语级的向量,可以免受分词精度的影响,同时还可以规避未登录词的问题;另外采用长短期记忆神经网络LSTM和卷积神经网络CNN的组合模型,相比传统的算法能够大幅提高命名实体识别的精度。 | ||
搜索关键词: | 一种 基于 lstm cnn 命名 实体 识别 方法 | ||
【主权项】:
一种基于LSTM‑CNN的命名实体识别方法,其特征在于,包括以下步骤:1)将原始语料数据OrgData转化为字符级的语料数据NewData;2)统计NewData中的字符,得到字符集合CharSet,将每个字符进行编号,得到字符集合CharSet对应的字符编号集合CharID;统计NewData中字符的标签,得到标签集合LabelSet,将每个标签进行编号,得到标签集合LabelSet对应的标签编号集合LabelID;3)将NewData按照句子长度对句子进行分组,得到包括n组句子的数据集合GroupData;4)随机无放回的从GroupData的某组中抽取BatchSize句数据w,以及对应的标签y,并将抽取的数据w通过CharID转换为固定长度的数据BatchData,将对应的标签通过LabelID转换为固定长度的标签yID;5)将数据BatchData及标签yID送入基于LSTM‑CNN的深度学习模型,训练该深度学习模型的参数,当深度学习模型产生的损失值满足设定条件或者达到最大迭代次数N,则终止该深度学习模型的训练;否则采用步骤4)重新生成数据以训练该深度学习模型;6)将待预测的数据PreData转换成与该深度学习模型匹配的数据PreMData,并将其送入训练好的该深度学习模型,得到命名实体识别结果OrgResult。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京知道未来信息技术有限公司,未经北京知道未来信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710946731.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种填充发票抬头的方法及系统
- 下一篇:中文语义关系的识别方法及装置