[发明专利]一种基于深度学习的中文错字校正方法在审
申请号: | 201811389401.5 | 申请日: | 2018-11-21 |
公开(公告)号: | CN109522558A | 公开(公告)日: | 2019-03-26 |
发明(设计)人: | 刘林;崔文斌;周建朋;梁栋;张曦 | 申请(专利权)人: | 金现代信息产业股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京久维律师事务所 11582 | 代理人: | 邢江峰 |
地址: | 250101 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于深度学习的中文错字校正方法,包括:S1、利用BiLSTM+Attention+CRF模型进行词语分词;S2、对分词的结果利用提前预置的词库进行匹配,识别出词语中的错别字,并进行校正;S3、利用BiLSTM+Attention机制的语言模型对输入序列进行处理,识别错误的词语。本发明实现了中文文本的高精度分词,解决了现有技术中分词不准确以及错别字识别不准确的问题,通过BiLSTM+Attention+CRF模型提高了分词的精度,提升了错别字校正的准确率,并提高了错别字校正效果,利用双向LSTM实现了更高精度的词语错误检测。 | ||
搜索关键词: | 分词 校正 错别字 词语 错字 错误检测 输入序列 语言模型 中文文本 中文 准确率 词库 预置 匹配 学习 | ||
【主权项】:
1.一种基于深度学习的中文错字校正方法,其特征在于,所述方法包括以下步骤:S1、利用BiLSTM+Attention+CRF模型进行词语分词;S2、对分词的结果利用提前预置的词库进行匹配,识别出词语中的错别字,并进行校正;S3、利用BiLSTM+Attention机制的语言模型对输入序列进行处理,识别错误的词语。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于金现代信息产业股份有限公司,未经金现代信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811389401.5/,转载请声明来源钻瓜专利网。