[发明专利]一种基于双通道文本卷积神经网络的带噪非法短文本识别方法在审
申请号: | 201811446969.6 | 申请日: | 2018-11-29 |
公开(公告)号: | CN109670041A | 公开(公告)日: | 2019-04-23 |
发明(设计)人: | 周建政;姚金良;黄金海;明建华;俞月伦 | 申请(专利权)人: | 天格科技(杭州)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27;G06F17/21;G06F17/22;G06F17/26 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 郑海峰 |
地址: | 310005 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于双通道文本卷积神经网络的带噪非法短文本识别方法。包括带噪短文本的预处理、双通道文本卷积神经网络模型的构建,以及模型的训练和实时识别。带噪短文本的预处理用于噪声字符的标准化,消除噪声的影响,提高卷积神经网络模型的学习能力。双通道文本卷积神经网络模型是一个可以同时输入预处理后字符序列和拼音序列的文本卷积神经网络模型。由于增加了拼音序列的输入和建模能力,因此该模型可消除同音字符替换对分类性能影响。本发明能够处理同音字符替换、形状相似的英文字符替换、各种语义相同的数字符号替换等带来的影响,实验结果显示本发明方法对带噪声的非法短文本的识别具有较高的识别准确率和较低的误检率。 | ||
搜索关键词: | 卷积神经网络 短文本 双通道 文本 预处理 替换 同音字 拼音序列 噪声 非法 分类性能 实时识别 数字符号 消除噪声 形状相似 学习能力 英文字符 字符序列 语义 误检率 准确率 构建 建模 标准化 | ||
【主权项】:
1.一种基于双通道文本卷积神经网络的带噪非法短文本识别方法,其特征在于包括如下步骤:1)带噪短文本的预处理;所述的步骤1)包括数字字符标准化、英文字符标准化、繁体中文字符转简体中文字符、特殊意义符号处理、去除夹杂噪声符号、连续数字字符统一表示、字符串切分和中文字符转拼音表示;2)双通道文本卷积神经网络模型的构建;所述的步骤2)具体为创建一个可以同时输入预处理后字符序列和拼音序列的文本卷积神经网络模型,用于消除同音字符替换对分类性能影响;3)双通道文本卷积神经网络模型的训练和实时识别;其中训练过程通过样本实现参数的优化;实时识别过程为将短文本输入到模型并进行分类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天格科技(杭州)有限公司,未经天格科技(杭州)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811446969.6/,转载请声明来源钻瓜专利网。