[发明专利]一种模拟神经网络的文本过滤方法在审

申请号：	201510238616.7	申请日：	2015-05-12
公开（公告）号：	CN104866550A	公开（公告）日：	2015-08-26
发明（设计）人：	蒋大可;何俊;莫燕峰	申请（专利权）人：	湖北光谷天下传媒股份有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06N3/02
代理公司：	武汉天力专利事务所 42208	代理人：	冯卫平
地址：	430077 湖北省武汉市***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种模拟神经网络文本过滤方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种文字处理方法，特别是一种模拟神经网络的文本过滤方法。

背景技术

目前网络作为传播信息的主要工具，不仅提供了人们所需要的资源，还充斥着大量的垃圾信息，为了防止这些垃圾信息通传播，实现网络信息安全，最有效的解决方法就是对这些内容信息进行关键词过滤，但垃圾信息的表现形式、内容、以及范围每时每刻都在不断变化，如何应对这种不断变化的垃圾信息、敏感词汇成为了亟待解决的难题。

发明内容

本发明的目的在于提供一种模拟神经网络的文本过滤方法，采用本方法对文本信息进行过滤，可进行自我学习，不断更新其数据库，以识别不断变化的垃圾信息。

实现本发明目的的技术方案是: 一种模拟神经网络的文本过滤方法，其特征在于：包含以下步骤：

1.1.输入待过滤的文本信息，启动过滤功能模块；

1.2.通过逐一比对字符，清除不属于UTF8国际字符集标准汉字的字符，得到汉语字串；

1.3.加载神经网络，将汉语字串通过神经网络输入端输入；

1.4.待过滤的汉语字串从左到右排成一行，由于存在换行的因而形成多行，从而构成二维平面结构；

1.5. 神经网络由大量神经节点组成，每个神经节点互相联通，形成网状结构，在计算机中，由大型数组模拟神经连接，每个数组元素表示某神经单元与另一神经单元的激活阈值，初始系统完全由随机数填充所有数组，当汉语字串输入时，每一层神经网络通过加权获得计算其是否激活，加权计算公式为:

x1*w1+x2*w2+……+xn*wn>t则输出1，否则输出0

其中xn代表n个输入端的输入信号wn为神经元关联权重，t为阈值；

1.6.程序的计算结果返回一组二进制数字，这组二进制数字串每一位都对应一个敏感词，用“0”代表没发现该敏感词，用“1”代表发现该敏感词；

1.7. 将敏感词汇集合返回并显示到页面结果窗口。

而且神经网络需要经过大量的训练才能达到识别的要求，训练时首先初始化各层连接权值，初始化使用随机算法，每个节点的权值随机生成，而后输入大量无意义汉字，这其中隐藏了一个至多个预先设定的敏感词汇，通过程序计算后得到的结果，与已知的结果进行比较后，根据误差调整上述各节点权值，直到神经网络可以轻易的识别敏感词汇为止，使用大量已知敏感词汇进行训练，使得神经网络可以识别大量敏感词汇。

本发明的优点在于：1.可进行自我学习，不断更新其数据库，以识别不断变化的垃圾信息。2.采用二维平面结构来表现汉语字串，不单能识别普通的垃圾信息，也能识别采用竖行或斜行书写的“藏头”垃圾信息。

附图说明

图1是本方法的逻辑步骤图。

具体实施方式