[发明专利]一种信息识别的方法和服务器无效
申请号: | 201210261364.6 | 申请日: | 2012-07-26 |
公开(公告)号: | CN103577430A | 公开(公告)日: | 2014-02-12 |
发明(设计)人: | 蔡兵;王静帆 | 申请(专利权)人: | 深圳市世纪光速信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 罗振安 |
地址: | 518057 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 信息 识别 方法 服务器 | ||
技术领域
本发明涉及计算机安全领域,特别涉及一种信息识别的方法和服务器。
背景技术
随着互联网的快速发展,越来越多的招嫖信息类网页、与招嫖相关的论坛、博客等页面充斥在网页中,严重影响人们的身心健康。因此,如何识别出招嫖信息,以对互联网实现净化,一直是人们关注的焦点和致力于解决的问题。
现有技术中,招嫖信息主要包括一些找小姐、酒店公关、伴游、夜场公主等相关内容。对招嫖信息进行识别时一般在搜索引擎中设置敏感词,通过该敏感词对网页进行过滤,以控制网页的显示内容。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
利用敏感词识别网页的方式过于死板,效果不佳,且容易造成较高的误判,如对于一些这方面的报导和新闻页面等容易误判。
发明内容
为了解决现有技术中通过敏感词识别招嫖信息效率低的问题,本发明实施例提供了一种信息识别的方法和服务器。所述技术方案如下:
一方面,提供了一种信息识别的方法,所述方法包括:
获取待识别的网页对应的网页内容;
根据所述网页内容查找预先设置的特征集得到匹配的特征词,并在所述特征集中获取所述特征词的模型权重参数;
计算所述特征词在所述网页中的权重;
根据所述特征词在所述网页中的权重和所述特征词的模型权重参数,判断所述网页内容是否包含预设信息。
其中,所述获取待识别的网页对应的网页内容,包括:
获取待识别的网页中的文本内容;
对所述文本内容进行分词,将每一个分词后的词汇作为所述网页对应的网页内容。
其中,所述计算所述特征词在所述网页中的权重,包括:
获取所述特征词在所述网页中出现的第一频率;
获取所述特征词在预先指定的网页中出现的第二频率;
根据所述第一频率和所述第二频率,按照预设的第一算法计算得到所述特征词在所述网页中的权重。
其中,所述根据所述特征词在所述网页中的权重和所述特征词的模型权重参数,判断所述网页内容是否包含预设信息,包括:
根据所述特征词在所述网页中的权重,以及所述特征词的模型权重参数,按照预设的第二算法计算得到所述网页的评分;
当所述网页的评分大于预设阈值时,判定所述网页包含预设的信息。
其中,所述获取待识别的网页对应的网页内容之前,还包括:
获取含有预设的信息关键词的网页,将所述网页作为训练样本;
在所述训练样本中查找是否存在预设的词汇集合中的词汇,根据查找到的词汇在所述训练样本中的出现频率,以及所述查找到的词汇在预先指定的网页中出现的频率,计算所述查找到的词汇的权重,并根据所述权重选取预设数量的词汇作为特征集中的特征词;
随机指定每一个特征词的模型权重参数初始值,通过文本分类算法对所述每一个特征词的模型权重参数初始值进行迭代,得到每一个特征词的模型权重参数,使得根据所述每一个特征词的模型权重参数计算得到的预设的信息计算模型判别误差达到最小。
另一方面,提供了一种信息识别的服务器,所述服务器包括:
第一获取模块,用于获取待识别的网页对应的网页内容;
匹配模块,用于根据所述网页内容查找预先设置的特征集得到匹配的特征词,并在所述特征集中获取所述特征词的模型权重参数;
第一权重计算模块,用于计算所述特征词在所述网页中的权重;
识别模块,用于根据所述特征词在所述网页中的权重和所述特征词的模型权重参数,判断所述网页内容是否包含预设信息。
其中,所述第一获取模块,包括:
第一获取单元,用于获取待识别的网页中的文本内容;
分词单元,用于对所述文本内容进行分词,将每一个分词后的词汇作为所述网页对应的网页内容。
其中,所述第一权重计算模块,包括:
第二获取单元,用于获取所述特征词在所述网页中出现的第一频率;
第三获取单元,用于获取所述特征词在预先指定的网页中出现的第二频率;
权重计算单元,用于根据所述第一频率和所述第二频率,按照预设的第一算法计算得到所述特征词在所述网页中的权重。
其中,所述识别模块,包括:
处理单元,用于根据所述特征词在所述网页中的权重,以及所述特征词的模型权重参数,按照预设的第二算法计算得到所述网页的评分;
判定单元,用于当所述网页的评分大于预设阈值时,判定所述网页包含预设的信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市世纪光速信息技术有限公司,未经深圳市世纪光速信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210261364.6/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置