[发明专利]一种信息识别的方法和服务器无效
申请号: | 201210261364.6 | 申请日: | 2012-07-26 |
公开(公告)号: | CN103577430A | 公开(公告)日: | 2014-02-12 |
发明(设计)人: | 蔡兵;王静帆 | 申请(专利权)人: | 深圳市世纪光速信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 罗振安 |
地址: | 518057 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 信息 识别 方法 服务器 | ||
1.一种信息识别的方法,其特征在于,所述方法包括:
获取待识别的网页对应的网页内容;
根据所述网页内容查找预先设置的特征集得到匹配的特征词,并在所述特征集中获取所述特征词的模型权重参数;
计算所述特征词在所述网页中的权重;
根据所述特征词在所述网页中的权重和所述特征词的模型权重参数,判断所述网页内容是否包含预设信息。
2.如权利要求1所述的方法,其特征在于,所述获取待识别的网页对应的网页内容,包括:
获取待识别的网页中的文本内容;
对所述文本内容进行分词,将每一个分词后的词汇作为所述网页对应的网页内容。
3.如权利要求1所述的方法,其特征在于,所述计算所述特征词在所述网页中的权重,包括:
获取所述特征词在所述网页中出现的第一频率;
获取所述特征词在预先指定的网页中出现的第二频率;
根据所述第一频率和所述第二频率,按照预设的第一算法计算得到所述特征词在所述网页中的权重。
4.如权利要求1所述的方法,其特征在于,所述根据所述特征词在所述网页中的权重和所述特征词的模型权重参数,判断所述网页内容是否包含预设信息,包括:
根据所述特征词在所述网页中的权重,以及所述特征词的模型权重参数,按照预设的第二算法计算得到所述网页的评分;
当所述网页的评分大于预设阈值时,判定所述网页包含预设的信息。
5.如权利要求1所述的方法,其特征在于,所述获取待识别的网页对应的网页内容之前,还包括:
获取含有预设的信息关键词的网页,将所述网页作为训练样本;
在所述训练样本中查找是否存在预设的词汇集合中的词汇,根据查找到的词汇在所述训练样本中的出现频率,以及所述查找到的词汇在预先指定的网页中出现的频率,计算所述查找到的词汇的权重,并根据所述权重选取预设数量的词汇作为特征集中的特征词;
随机指定每一个特征词的模型权重参数初始值,通过文本分类算法对所述每一个特征词的模型权重参数初始值进行迭代,得到每一个特征词的模型权重参数,使得根据所述每一个特征词的模型权重参数计算得到的预设的信息计算模型判别误差达到最小。
6.一种信息识别的服务器,其特征在于,所述服务器包括:
第一获取模块,用于获取待识别的网页对应的网页内容;
匹配模块,用于根据所述网页内容查找预先设置的特征集得到匹配的特征词,并在所述特征集中获取所述特征词的模型权重参数;
第一权重计算模块,用于计算所述特征词在所述网页中的权重;
识别模块,用于根据所述特征词在所述网页中的权重和所述特征词的模型权重参数,判断所述网页内容是否包含预设信息。
7.如权利要求6所述的服务器,其特征在于,所述第一获取模块,包括:
第一获取单元,用于获取待识别的网页中的文本内容;
分词单元,用于对所述文本内容进行分词,将每一个分词后的词汇作为所述网页对应的网页内容。
8.如权利要求6所述的服务器,其特征在于,所述第一权重计算模块,包括:
第二获取单元,用于获取所述特征词在所述网页中出现的第一频率;
第三获取单元,用于获取所述特征词在预先指定的网页中出现的第二频率;
权重计算单元,用于根据所述第一频率和所述第二频率,按照预设的第一算法计算得到所述特征词在所述网页中的权重。
9.如权利要求6所述的服务器,其特征在于,所述识别模块,包括:
处理单元,用于根据所述特征词在所述网页中的权重,以及所述特征词的模型权重参数,按照预设的第二算法计算得到所述网页的评分;
判定单元,用于当所述网页的评分大于预设阈值时,判定所述网页包含预设的信息。
10.如权利要求6所述的服务器,其特征在于,所述服务器还包括:
第二获取模块,用于获取含有预设的信息关键词的网页,将所述网页作为训练样本;
第二权重计算模块,用于在所述训练样本中查找是否存在预设的词汇集合中的词汇,根据查找到的词汇在所述训练样本中的出现频率,以及所述查找到的词汇在预先指定的网页中出现的频率,计算所述查找到的词汇的权重,并根据所述权重选取预设数量的词汇作为特征集中的特征词;
模型权重参数计算模块,用于随机指定每一个特征词的模型权重参数初始值,通过文本分类算法对所述每一个特征词的模型权重参数初始值进行迭代,得到每一个特征词的模型权重参数,使得根据所述每一个特征词的模型权重参数计算得到的预设的信息计算模型判别误差达到最小。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市世纪光速信息技术有限公司,未经深圳市世纪光速信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210261364.6/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置