[发明专利]一种信息处理方法和装置有效
申请号: | 201310148477.X | 申请日: | 2013-04-25 |
公开(公告)号: | CN103198004A | 公开(公告)日: | 2013-07-10 |
发明(设计)人: | 王帅;彭毅;陈健 | 申请(专利权)人: | 北京搜狐新媒体信息技术有限公司 |
主分类号: | G06F11/30 | 分类号: | G06F11/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100084 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 信息处理 方法 装置 | ||
技术领域
本发明涉及信息去重领域,特别是涉及一种信息处理方法和装置。
背景技术
在实时监控环境下,服务器会发送很多实时监控信息到监控端,这里的监控信息包括报警信息和数据信息等,服务器端发送监控信息的频率和服务器的处理器的处理频率成正比,一般来说会非常高,甚至可以达到毫秒级别,而且,这种实时监控信息中有大量的重复信息,所谓的重复信息是指内容及其相似甚至相同的信息,比如说,当服务器的CPU温度在某一时刻高于温度监控阈值时,服务器会不停向监控端发送温度监控信息,直到服务器的CPU温度再次低于监控阈值后停止,在服务器发送温度监控信息这段时间里,发送的温度监控信息中的内容除了个别具体的温度数值外基本相同,如果监控端对接收到的所述温度监控信息不进行任何的去除重复信息处理或者叫去重处理就进行存储操作或者以邮件或短信的形式发送到对应的监控人处的话,首先会浪费大量的网络资源,其次会造成大量邮件短信密集发送,影响监控人的正常工作。
现有的判断数据信息是否为重复数据信息的方法一般都是采用哈希算法,所谓的哈希算法就是把任意长度的文本输入,通过散列函数算法,变换成固定长度的散列值。通过比较两个数据信息的散列值来判断两个数据信息是否重复的数据信息,具体方法一般为:数据信息的文本部分一般由多个句子或者段落构成,比较数据信息的段落数或句子数,对段落数或句子个数相近的两个数据信息进行相似度计算,以每一句为单位,计算出各个句子的散列值,当所有的句子或者段落的散列值的相似度满足给定的阈值的便视为重复数据信息。但是这种算法的计算对象内容繁杂,需要进行大量的比较操作,判断重复数据信息的效率非常低。
发明内容
为了解决上述判断数据信息是否为重复数据信息时需要针对数据信息的文本内容进行大量的计算和比较的技术问题,本发明提供了一种信息处理方法和装置。
本发明实施例公开了如下技术方案:
一种信息处理方法,包括:
接收服务器发送的第一监控信息,所述第一监控信息包括服务器编号和关键词;
根据所述第一监控信息中的服务器编号计算得到对应的散列值;
判断所述散列值对应的地址中是否保存有与所述第一监控信息服务器编号相同的第二监控信息;
如果有,则进一步与第二监控信息的进行关键词比较;
如果关键词相同,则确定所述接收的第一监控信息为相对第二监控信息的重复监控信息。
优选的,所述判断所述散列值对应的地址中是否保存有与所述第一监控信息服务器编号相同的第二监控信息,还包括:
如果没有,则将所述接收的第一监控信息存储在所述散列值对应的地址中对应第一监控信息服务器编号的位置。
优选的,所述进一步与第二监控信息的进行关键词比较,还包括:
如果关键词不同,则将所述接收的第一监控信息存储在所述第二监控信息所在位置。
优选的,所述散列值对应的地址的存储单元的数据结构为堆结构。
优选的,所述第一监控信息和第二监控信息还包括监控信息生成时间。
优选的,当确定所述接收的第一监控信息为相对第二监控信息的重复监控信息后,还包括:
计算第一监控信息的监控信息生成时间与第二监控信息的监控信息生成时间的时间差;
比较所述时间差与预设时间阈值的大小;
如果所述时间差大于等于预设时间阈值,则将第二监控信息的内容更新为第一监控信息的内容;
如果所述时间差小于预设时间阈值,则将第一监控信息丢弃。
一种信息处理装置,包括:
第一监控信息接收单元,用于接收服务器发送的第一监控信息,所述第一监控信息包括服务器编号和关键词;
计算散列值单元,用于根据所述第一监控信息中的服务器编号计算得到对应的散列值;
第一判断单元,用于判断所述散列值对应的地址中是否保存有与所述第一监控信息服务器编号相同的第二监控信息;
如果有,则执行第一比较单元;
第一比较单元,用于进一步与第二监控信息的进行关键词比较;
如果关键词相同,则确定所述接收的第一监控信息为相对第二监控信息的重复监控信息。
优选的,所述第一判断单元,还用于:
如果没有,则将所述接收的第一监控信息存储在所述散列值对应的地址中对应第一监控信息服务器编号的位置。
优选的,所述第一比较单元,还用于:
如果关键词不同,则将所述接收的第一监控信息存储在所述第二监控信息所在位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狐新媒体信息技术有限公司,未经北京搜狐新媒体信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310148477.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种泥石流预警系统及方法
- 下一篇:网络式背景音乐播放系统