[发明专利]识别官方网站的方法和系统有效
申请号: | 201210464529.X | 申请日: | 2012-11-16 |
公开(公告)号: | CN102999590A | 公开(公告)日: | 2013-03-27 |
发明(设计)人: | 于春功;张超旭 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F11/34 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 官方网站 方法 系统 | ||
技术领域
本发明实施例涉及互联网技术领域,具体涉及识别官方网站的方法和系统。
背景技术
互联网,即广域网、局域网及单机按照一定的通讯协议组成的国际计算机网络。互联网是指将两台计算机或者是两台以上的计算机终端、客户端、服务端通过计算机信息技术的手段互相联系起来的结果,人们可以与远在千里之外的朋友相互发送邮件、共同完成一项工作、共同娱乐。
互联网上每天会产生大量的新的文件,其中大部分是新的软件和升级补丁包,这些新的软件和升级补丁包可以作为白名单数据库中的文件。为了及时将这些新的软件和升级补丁包收录进入白名单数据库中,首先要查看这些软件的发布渠道,通常可以通过查看这些软件的官方网站来确定发布渠道,然后对这些官方网站进行监控。
传统的识别软件官方网站的方法包括以下两种:
(1)通过人工识别软件的官方网站。
(2)通过搜索引擎对一些已知软件名称的软件进行半自动抓取,并分析软件的页面样式,来识别软件的官方网站。
上述第一种方法的识别准确率较高,但是召回率较低,并且,通过人工识别每天处理的软件数量很有限,识别效率低、成本高,该方法对于解决少量的重要软件比较适用,但是对整个互联网的所有软件来说,这个方法是不可行的。
上述第二种方法只能针对软件名称已知的一些软件进行识别,并且识别过程依赖于搜索引擎质量的好坏,识别的准确率和监控的召回率很难保证。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的识别官方网站的方法和系统。
根据本发明的一个方面,提供了一种识别官方网站的方法,包括:
获取软件的下载日志;
对所述下载日志进行分析,从所述下载日志中提取候选网站;
将所述候选网站中符合预设条件的网站进行过滤;
从过滤之后的候选网站中确认出软件的官方网站。
本发明实施例中,下载日志包括软件下载的网站信息,
所述对所述下载日志进行分析,从所述下载日志中提取候选网站,包括:
从所述下载日志中解析出所述软件下载的网站信息;
从所述软件下载的网站信息中提取候选网站标识信息。
本发明实施例中,符合预设条件的网站包括下载网站,
将所述候选网站中符合预设条件的网站进行过滤,包括:
统计每个候选网站下下载的软件的个数FCOUNT和软件下载的总次数DCOUNT;
将所述候选网站下软件下载的总次数DCOUNT与下载的软件的个数FCOUNT的比值DCOUNT/FCOUNT与预设的第一阈值进行比较;
当所述比值DCOUNT/FCOUNT大于所述第一阈值时,确定所述候选网站为下载网站;
将所述下载网站过滤。
本发明实施例中,当所述比值DCOUNT/FCOUNT小于或等于所述第一阈值时,还包括:
将所述候选网站下下载的软件的个数FCOUNT与预设的第二阈值进行比较;
当下载的软件的个数FCOUNT大于或等于所述第二阈值时,确定所述网站为下载网站;
将所述下载网站过滤。
本发明实施例中,符合预设条件的网站包括非可执行文件的下载网站,所述软件的下载日志包括下载的软件文件名,
将所述候选网站中的符合预设条件的网站进行过滤,包括:
从所述软件的下载日志中解析出所述候选网站下下载的软件文件名;
判断所述软件文件名中是否存在非可执行文件的名称;
若存在,则确定所述候选网站为非可执行文件的下载网站;
将所述非可执行文件的下载网站过滤。
本发明实施例中,符合预设条件的网站还包括游戏网站,
将所述候选网站中的符合预设条件的网站进行过滤,还包括:
抓取所述候选网站的页面内容;
将所述页面内容输入到预先设置的网站分类器中,通过所述网站分类器过滤所述候选网站中的游戏网站。
本发明实施例中,网站分类器通过以下步骤获得:
分别获取多个官方网站样本和游戏网站样本;
提取所述官方网站样本的页面内容,以及所述游戏网站样本的页面内容,并对所述页面内容进行分词处理;
统计分词之后的官方网站样本的页面内容对应的词频,生成向量V-SOFT,统计分词之后的游戏网站样本的页面内容对应的词频,生成向量V-GAME;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210464529.X/2.html,转载请声明来源钻瓜专利网。