[发明专利]垃圾文件识别装置和方法有效
申请号: | 201611018525.3 | 申请日: | 2016-11-11 |
公开(公告)号: | CN106708426B | 公开(公告)日: | 2019-10-01 |
发明(设计)人: | 张龙 | 申请(专利权)人: | 努比亚技术有限公司 |
主分类号: | G06F3/06 | 分类号: | G06F3/06 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 胡海国 |
地址: | 518057 广东省深圳市南山区高新区北环大道9018*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 垃圾文件 待识别文件 文件夹信息 识别装置 特征信息 综合概率 预设 字典 文件夹路径 标记模块 存储规则 提取模块 预先配置 字典模块 分类器 识别率 垃圾 遗漏 概率 | ||
本发明公开了一种垃圾文件识别装置,所述装置包括:字典模块,用于获取待识别文件的父文件夹路径,判断所述路径是否位于预设的垃圾字典中;提取模块,用于若所述路径不位于所述垃圾字典中,则提取所述待识别文件的特征信息和父文件夹信息;概率模块,用于根据所述待识别文件的特征信息和父文件夹信息,预先配置的分类器及垃圾文件存储规则集,计算所述待识别文件为垃圾文件的综合概率;标记模块,用于若所述待识别文件为垃圾文件的综合概率大于或等于预设阀值,则将所述待识别文件标记为垃圾文件。本发明还公开了一种垃圾文件识别方法。本发明减少了垃圾文件的遗漏,提高了垃圾文件的识别率。
技术领域
本发明涉及信息识别技术领域,尤其涉及一种垃圾文件识别装置和方法。
背景技术
随着手机使用时间的增长,手机中的文件会越来越多,引发手机的卡顿问题,严重影响使用者使用手机的用户体验。因此,识别并删除对用户无用的文件(即垃圾文件),一直是手机管家类软件研究的重点问题。
目前,现有的识别垃圾文件的方法都是采用基于垃圾字典的方法。此方法需要通过大量测试找到各个常用应用软件产生垃圾文件的路径信息,然后将这些路径信息整理成垃圾路径数据库(垃圾字典)。清理垃圾文件时,判断垃圾文件的标准是此文件的父文件夹路径是否在垃圾字典中,如果在垃圾字典中,则此文件为垃圾文件,可以清理;反之,则不是垃圾文件,不能清理。
但是,由于市场上应用软件繁多,很难对每个应用软件都进行测试来寻找其垃圾路径,而且即使对于常用的应用软件,也很难测试出其所有的垃圾路径。这些种种因素导致目前的基于垃圾字典的识别方法遗漏大量垃圾路径,垃圾文件识别率不高。因此,在保证识别的垃圾文件的准确性基础上,如何减少垃圾文件的遗漏,提高垃圾文件的识别率,成为亟待解决的问题。
发明内容
本发明的主要目的在于提供一种垃圾文件识别装置和方法,旨在解决如何提高垃圾文件的识别率的技术问题。
为实现上述目的,本发明提供一种垃圾文件识别装置,所述垃圾文件识别装置包括:
字典模块,用于获取待识别文件的父文件夹路径,判断所述路径是否位于预设的垃圾字典中;
提取模块,用于若所述路径不位于所述垃圾字典中,则提取所述待识别文件的特征信息和父文件夹信息;
概率模块,用于根据所述待识别文件的特征信息和父文件夹信息,预先配置的分类器及垃圾文件存储规则集,计算所述待识别文件为垃圾文件的综合概率;
标记模块,用于若所述待识别文件为垃圾文件的综合概率大于或等于预设阀值,则将所述待识别文件标记为垃圾文件。
在一个实施例中,所述待识别文件的父文件夹信息包括父文件夹的名称、路径和特征信息,所述概率模块还用于,
根据所述垃圾文件存储规则集和所述待识别文件的父文件夹名称、路径,计算所述待识别文件为垃圾文件的第一概率;将所述待识别文件的特征信息和所述待识别文件父文件夹的特征信息输入所述分类器,获取所述分类器输出的所述待识别文件为垃圾文件的第二概率;依据所述第一概率、第二概率及预设的权重值,计算所述待识别文件为垃圾文件的综合概率。
在一个实施例中,所述垃圾文件识别装置还包括:
配置模块,用于依据采集的样本应用软件的垃圾文件路径信息,配置所述垃圾字典;根据预先配置的样本文件中各类别垃圾文件的父文件夹名称和路径,配置所述垃圾文件存储规则集;根据所述样本文件训练分类器模型得到所述分类器。
在一个实施例中,所述配置模块还用于,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于努比亚技术有限公司,未经努比亚技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611018525.3/2.html,转载请声明来源钻瓜专利网。