[发明专利]一种基于变量名混淆程度的脚本启发式检测方法及系统有效
申请号: | 201611245850.3 | 申请日: | 2016-12-29 |
公开(公告)号: | CN106650449B | 公开(公告)日: | 2020-05-22 |
发明(设计)人: | 刘爽;童志明;肖新光 | 申请(专利权)人: | 哈尔滨安天科技集团股份有限公司 |
主分类号: | G06F21/56 | 分类号: | G06F21/56 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150028 黑龙江省哈尔滨市哈尔滨高新技术*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 变量 混淆 程度 脚本 启发式 检测 方法 系统 | ||
1.一种基于变量名混淆程度的脚本启发式检测方法,其特征在于,包括:
收集英文单词语料库;
整合收集到的语料库,使用监督类型的机器学习方法对收集到的语料库进行分类模型训练;
解析待检测脚本,提取出所有变量名称;
将变量名称逐一通过分类模型,判断是否为随机字符串;
对待检测脚本中的随机字符串进行统计;统计内容至少包括随机字符串数量及平均长度;
若所述统计内容中有至少一项超过预设值,则所述待检测脚本为恶意;
所述监督类型的机器学习方法为马尔科夫链法;
马尔科夫链法对收集到的语料库进行分类模型训练方式具体为:
对语料库中的所有单词进行分割,产生多个由两个字母组成的片段,生成状态转移矩阵,对片段进行频率统计;
选取常规单词,以上述相同方式分割,利用上述生成的状态转移矩阵,计算常规单词的出现频率均值,作为常规单词频率;
选取随机非单词字符串,以上述相同方式分割,利用上述生成的状态转移矩阵,计算随机非单词字符串的出现频率均值,作为随机字符串频率;上述常规单词频率应大于随机字符串频率;
根据常规单词频率及随机字符串频率计算分类频率阈值;
将变量名称逐一通过分类模型,判断是否为随机字符串,具体为:将变量名传入分类模型,所述变量名将按照上述方式分割为片段,利用上述生成的状态转移矩阵,计算变量名的出现频率,并与分类频率阈值比较,若大于分类频率阈值,则所述变量名为正常,若小于分类频率阈值,则所述变量名为随机字符串。
2.一种基于变量名混淆程度的脚本启发式检测系统,其特征在于,包括:
语料库收集模块,用于收集英文单词语料库;
模型训练模块,用于整合收集到的语料库,使用监督类型的机器学习方法对收集到的语料库进行分类模型训练;
脚本解析模块,用于解析待检测脚本,提取出所有变量名称;
判断模块,用于将变量名称逐一通过分类模型,判断是否为随机字符串;
统计模块,用于对待检测脚本中的随机字符串进行统计;统计内容至少包括随机字符串数量及平均长度;若所述统计内容中有至少一项超过预设值,则所述待检测脚本为恶意;所述监督类型的机器学习方法为马尔科夫链法;马尔科夫链法对收集到的语料库进行分类模型训练方式具体为:
对语料库中的所有单词进行分割,产生多个由两个字母组成的片段,生成状态转移矩阵,对片段进行频率统计;
选取常规单词,以上述相同方式分割,利用上述生成的状态转移矩阵,计算常规单词的出现频率均值,作为常规单词频率;
选取随机非单词字符串,以上述相同方式分割,利用上述生成的状态转移矩阵,计算随机非单词字符串的出现频率均值,作为随机字符串频率;上述常规单词频率应大于随机字符串频率;
根据常规单词频率及随机字符串频率计算分类频率阈值;将变量名称逐一通过分类模型,判断是否为随机字符串,具体为:将变量名传入分类模型,所述变量名将按照上述方式分割为片段,利用上述生成的状态转移矩阵,计算变量名的出现频率,并与分类频率阈值比较,若大于分类频率阈值,则所述变量名为正常,若小于分类频率阈值,则所述变量名为随机字符串。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨安天科技集团股份有限公司,未经哈尔滨安天科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611245850.3/1.html,转载请声明来源钻瓜专利网。