[发明专利]一种基于复杂网络分析的小程序克隆检测方法在审
申请号: | 202310045745.9 | 申请日: | 2023-01-30 |
公开(公告)号: | CN116028112A | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 范铭;鄢子强;王寅;石吉飞;刘峻峰;陶俊杰;刘烃;晋武侠 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F8/75 | 分类号: | G06F8/75 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 王艾华 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 复杂 网络分析 程序 克隆 检测 方法 | ||
1.一种基于复杂网络分析的小程序克隆检测方法,其特征在于,包括如下步骤:
步骤S101:对于待检测小程序S进行预处理,包括反编译、反混淆和提取主包;
步骤S102:根据步骤S101得到的预处理后的待检测小程序S源码,通过分析文件类型和源代码抽象语法树提取统计特征SF、布局特征LF、自定义函数特征CFF、文件依赖特征FDF和双层依赖特征TLDF;
步骤S103:根据步骤S102得到的待检测小程序S的统计特征SF,计算其与克隆小程序家族簇中心的距离,将待检测小程序S划分到最近的克隆小程序家族簇中;
步骤S104:根据步骤S103得到的克隆小程序家族簇,将待检测小程序S与克隆小程序家族簇中的每个小程序组成小程序对,小程序对的相似度向量分别是布局特征LF、自定义函数特征CFF、文件依赖特征FDF和双层依赖特征TLDF的相似度;
步骤S105:利用预先标注标签为克隆和非克隆的小程序对的相似度向量,使用机器学习方法构建分类器;
步骤S106:根据步骤S105得到的分类器,输入步骤S104待检测小程序S与克隆小程序家族簇中的每个小程序组成的小程序对的相似度向量,对小程序对进行二分类,分为克隆小程序对和非克隆小程序对,由此找出与待检测小程序S克隆的小程序。
2.根据权利要求1所述的方法,其特征在于,所述步骤S101具体为:
步骤S201:根据小程序打包规则将待检测小程序S的打包文件反编译获得其源码;
步骤S202:根据步骤S201得到的待检测小程序S源码,提取混淆模式与现有混淆方法匹配,若与现有混淆方法能匹配则使用对应的反混淆方法将源码反混淆;
步骤S203:根据步骤S202得到的反混淆后的待检测小程序S源码,收集整理获得小程序常用的第三方库T,对于待检测小程序源码S中的文件f,使用文件名和文件大小属性与T中已知第三方库文件匹配,如果S源码中的文件f满足匹配,则对f进行第三方库文件滤除。
3.根据权利要求1所述的方法,其特征在于,所述步骤S102中统计特征SF为一个241维向量,前3维分别是小程序的页面数、静态文件平均数、开发者自定义函数数,第4维到第137维是sourceAPI调用次数,第138维到第241维是sinkAPI调用次数。
4.根据权利要求1或3所述的方法,其特征在于,所述步骤S102提取统计特征SF具体为:
步骤S301:根据步骤S101得到的预处理后的待检测小程序S源码,从路由组件、路由函数、app.json的pages字段和tabbar字段统计小程序的页面数;
步骤S302:根据步骤S101得到的预处理后的待检测小程序S源码,通过比对文件类型统计静态资源文件目录下静态资源文件的平均数,静态资源文件目录指目录下文件均为静态资源文件的目录,而静态资源文件则指不是json、js、类html和css的文件;
步骤S303:根据步骤S101得到的预处理后的待检测小程序S源码,统计开发者自己定义函数的数量,开发者自己定义函数指非系统定义和第三方库定义的函数;
步骤S304:根据步骤S101得到的预处理后的待检测小程序S源码,统计sourceAPI调用次数和sinkAPI调用次数,sourceAPI是将敏感数据作为返回值的API,sinkAPI是将敏感数据作为参数传入的API;
步骤S305:将步骤S301、步骤S302、步骤S303和步骤S304得到的数据组成特征向量作为待检测小程序S的统计特征SF。
5.根据权利要求1所述的方法,其特征在于,所述步骤S102中布局特征LF为哈希序列,表示为LF(S)=fh1,…,fhN,fhi表示第i个哈希值;
所述步骤S102提取布局特征LF具体为:
步骤S401:根据步骤S101得到的预处理后的待检测小程序S源码,解析用于页面布局展示的类html文件,提取出组件序列;
步骤S402:根据步骤S401得到的组件序列,使用弱哈希将其分片;
步骤S403:根据步骤S402得到的分片后的组件序列,使用强哈希计算分片的哈希值,将新的哈希序列作为其布局特征LF。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310045745.9/1.html,转载请声明来源钻瓜专利网。