[发明专利]基于最小分支路径函数胎记的软件局部抄袭证据生成方法有效

申请号：	201711322531.2	申请日：	2017-12-12
公开（公告）号：	CN107967152B	公开（公告）日：	2020-06-19
发明（设计）人：	刘烃;徐茜;佟菲菲;刘欣宇;郑庆华	申请（专利权）人：	西安交通大学
主分类号：	G06F8/75	分类号：	G06F8/75
代理公司：	西安通大专利代理有限责任公司 61200	代理人：	田洲
地址：	710049 陕***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于最小分支路径函数胎记软件局部抄袭证据生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于最小分支路径函数胎记的软件局部抄袭证据生成方法，其特征在于，包括如下步骤：

步骤S101：基于反汇编技术，对原告程序P及被告程序Q对应的可执行二进制文件进行反汇编，记录并分析生成的汇编代码，对于其包含的静态信息进行预处理并以数据表的形式存储；

步骤S102：基于程序的函数内静态控制流图，将一个分支的起始基本块到下一个分支的起始基本块之间的基本块所包含的指令序列作为函数的一条最小分支路径，一个函数F_id的函数胎记FB_id是其所有最小分支路径构成的集合PATH＝{path_id,i|i＝0,1,…n}，提取原告程序P与被告程序Q内所有函数对应的函数胎记PB＝{FB_i|i＝0,1,…,m₁}以及QB＝{FB_j'|j＝0,1,…,m₂}；n为函数胎记FB_id的所有最小分支路径的个数，m₁和m₂分别为原告程序P与被告程序Q中所有函数胎记的个数；

步骤S103：基于原告程序P内的所有函数胎记，计算其对于被告程序Q内的所有函数的函数胎记相似度SIM(FB_i,FB_j'),FB_i∈PBFB_j'∈QB；

步骤S104：基于函数间的相似度以及函数间调用图，发现相似子图集，构建最优相似子图集；

步骤S105：基于最优相似子图集，进行抄袭判定，如存在抄袭，生成抄袭证据；

所述步骤S101具体为使用逆向分析工具来撤除编译和汇编过程，输入为机器语言，输出结果为汇编语言；对原告及被告程序P，Q对应的二进制可执行文件进行反汇编，对反汇编后输出的汇编代码进行分析，对程序包含的静态信息进行预处理，删除库函数以及过小的函数，得到有效的函数信息，以数据表的形式记录存储；

所述静态信息具体包括：基本块，函数，指令，助记符，操作数，函数内静态控制流图以及函数间调用图；

所述过小的函数为指令数小于3的函数；

步骤S102中基于最小分支路径的函数胎记FB_id即最小分支路径集合PATH的提取方法是基于函数的静态控制流图，对函数内的每一个基本块b_id进行分析，如果该基本块的分支大于等于2或该基本块为所属函数的起始基本块，则提取以该基本块为起点的所有最小分支路径集合PATH_id＝{path_id,i|i＝0,1,…,m},并将该集合加入所属函数胎记集合，PATH＝PATH∪PATH_id，m为以基本块b_id为起点的所有最小分支路径的个数；

步骤S102中提取基本块b_id的最小分支路径的方法是为其每一个分支创建一条以b_id为起点的路径path_id,i，对于每一条路径，将其后继基本块不断加入该路径中，直至遇到下一个分支，则该路径经过的基本块内的汇编指令构成了该最小分支路径，这些路径的集合PATH_id即为以该基本块为起点的所有最小分支路径；

步骤S103中函数胎记之间相似度的计算方法是：令原告程序P中的函数Fun_1的胎记FB₁与被告程序Q中函数Fun_2的胎记FB₂'分别表示为PATH₁＝{path_1,i|i＝0,1,…,a}，PATH₂＝{path_2,j|j＝0,1,…,b}，对于PATH₁中的每一条路径path_1,i，计算其与PATH₂中每一条路径path_2,j的相似度，基于这些相似度，寻找与path_1,i最匹配的路径path_2,match，并记录其相似度sim(path_1,i,path_2,match)；基于Fun_1的静态信息，以路径中包含的汇编指令个数l_i为权值，进行加权计算，从而得到函数胎记FB₁与函数胎记FB₂的相似度，计算公式为：

式中：

l_i——函数Fun_1中第i条最小分支路径包含的汇编指令的个数；

所述a为函数Fun_1的函数胎记的所有最小分支路径的个数；b为函数Fun_2的函数胎记的所有最小分支路径的个数；

则函数之间的相似度SIM(Fun_1,Fun_2)＝SIM(FB₁,FB₂')；

步骤S104中，相似子图是指以函数为节点，函数的调用关系为边，对应节点相似度较高且对相似的函数有相同的调用关系的子图；最优相似子图是指，对每个子图基于节点数目、对应节点相似值和节点权重赋予一个分数，分数最高的子图为该子图的最优相似子图；最优相似子图集是指每次加入一个最优相似子图所得到的集合{G₁→G₁',G₂→G₂',...,G_n→G_n'}，G₁,G₂,...G_n属于原告程序P，G₁',G₂',...G_n'属于被告程序Q，且G₁,G₂,...G_n不相交，G₁',G₂',...G_n'不相交；G_i→G_i'为一个相似子图，其中i＝1，2，…n；