[发明专利]一种支持隐私保护的论文查重方法及系统有效

申请号：	202110192294.2	申请日：	2021-02-19
公开（公告）号：	CN112836009B	公开（公告）日：	2021-10-29
发明（设计）人：	赵梦妮;李睿;朱泽轩	申请（专利权）人：	东莞理工学院
主分类号：	G06F16/31	分类号：	G06F16/31;G06F16/33;G06F21/62
代理公司：	成都东恒知盛知识产权代理事务所(特殊普通合伙) 51304	代理人：	罗江
地址：	523000 广东省***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种支持隐私保护论文方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种支持隐私保护的论文查重方法及系统，首先将文本数据转化成二进制字符串，进而转化为汉明距离范围查询问题；本发明提出了将汉明距离转化为数值范围查询的基础方法，同时此方法也产生了假阳率；为了进一步优化假阳率，本发明提出了优化方法，分别为多基准查询，多切分查询，分类查询以及联合子字符串查询；将数值范围检索和关键字检索转化为联合关键字检索，生成关键字信息，进而转化为布尔检索；最后，构建安全高效索引用于查询者检索。在进行汉明距离检索时，只需要生成相应的查询信息，再基于安全索引进行检索，并将结果返回给查询用户。本发明的方法简单，高效快捷，支持静态汉明距离检索，保护了用户论文信息的隐私性。

技术领域

本发明属于网络安全技术领域，尤其涉及一种支持隐私保护的论文查重方法及系统。

背景技术

论文查重是当下非常普遍的需求，论文查重系统也非常多，但是当下许多论文查重网站没有做到对论文的隐私保护，不能保证学术成果的隐私性，一旦数据被泄露，将会造成个人成果的损失，同时也助长了剽窃他人成果的不良之风，所以该严重问题有待被解决。同时汉明距离也被广泛应用到许多领域，例如临近重复检测和模式识别，汉明距离检索问题也因此得到了很多关注。在现有的技术中，还没有基于汉明距离的高效安全的范围检索算法，与本发明最接近的研究是Ren等人在2009年提出的基于编辑距离的相似关键字检索，但其方法是采用枚举的方式，存在存储空间开销大，查询关键字长度有限，范围有限的问题。如何做到在进行高效的论文查重的同时保护数据的隐私性是当下研究的难点问题之一。

综上所述，现有技术存在的问题是：无法同时保证论文查重的隐私性与高效性。难点在于：大量论文数据汇聚在一起进行查询的时候，如何能保证论文数据的安全隐私性；另一方面，在大型数据库背景下，如何做到高效的检索。已有的技术一方面是算法的安全性不够，容易泄露一些数据信息，另一方面算法计算在大规模数据量的情况下很难做到高效检索。

发明内容

针对现有技术存在的问题，本发明提供了一种支持隐私保护的论文查重方法。

本发明是这样实现的，一种支持隐私保护的论文查重方法对存储在数据库中的数据进行预处理，本发明提出了将汉明距离转化为数值范围查询的基础方法，同时此方法也产生了假阳率；为了进一步优化假阳率，本发明提出了四种优化方法，分别为多基准查询法，多切分查询法，分类查询法以及联合子字符串查询法；然后将数值范围检索转化为联合关键字检索，生成关键字信息，进而转化为布尔检索；最后，构建安全高效索引用于查询者检索。在进行汉明距离检索时，只需要生成相应的查询信息，再基于安全索引进行检索，并将结果返回给用户。

一种支持隐私保护的论文查重方法，包括以下步骤：

S1预处理待检索数据，将文本数据转化为二进制字符串；

S2获取待检索数据与数据库中任一数据的汉明距离，通过汉明距离，生成关键字信息集合，具体包括：

S21将汉明距离转化为数值范围，并优化假阳率，然后通过数值范围生成第一关键字信息；

S22将汉明距离转化为联合关键字，生成第二关键字信息；

S23通过第一关键字信息和第二关键字信息，生成关键字信息集合；

S3构建基于平衡二叉树的安全索引，其中，每个节点均使用布隆过滤器；

S4通过关键字信息集合，基于安全索引进行检索，并输出检索结果。

进一步的，在步骤S2中，将汉明距离转化为数值范围的具体步骤包括：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于东莞理工学院，未经东莞理工学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】