[发明专利]基于词向量和机器学习的数据溯源方法和系统有效
申请号: | 201910584814.7 | 申请日: | 2019-07-01 |
公开(公告)号: | CN110399485B | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 丁疏横;范磊 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 庄文莉 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 向量 机器 学习 数据 溯源 方法 系统 | ||
本发明提供了一种基于词向量和机器学习的数据溯源方法和系统,通过网络采集流量数据,基于流量数据进行文件特征提取,得到文本特征向量;使用机器学习对流量数据进行聚类,得到多个聚类种类,将待溯源文件与多个聚类种类进行匹配,得到待溯源文件的所属种类;在待溯源文件的所属种类中,通过文本特征向量进行文本相似度计算,对待溯源文件进行溯源判定。本发明可扩展性强,不依赖于特定系统,不需要进行数据库改造,对数据格式没有要求,溯源稳定可靠,效率高;从网络中抓包,通过词向量提取特征向量,通过机器学习进行聚类,再通过计算余弦值进行溯源,脱离对数据库的依赖,避免了高昂的系统管理成本。
技术领域
本发明涉及信息安全技术领域,具体地,涉及一种基于词向量和机器学习的数据溯源方法和系统。
背景技术
近年来,由于互联网的普及以及上网人数的增长,人们网络活动产生的数据量也呈现了爆发性地增长。大数据在为各行各业的发展提供帮助和价值的同时,也给信息安全带来了新的挑战。特别是在一些企业和各类机构中,对于大量流入流出的数据,如何确保流量都是安全的,是一个非常重要的问题。而数据溯源技术,就是这样一个追溯数据的来龙去脉的技术,这对于各类组织的数据保护和机密信息流通控制也是非常有帮助的。
数据溯源是一个相对较新的研究领域,主要是记录特定数据的传播途径,并在事后做到可追溯的一种服务功能。传统的数据溯源方法通常都与管理系统挂钩,因此一直以来都面临着与高昂的管理成本冲突的尴尬。
现有的溯源方法中,主要采用文档标记法、反向查询法、API Hook,文档标记法是通过对关键文档进行标记改造,比如在文档中添加水印,或者每次打开修改文件都做一定的标签标注。此方法通过在数据传输过程中增加标签信息增加文档的信息熵,从而来进行溯源标记。反向查询法也被称为逆置函数法,这种方法起源于对数据库数据的溯源,由于数据库所有的操作都是通过标准的查询语句来进行,因此可以通过构造逆向查询语句,就是说对于正向查询数据库的逆操作来从结果反推到输入,并通过反推的结果来复现数据的流通方向。API Hook通过主动挂钩应用层协议的方式来记录文件的传输。这种方法与之前的两种方法相比,并不依赖于某一特定的操作系统或者数据库,而是对端口进行监控并在所有的应用层协议中安装挂钩,当某种被监控的协议产生流量的时候,会主动记录流量和文件。以上方法大多需要对系统或者数据库进行改造,在使用性和可扩展性上面都有较大的缺陷。例如,文档标记法需要对系统内的所有的数据库或者操作系统进行改造,工程量巨大,而且或产生额外的储存负担,并且一旦攻击者知道标注信息的格式,标签信息也容易被篡改;反向查询法只局限于数据库的数据溯源,以及构造逆向查询函数的困难性也很大,所以并不适用与企业环境中的数据溯源;API Hook的问题在于会产生大量冗余而无用的数据,由于是在应用层层面的监控,所以对文件的内容并没有办法进行解析,导致了并不能完全可靠地还原出某一特定文件的传播路径和修改记录。
与本申请相关的现有技术是专利文献CN109614776A,公开了一种基于数字水印技术的数据溯源方法及系统,该方法包括:利用第一水印算法,在原始数据集中嵌入初始水印,得到初始数据集;利用第二水印算法,在待交付的初始数据集中嵌入交易水印,得到交付数据集并交付给交付对象;判断待溯源数据集中是否存在初始水印,若是则分别判断待溯源数据集中是否存在待验证候选人身份信息对应的交易水印,根据判断结果确认待溯源数据集所指向的待验证候选人。对数据权利人流通出去的数据嵌入初始水印和交易水印,在数据维权阶段,通过初始水印来对数据权利人进行维权审核,实现属权的声明,然后再进一步的数据溯源阶段,通过交易水印来确认待溯源数据集所指向的交付对象,从而实现对泄漏源的追溯。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于词向量和机器学习的数据溯源方法和系统。
根据本发明提供的一种基于词向量和机器学习的数据溯源方法,包括:
流量采集步骤:通过网络采集流量数据,基于流量数据进行文件特征提取,得到文本特征向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910584814.7/2.html,转载请声明来源钻瓜专利网。