[发明专利]一种面向网络空间多模态大数据的特征表示学习系统有效

专利信息
申请号: 201710645116.4 申请日: 2017-08-01
公开(公告)号: CN107563407B 公开(公告)日: 2020-08-14
发明(设计)人: 黄震华 申请(专利权)人: 同济大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 上海科律专利代理事务所(特殊普通合伙) 31290 代理人: 叶凤
地址: 200092 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 网络 空间 多模态大 数据 特征 表示 学习 系统
【说明书】:

发明涉及一种面向网络空间多模态大数据的特征表示学习系统,主要包括七个部件:一个多模态样本生成部件、三个同质的特征抽取部件、一个数据分类部件、一个特征度量部件以及一个多任务损失函数集成部件。多模态样本生成部件构造具有四分量的训练样本集合;三个同质的特征抽取部件分别负责处理训练样本的前三个分量数据,并产生三个一维的特征向量;数据分类部件对训练样本前三个分量数据进行分类学习,并基于第四分量数据构造分类任务损失函数;特征度量部件对训练样本前三个分量数据进行特征度量学习,并构造度量任务损失函数;而多任务损失函数集成部件实现不同任务的加权合成,并优化系统参数。与现有方法相比,本发明具有模态多样、准确度高、泛化能力强、实施便捷等优点,能够有效应用于舆情监控、互联网医疗、个性化推荐以及智能问答等领域。

技术领域

本发明涉及计算机应用技术领域,尤其涉及一种多模态大数据的特征表示学习技术。

背景技术

近些来,随着物联网、云计算和社交网络等技术的迅猛发展,网络空间中的大数据越发显现4“V”(Volume、Velocity、Variety、Veracity)特性。Google公司每月需处理的数据量超过500PB;百度每天大约要处理几十PB数据;Facebook注册用户超过15亿,每月上传的照片超过20亿张,每天生成400TB以上的日志数据。根据国际数据公司IDC的测算,2017年网络空间将产生2000EB的数据,2018年会增长40%,达到2800EB,截至2020年,将会达到35000EB,超出了目前磁盘空间的存储能力。

随着日积月累,网络空间大数据,特别是来源于社交网络平台的大数据,蕴含着丰富的社会信息,其中包含着大量重要社会事件线索信息的网络映射,而这些网络映射信息通常看似杂乱无章的。深度分析和挖掘网络空间大数据,快速精准地发现其中所暗含的隐性线索与规律,进而在现有被发现线索的基础上,有效预测社会事件未来发展的态势,是促进国家社会治安稳定和知识经济可持续发展的重要手段。研究人员发现,特征抽取和表示是网络空间大数据内容理解的语义基础,其合理性和正确性将很大程度影响隐性线索与规律挖掘的准确性。

目前,学术界和工业界通常采用基于统计学习或基于浅层机器学习的方法来提取和表示网络空间大数据的特征,这些方法在一定程度上能够对网络空间大数据进行内容理解。然而,我们发现现有的这些方法基本上都是针对网络空间中的某一类单模态大数据,如结构化数据、文本数据、图片数据或视频数据,而没有涉及同时处理多个模态并存的网络空间大数据,并且当网络空间大数据包括噪声时,现有方法的准确度和泛化能力都比较差。

发明内容

本发明的目的就是为了解决上述现有方法存在的缺陷,提出一种面向网络空间多模态大数据的特征表示学习系统。与现有方法相比,本发明具有模态多样、准确度高、泛化能力强、实施便捷等优点,能够有效应用于舆情监控、互联网医疗、个性化推荐以及智能问答等领域。

本发明可以通过以下技术方案来实现:

本发明提出一种面向网络空间多模态大数据的特征表示学习系统,其逻辑结构如图1所示,包括七个部件:一个多模态样本生成部件、三个同质的特征抽取部件、一个数据分类部件、一个特征度量部件以及一个多任务损失函数集成部件。

1.多模态样本生成部件,产生特征表示学习需要的训练样本集合,所构造的每个训练样本均具有四个分量,其中前三个分量的每一分量可以是如下四个模态类型的任意一类数据:结构化数据、文本数据、图片数据以及视频数据,而第四分量为该训练样本对应的类标签。同时,每个训练样本的前两个分量所对应的数据具有强相关性,而第三个分量所对应的数据与前两个分量所对应的数据具有弱相关性。(如果两个数据项描述的是同一个对象,那么称这两个数据项是强相关性的。如果两个数据项描述的是不同的对象,那么称这两个数据项是弱相关性的。

2.三个特征抽取部件(特征抽取部件1-3)是同质的,即具有相同的逻辑结构。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710645116.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top