[发明专利]一种基于动态曲面分割的非对抗生成自编码方法及系统在审
申请号: | 202110023139.8 | 申请日: | 2021-01-08 |
公开(公告)号: | CN112836791A | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 盖阔;付云骁;张彪;翟鹏龙;肖鹏;任西兵 | 申请(专利权)人: | 北京闭环科技有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06K9/62 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 刘凤玲 |
地址: | 100070 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 动态 曲面 分割 对抗 生成 编码 方法 系统 | ||
本发明公开一种基于动态曲面分割的非对抗生成自编码方法及系统,涉及数据生成技术领域,方法包括:获取训练数据集;使用编码器将训练数据集降维到低维空间,得到第一低维向量集;使用中心维罗内分割将低维空间的单位球划分为多个区域;使用最小损失匹配算法确定第一低维向量集中每个低维向量隶属的区域;逐个区域计算第一分布距离;以最小化第一分布距离为目标,优化编码器;利用优化后的编码器将训练数据集降维到低维空间,得到第二低维向量集;利用第二低维向量集对解码器进行训练和优化,得到优化后的解码器;获取已有数据;将已有数据输入优化后的解码器进行解码,生成新数据。本发明能够提高非对抗自编码的数据生成质量。
技术领域
本发明涉及数据生成技术领域,特别是涉及一种基于动态曲面分割的非对抗生成自编码方法及系统。
背景技术
目前大数据算法依赖于海量的数据。但对于特定的问题,数据的获取有时可能十分昂贵。因此,基于已有数据生成新数据成为工业界的极大需求。现实中数据的采集与标注往往要付出很大的成本,且某些特定的数据难以获取得到,因此从原有数据中生成新的数据在工业上有很大的需求和应用。
现有的数据生成方案分为对抗和非对抗两种技术路线,其中对抗生成自编码数据生成质量高,但不够稳定,难以训练,需要大量调参。另外,由于对抗自编码使用黑箱计算分布距离,难以解释模型记住了什么信息,忘记了哪些信息。因此对抗自编码虽然效果好,但是使用起来不方便。而非对抗自编码能够解决对抗自编码使用不方便的问题,非对抗自编码虽然易于使用,但效果不好,非对抗自编码由于无法使用过量的参数去计算分布之间的距离,导致距离计算不准确,进而造成数据生成质量较低。因此,如何使非对抗自编码在保留其稳定、易于训练的优点的同时,能够具有对抗自编码的生成能力甚至比对抗自编码更优的生成能力,即如何提高非对抗自编码的数据生成质量成为本领域技术人员亟待解决的问题。
发明内容
本发明的目的是提供一种基于动态曲面分割的非对抗生成自编码方法及系统,能够提高非对抗自编码的数据生成质量。
为实现上述目的,本发明提供了如下方案:
一种基于动态曲面分割的非对抗生成自编码方法,所述方法包括:
获取训练数据集;所述训练数据集包括Mnist数据集和CelebA数据集中的任意一种;
使用编码器将所述训练数据集降维到低维空间,得到第一低维向量集;
使用中心维罗内分割将所述低维空间的单位球划分为多个区域;
使用最小损失匹配算法确定所述第一低维向量集中每个低维向量隶属的所述区域;
逐个区域计算第一分布距离;所述第一分布距离为隶属所述区域的所有所述低维向量组成的经验分布与所述区域上的均匀分布的距离;
以最小化所述第一分布距离为目标,优化所述编码器;
利用优化后的所述编码器将所述训练数据集降维到低维空间,得到第二低维向量集;
利用所述第二低维向量集对解码器进行训练和优化,得到优化后的解码器;
获取已有数据;所述已有数据为低维向量;
将所述已有数据输入所述优化后的解码器进行解码,生成新数据;所述新数据为图片或高维数据。
可选地,所述使用编码器将所述训练数据集降维到低维空间,得到第一低维向量集,具体包括:
当所述训练数据集为Mnist数据集时,使用编码器将所述训练数据集中每个Mnist数据均降维到8维空间,得到第一低维向量集;此时,所述第一低维向量集包括多个8维向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京闭环科技有限公司,未经北京闭环科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110023139.8/2.html,转载请声明来源钻瓜专利网。