[发明专利]一种不确定图代表实例的抽取方法在审
申请号: | 201811486200.7 | 申请日: | 2018-12-06 |
公开(公告)号: | CN109727635A | 公开(公告)日: | 2019-05-07 |
发明(设计)人: | 徐周波;杨健;刘华东;梁轩瑜;黄文文 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G16B20/00 | 分类号: | G16B20/00;G06K9/62 |
代理公司: | 北京中济纬天专利代理有限公司 11429 | 代理人: | 石燕妮 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 回归模型 抽取 逻辑回归模型 蛋白质交互 回归系数 问题求解 重复执行 下降法 训练集 构建 算法 网络 | ||
本发明提出一种不确定图代表实例的抽取方法,该方法包括:构建训练集并建立回归模型;使用梯度下降法确定所述回归模型的回归系数;根据所述回归模型和所述回归模型的系数建立逻辑回归模型。本发明执行过程中,有效的提高了问题求解的效率,避免了当有新的蛋白质交互网络出现时对ADR算法的重复执行,具有良好的实用性。
技术领域
本发明涉及不确定图数据挖掘技术领域,具体涉及一种不确定图代表实例的抽取方法。
背景技术
不确定图是指在传统图数据表示的基础上对数据的不确定性加以描述。由于数据获取技术的随机错误与测量误差、数据传输的故障与延迟、多源集成数据的不完整性与不一致性、数据隐私保护等多种原因,大量图数据存在不确定性,传统图数据模型表示已无法刻画出不确定性。该模型在传统的图数据模型上赋予每条边出现的概率来表示数据存在的不确定性。不确定图模型很好的满足数据的不确定性,并已用于社交网络、蛋白质交互网络等领域的数据挖掘。
在对不确定图数据进行分析时,为了减少不确定性对数据结果的影响,从不确定图中抽取代表实例已成人们亟待解决的问题。实例抽取好坏与否直接影响到在非确定图中数据挖掘结果的正确性。目前就对不确定图实例抽取的求解方法有:
(1)蒙特卡洛抽样法(Monte-Carlo Method):该方法不确定图蕴含的子图中随机选取大量的实例,在选取的实例中分别进行数据挖掘,取最终的平均值。该方法被广泛的运用在不确定图的数据挖掘中。但是为了保证该方法的准确性,必须抽取大量的实例,加大了空间和时间上的开销。
(2)MP(MostProbability)、GD(GreedyProbability):此类方法较为实施较为简单,只选取出现概率较高的边,并运用贪心算法的思想对实例进行加减边。此类方法开销较小但是抽取出实例并不能很好表示不确定图,产生的误差较大。
(3)ADR(Average Degree Rewriting)、ABM(APPROXIMATEB-MATCHING):
此类方法不仅考虑到不确定图中各个边出现概率大小,而且考虑到各个顶点度大小,提高了实例抽取的准确性。但是复杂度较高,算法执行较耗时。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种不确定图代表实例的抽取方法。
为实现上述目的及其他相关目的,本发明提供一种不确定图代表实例的抽取方法,该方法包括:
构建训练集并建立回归模型;
使用梯度下降法确定所述回归模型的回归系数;
根据所述回归模型和所述回归模型的系数建立逻辑回归模型。
可选地,所述回归模型为:
可选地,所述回归模型的建立方法,具体包括:
从不确定图g中抽取出代表实例的确定图G;
将所述确定图G中的每条边的顶点的度、每条边的顶点的期望度及每条边的存在概率Pe作为特征值;
根据所述特征值建立线性表达式;所述线性表达式则为训练集;
将所述线性表达式的函数值映射到[0,1]区间上。
可选地,所述使用梯度下降法确定所述回归模型的系数,具体包括:
构造损失函数J;
利梯度下降法求解出所有特征的回归系数。
可选地,所述逻辑回归模型为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811486200.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:位移台行程范围调节机构
- 下一篇:药效团聚类方法