[发明专利]一种基于数据源领域可靠度的多真值发现方法在审
| 申请号: | 202211005282.5 | 申请日: | 2022-08-22 |
| 公开(公告)号: | CN115392018A | 公开(公告)日: | 2022-11-25 |
| 发明(设计)人: | 董永权;杨昊霖;张功杰 | 申请(专利权)人: | 江苏师范大学 |
| 主分类号: | G06F30/20 | 分类号: | G06F30/20;G06N5/04;G06F17/18;G06F119/02 |
| 代理公司: | 北京淮海知识产权代理事务所(普通合伙) 32205 | 代理人: | 杨晓亭 |
| 地址: | 221116 江苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 数据源 领域 可靠 真值 发现 方法 | ||
1.一种基于数据源领域可靠度的多真值发现方法,其特征在于,具体包括以下步骤:
步骤1:数据源领域可靠度建模;
步骤1-1:计算数据源领域丰富度其中为数据源si在领域dj内提供数据的丰富度,通过计算领域dj内数据源si提供的对象数量所占对象总数的百分比得到计算公式如下:
式中N(si,dj)表示数据源si在领域dj内提供的对象数量,表示在领域dj内提供对象描述信息的数据源构成的集合;
步骤1-2:计算数据源si在领域dj内的专业度
步骤1-3:计算数据源si与对象ok领域相似度I(ok,si);
步骤1-4:全连接领域显性/隐性观测值图构建,在领域dj内将数据源集合在对象集合提供的显性/隐性观测值关系建模为一张全连接的领域显性/隐性观测值图数据源为图中的顶点;
步骤1-5:在领域显性/隐性观测值图内,计算数据源si与数据源sm提供对象显性/隐性观测值的共识度
步骤1-6:在领域显性/隐性观测值图内,计算数据源si对数据源sm在显性/隐性观测值上的长尾补偿度和
步骤1-7:在领域显性/隐性观测值图内,计算顶点si指向顶点sm边的权值
步骤1-8:顶点间权值规范化计算,计算顶点间规范化权值和
步骤1-9:数据源领域可靠度计算,在领域dj内对全连接领域显性/隐性观测值图进行随机游走,分别得到显性/隐性观测值图中数据源si的平稳访问概率p(si)和计算数据源si在领域dj内的准确率和假准率获得数据源si在领域dj内的领域可靠度;
步骤2:观测值可信度建模;
根据数据源的领域可靠度以及数据源提供观测值关系计算观测值v为真/假的概率
步骤3:真值推断;
当时,判定该观测值v为真,反之则判定该观测值为假,完成真值推断。
2.根据权利要求1所述的基于数据源领域可靠度的多真值发现方法,其特征在于,步骤1-2中计算数据源si在领域dj内的专业度计算公式如下:
式中α为调节领域专业度权重的超参数,在数据集上的实验中α设置为1.5。
3.根据权利要求1所述的基于数据源领域可靠度的多真值发现方法,其特征在于,步骤1-3中计算数据源si与对象ok领域相似度I(ok,si),将所有数据源s1~si对应领域d1~dj专业度组成矩阵公式如下:
根据对象ok所属的领域构造对象ok的领域向量公式如下:
式中当对象ok属于领域dj时,则否则
计算数据源si与对象ok领域相似度I(ok,si)公式如下:
式中为数据源si的领域向量,对应矩阵的第i行向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏师范大学,未经江苏师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211005282.5/1.html,转载请声明来源钻瓜专利网。





