[发明专利]一种基于数据源领域可靠度的多真值发现方法在审
| 申请号: | 202211005282.5 | 申请日: | 2022-08-22 |
| 公开(公告)号: | CN115392018A | 公开(公告)日: | 2022-11-25 |
| 发明(设计)人: | 董永权;杨昊霖;张功杰 | 申请(专利权)人: | 江苏师范大学 |
| 主分类号: | G06F30/20 | 分类号: | G06F30/20;G06N5/04;G06F17/18;G06F119/02 |
| 代理公司: | 北京淮海知识产权代理事务所(普通合伙) 32205 | 代理人: | 杨晓亭 |
| 地址: | 221116 江苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 数据源 领域 可靠 真值 发现 方法 | ||
本发明公开了一种基于数据源领域可靠度的多真值发现方法,首先计算数据源的领域专业度;其次计算数据源与对象的领域相似度,初始化参数和观测值的可信度,接着使用迭代计算方法联合推导数据源领域可靠度以及观测值可信度,每次迭代过程中,使用基于数据源领域可靠度的多真值推理方法根据观测值可信度、数据源领域专业度、数据源与对象领域相似度、多真值观测值可信度得分推断数据领域源可靠度,再通过数据源领域可靠度重新推断观测值可信度;最后推断出对象属性上的全部真值。本发明在属性存在多个真值的数据冲突环境下能够自动识别、判断、推理出完整的真值,从而帮助用户进行决策,提高决策效率和质量。
技术领域
本发明涉及一种多真值发现方法,具体是一种基于数据源领域可靠度的多真值发现方法,属于数据集成技术领域。
背景技术
随着互联网的飞速发展,各种社交网络、众包平台每时每刻都在产生Web数据。海量的Web数据背后蕴藏着巨大的商业价值和研究价值,然而提供Web数据的网站或平台其可靠度良莠不齐,造成了多个数据源对同一对象属性提供的观测值存在数据冲突,真值发现作为解决数据冲突问题的关键技术应运而生。目前多真值发现方法已成功应用于很多场景,如大数据融合系统、高质量知识库的建设、人群感知、隐私保护、众包聚合以及医疗领域等。
在数据冲突中,有些对象属性的真值唯一,例如一支股票某天的开盘价,有些对象属性存在多个真值,例如一本书的作者,对象属性存在多个真值的数据冲突时,从数据源关于对象提供的若干个多真值属性值中找到所有真值则称为多真值发现。真值发现方法作为解决数据冲突、提高Web数据质量的重要技术之一,受到了研究者们的普遍重视。
伊利诺伊大学香槟分校Bo Zhao等人首次提出了一种概率图方法LTM实现多真值发现,假设数据源的查全率和特异度服从Beta分布构建概率图模型,使用基于采样的方法推理出多个真值(Zhao B,Rubinstein B I P,Gemmell J,et al.A bayesian approach todiscovering truth from conflicting sources for data integration[J].arXivpreprint arXiv,2012.1203.0058:p.550-561.)。随后,该研究组又提出概率图模型GTM,通过建模数据源可靠度、真值与观测值之间的关系解决连续性观测值的数据冲突问题(ZhaoB,Han J.A probabilistic model for estimating re-al-valued truth fromconflicting sources[J].Proc.of QDB,2012,1817.)。上述两个方法从数据源质量的两个维度(召回率和特异度)出发,能解决大多数多真值数据冲突问题。但是其方法假设的隐藏变量所服从的分布和实际数据不吻合时,算法的性能将受到较大的影响。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏师范大学,未经江苏师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211005282.5/2.html,转载请声明来源钻瓜专利网。





