[发明专利]一种度量空间支撑点性能衡量方法、装置及相关组件有效
申请号: | 202110400701.4 | 申请日: | 2021-04-14 |
公开(公告)号: | CN113065036B | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 毛睿;陈汝斌;陆敏华;王毅;刘刚;陆克中;陈倩婷 | 申请(专利权)人: | 深圳大学 |
主分类号: | G06F16/901 | 分类号: | G06F16/901;G06F16/903 |
代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 武志峰 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 度量 空间 支撑点 性能 衡量 方法 装置 相关 组件 | ||
本发明公开了一种度量空间支撑点性能衡量方法、装置及相关组件,该方法包括:获取实验数据集,将实验数据集中的数据抽象为度量空间中的n个数据点,然后利用不同的支撑点选择方法在数据点中分别选取k个支撑点;针对每一支撑点选择方法选取的k个支撑点,将待查询的数据点作为查询点;基于三角不等式原则,利用预先设置的查询半径将数据点划分可排除数据点和不可排除数据点;利用位运算方法确定所述k个支撑点的距离计算次数;将不同的支撑点选择方法对应的k个支撑点的距离计算次数进行比较,确定各支撑点选择方法的性能差异。本发明可以快速实现在多个不同的支撑点选择方法中确定性能最佳的支撑点选择方法。
技术领域
本发明涉及计算机软件技术领域,特别涉及一种度量空间支撑点性能衡量方法、装置及相关组件。
背景技术
度量空间索引是一种适用性非常广的解决相似性搜索的通用方法。其把复杂的数据对象抽象成度量空间中的点,利用用户定义的距离函数的三角不等性来去除无关数据并减少直接距离计算的次数,以实现高速搜索。度量空间数据管理的高度通用性同时也是其弱点,例如坐标系统的缺失导致很多基于坐标系统的数学工具无法直接应用。为了对数据重建坐标,通常选择一些参考点作为支撑点,以数据到支撑点的距离作为坐标。因此支撑点选择作为度量空间数据管理的先导步骤,决定了后续步骤可以利用的信息量,这对于数据管理的性能具有决定性的影响。
现有的度量空间选择支撑点方法有很多,例如LAESA方法采用了最大分布(Maximally Separated)目标函数,使得支撑点之间距离的和最大;Traina等人提出了选取数据边缘的点作为支撑点的HF(Hull ofFoci)方法,其目标函数与最大分布很相似;KVP方法采用优先支撑点目标函数,选择离数据很近或者很远的点;Bustos等人认为好的支撑点应该使支撑点空间中点对之间距离的平均值最大,方差最小,因此采用抽样的方法选择使支撑点空间中点对之间距离的平均值最大的支撑点,他们认为好的支撑点应该是数据的周边点,而反之则未必;M-tree方法(一种搜索方法)采取随机选择的方法,而SA-tree方法(一种搜索方法)先随机选取一个点,然后选取Voronoi(泰森多边形)图上相邻单元的中心作为支撑点;Farthest-first-traversal(FFT)是一种常用于支撑点选择的k-center聚类方法,它是一种快捷方便地找出数据中的周边点的方法,FFT的目标是使聚类得到的分类的最大半径最小;Veltkamp等人认为好的支撑点应该是数据尽量分散,而parse spatialselection(SSS)方法则认为应该使支撑点互相之间尽量远离。Venkateswaran等人还提出了最大排除(Maximumpruning)方法,在搜索对象和搜索半径已知的情况下,以能排除的数据量最大作为目标函数。
由此可见,现有的支撑点选择方法之间没有一套统一的模型可以客观地对不同的选择支撑点方法选取的支撑点的优劣性进行评价,而且采用的实验数据各异,一般的支撑点性能比较实验无法客观地反映不同的选点方法的差异。同时由于不同方法采用不同的实验环境,因此在对比不同的方法时,会产生较大的对比成本。另外,每一种支撑点选择方法都需要编写专门的创建索引和范围搜索的代码,利用不同的方法评价,因而很难统一比较。
发明内容
本发明实施例提供了一种度量空间支撑点性能衡量方法、装置及相关组件,旨在快速实现对不同的支撑点选择方法的性能进行比较,以在多个不同的支撑点选择方法中确定性能最佳的支撑点选择方法。
第一方面,本发明实施例提供了一种度量空间支撑点性能衡量方法,包括:
获取实验数据集,将所述实验数据集中的数据抽象为度量空间中的n个数据点,然后利用不同的支撑点选择方法在所述数据点中分别选取k个支撑点;
针对每一支撑点选择方法选取的k个支撑点,当对所述n个数据点进行相似性查询时,将待查询的数据点作为查询点;
基于三角不等式原则,利用预先设置的查询半径将所述数据点划分可排除数据点和不可排除数据点;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110400701.4/2.html,转载请声明来源钻瓜专利网。