[发明专利]一种本体排序方法及系统有效

申请号：	201610631112.6	申请日：	2016-08-04
公开（公告）号：	CN106294654B	公开（公告）日：	2018-01-19
发明（设计）人：	刘杰;骆力明;周建设;史金生;石长地;郭宇	申请（专利权）人：	首都师范大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06K9/62
代理公司：	北京超凡志成知识产权代理事务所(普通合伙)11371	代理人：	张玲
地址：	100000 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种本体排序方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及本体排序技术领域，具体而言，涉及一种本体排序方法及系统。

背景技术

本体是语义Web的信息承载支柱，目前在互联网上已有很多以本体形式出现的知识。因此，如何有效的获取本体知识，将查询结果合理排序并返回给用户，是本体检索研究中的关键问题。本体排序的考察因素，不仅限于内部文字匹配，还包含对本体中实体、结构和关系等元数据的分析，为了满足不同的需要，各种排序学习(LTR,Learning to Rank)算法应运而生，均利用文档中抽取的特征(Feature)进行训练，然后通过迭代优化模型参数，从而实现排序，具体实验时需要配合使用训练集和测试集。训练集中包括查询集合{q₁，q₂，...，q_n}中的单个查询序列q对应的检索列表特征向量同时还包括结果的相关性标签。测试集的数据结构与训练集相似，但是测试集中的数据不能在训练集中出现，同时没有相关性标签。学习系统(Learning System)利用已经构建完成的特征向量进行训练，然后利用排序系统(Ranking System)对测试集中的数据进行计算，最后将分数按照降序进行排练，形成模型训练的排序结果。传统的LTR算法按照输入空间不同，主要有以下三类，基于样本点的Point-wise算法：MART；基于样本对的Pair-wise算法：RankNet、Ranking SVM；基于文档列表的List-wise算法：AdaRank，Coordinate Ascent，RankCosine、ListNet。这些LTR算法参考不同侧重点进行排序结果的预测，另外，为了解决单一的排序算法存在其自身的缺陷，人们开始采用机器学习的方法来优化本体排序结果以有效地解决多特征的本体排序问题，但仍不能解决由排序算法内在欠缺导致的本体排序准确率低、普适性较差的问题。

发明内容

有鉴于此，本发明的目的在于提供一种本体排序方法及系统，能够解决现有排序算法由于自身缺陷导致的本体排序准确率低，以及现有机器学习方法仍不能解决由排序算法内在欠缺导致的本体排序准确率低、普适性较差的问题。

第一方面，本发明实施例提供了一种本体排序方法，包括：学习方法与预测方法，学习方法包括如下步骤：

采集样本步骤，从搜索引擎中获取本体文件作为样本集，然后将样本集分成训练集与预测集，训练集用于模型的训练，预测集用于模型的预测；

构建本体向量步骤，提取本体文件的本体特征，然后将标准评分、检索编号、特征编号与特征值映射成数值特征向量，其中，标准评分为人工评分；检索编号为查询关键词所对应的编号；特征编号为本体特征编号；特征值为每个本体特征的数值；

生成基学习器步骤，将训练集的本体向量通过排序算法训练生成基学习器；

生成集成模型步骤，采用集成学习的方法将基学习器融合成集成模型，集成模型可由若干相同的基学习器集成或若干不相同的基学习器集成；

预测方法包括如下步骤：

预测样本步骤，向集成模型中输入预测集样本的本体向量，集成模型输出预测集样本的本体排序结果。

优选地，根据预测结果计算预测模型的均方根相对误差，进而得到满足精度要求的实际预测模型，然后利用实际预测模型进行预测。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，本体特征至少包括类匹配、类密度测量、实体相似度测量、语义相关测量、中心测量与ontBM25。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，集成学习的方法为列表投票法或bagging或随机森林。

结合第一方面，本发明实施例提供了第一方面的第三种可能的实施方式，其中，排序算法为MART、RB、RN、AR、CA中的至少一种。

结合第一方面，本发明实施例提供了第一方面的第四种可能的实施方式，其中，所述集成模型至少包括三个基学习器。

结合第一方面的第二种可能实施方式，本发明实施例提供了第一方面的第五种可能的实施方式，其中，集成模型由随机森林将若干相同基学习器融合而成，基学习器由MART排序学习算法训练产生。

结合第一方面的第二种可能实施方式，本发明实施例提供了第一方面的第六种可能的实施方式，其中，集成模型由bagging将若干相同基学习器融合而成，基学习器由MART或RB或RN或AR或CA训练产生。

结合第一方面及其第一至第六种可能的实施方式，本发明实施例提供了第一方面的第七种可能的实施方式，其中，还包括交叉验证法，具体步骤为：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于首都师范大学，未经首都师范大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201610631112.6/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种本体排序方法及系统有效

专利文献下载