[发明专利]一种面向教育领域资源云存储的语义预取方法及系统有效

专利信息
申请号: 201810117814.1 申请日: 2018-02-06
公开(公告)号: CN109471971B 公开(公告)日: 2021-05-04
发明(设计)人: 黄昌勤;黄微宇;黄琼浩;王希哲;李源 申请(专利权)人: 华南师范大学
主分类号: G06F16/9535 分类号: G06F16/9535;G06F16/953
代理公司: 广州专理知识产权代理事务所(普通合伙) 44493 代理人: 谭昉
地址: 510631 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 教育 领域 资源 存储 语义 方法 系统
【权利要求书】:

1.一种面向教育领域资源云存储的语义预取方法,其特征在于,包括如下步骤:

步骤一,用户请求概念获取:系统首先会对用户请求数据资源中的标注进行关键字抽取,利用相应的匹配算法将关键词与本体库中的概念进行逐一匹配,实现关键词到本体概念的映射,得到相应的概念集合;

步骤二,判断概念集合主题相关性:具体方法为,随机从中抽取m'个概念(m'≤m)进行抽样分析,并记抽取概念的集合为符号Sim(a,b)表示概念a与概念b在HowNet中的相似度计算公式,由此得出抽样集合中每个概念相互之间的相似度,并形成相似度矩阵,其如式(2)所示:

根据HowNet相似的计算公式定义可知Sim(ci,ci)=1.000,Sim(ci,cj)=Sim(cj,ci),其中ci,cj∈Csa,则求出集合Csa的平均概念相似度,其定义如式(3)所示:

设定平均概念相似度阈值ε1,该值根据历史记录简单分析得到,若则集合中的概念具有一定的主题相关性;

步骤三,候选中心概念的选取:具体包括如下的步骤:

当考察会话si与其他会话在时间段Δt内的主题相关性时,si中的每个概念ci,1,ci,2,ci,3将逐一比较其他每个会话中的概念,并且找出其中相似度最大的加入到以si中的概念为中心的序列中,得到Si,1,Si,2,Si,3,当ci,j=null时,Si,j=null,j=1,2,3,以Si,1,Si,2,Si,3中概念相似度总和最大作为其对应的概念为会话si的代表概念cire,Si,j的相似度总和的计算方式如式(4)所示:

则的相似度总和如式(5)所示:

Sim(Sire)=max({Sim(Si,1),Sim(Si,2),Sim(Si,3)}); (5)

经过式(4),(5)的计算,得到会话si中相应的代表概念cire,还有与cire相对应的主题相关性概念序列相应求出其他会话的代表概念以及相应的主题相关概念序列;

得到代表概念集合后,系统将进一步分析从中产生候选中心概念,具体流程如下:

A1:以cire为概念语义中心,删除中与之概念相似度小于阈值ε2的概念若删除后序列中只剩下cire本身,则说明该序列的主题相关性不明显,直接删除该代表概念cire

A2:在序列的剩余概念中找出相似度为1的概念进行合并,假设则保留删除并wi,x=wi,x+wi,y

A3:经过删除与合并后,假设序列剩余概念个数为r,根据式(6)计算出cire的序列概念相似度总和:

并计算该序列概念的平均相似度,其定义如式(7)所示:

再计算该序列的标准差,其定义如式(8)所示:

A4:设定阈值ε3与ε4,ε3应根据该时间段内用户请求会话的个数m成正比,ε4根据系统主题关系强弱稳定性要求设定来设定,保留且的代表概念cire作为候选中心概念,否则进入下一个代表概念的判定,遍历完代表概念集合及相应主题相关序列,得到候选中心概念集合

步骤四,中心概念的确定:其具体的方法如下:

在候选中心概念集合中,如果判断出几个概念元素的相似度很高,仅需合并为一个概念予以表征即可,该过程称之为候选中心概念的归并,假设cica为候选中心概念,在候选中心概念集合中与cica相似度大于ε5的概念加入带合并集合并记为Cica,然后对集合cica∪Cica进行概念合并,首先确定带合并候选概念集合cica∪Cica的合并中心,即中心概念其用概念中心度来得到,假设h=Size(cica∪Cica),ci在Cica中概念中心度定义如式(9)所示(ci∈cica∪Cica):

则由式(10)得到:

合并候选概念集合Cica中概念对应主题相关序列,得到中心概念后,把Cica中候选概念对应的主题相关序列合并到对应主题相关序列,得到中心概念最终对应的主题相关序列,在合并的过程中,集合中其他候选中心概念对应主题相关序列中的概念应该重新计算其与中心概念的相似度,计算方式如下式(11)所示:

至此,中心概念集合Cc的确定与对应主题相关概念序列的获取到此完成;

步骤五,预取对象的确定:

根据中心概念集合CC系统进一步确定预取对象,确定预取对象之前分析需要预取的数据节点,与预取数据的数量,系统结合CC从空间的维度分析时间段ΔT内的用户请求,首先根据系统服务区域划分规则将请求客户端划分为g个区域A={ai'|1≤i'≤g},根据某个时间段区域ai'中心概念为则在该时间段ΔT内区域ai'关于概念的主题相关性程度为:

其中n与T距离根据系统性能要求确定;mt为时间段Δt区域ai'内用户访问请求总次数;cj是该时间段Δt区域ai'内的一个中心概念,其与当前时间段ΔT考察的中心概念有若t=T,即当前时间段,则有βt为时间衰减系数,0≤βt≤1,越接近当前时刻的时间段衰减系数值越大,说明时间距离当前时刻越远参考性越低,系统根据概念关系模式进行概念语义推理,推理规则包括以下两条:

规则1:SubClassOf(cx,cy),SubClassOf(cy,cz)→hasGrandFather(cx,cz)

规则2:SubClassOf(cx,cz),SubClassOf(cy,cz)→hasSibling(cx,cy)、SubClassOf(cx,ck),SubClassOf(cy,cz),hasSibling(ck,cz)→hasCousin(cx,cy)

具体推理方法如下:

若中存在概念与之间是直接关系的概念,则首先根据其与的关系模式进行推理,若关系模式为上下位模式,则结合本体知识库中定义的语义关系与规则1进行语义推理,以此推出中心概念其余所有直接关系的上位或下位概念;若关系模式为左右模式,则通过规则2推出中心概念在本体知识库中其余所有的同层概念;

若Si中存在与之间是非直接关系的概念,按规则1、规则2推出相应的同层概念,由于非直接关系的概念数量较多,为此,根据Si中该层非直接关系概念的比例选取一定数量推理得到的概念,且与之间相似度越大则优先选取;

假设序列Si中概念为中心概念的上位概念最顶一层为第l层,为中心概念cx下位概念最低层为第l'层,求出具有中心概念对应序列中的概念的每一层中这些概念与中心概念的相似度总和记为表示第f层中序列中的概念与中心概念相似度的总和,若某一层无序列中的概念,则总和为0,根据式(13)求出每一层的预取概念cv,j,cv,j包括序列Si中概念与推理得到的概念,cv,j表示该概念在中心概念的第v层的第j个的预测主题相关度:

系统将找出推理得到的概念中的相同概念进行合并,且进行叠加,合并后按预取概念的进行排序,形成预取概念序列Sc

根据该序列Sc中的概念映射相对应的教育资源,剔除其中目标存储节点中已存在的资源文件,形成预取资源序列SS,资源顺序先按Sc中概念的顺序进行排列,若出现一个概念对应多个资源文件,则按资源的大小由小到大排列;

步骤六,预取存储目标节点确定:具体如下:

在预取数据之前,确定系统当前带宽、CPU、I/O负载,而相对系统承载能力是指节点i与j节点之间的空闲负载能力,是带宽、CPU使用率与I/O使用率相对和,是确定预取存储目标节点的重要指标,其计算方式如下:

其中为i节点与j节点的当前带宽与理论带宽的比例;λBW为带宽权重,为j节点的当前CPU使用率,λCPU为CPU负载权重;为j节点的当前I/O使用率;λI/O为I/O所占权重;Load(i,j)=Load(j,i),

若某一用户区域A的请求具有主题相关性,则通过探测分析用户区域A与系统各个数据节点之间的网络带宽,高于一定阈值的数据节点被加入到候选目标节点集CNS={bi|1≤i≤p,i、p∈N},系统中存储源数据的节点集合为SNS={di|1≤j≤q,j、q∈N},节点bi至di之间的负载表示为Load(bi,dj),节点bi至用户区域ai'之间的负载为节点bi到用户区域ai'中所有请求用户节点平均负载,记作Load(bi,ai'),本系统中文件的副本数默认为3,即p=3,计算当前的负载情况的计算方式如公式(15);

其中×代表节点与节点之间的连接负载运算,

请求区域与待存储节点之间的负载为:

由于考虑预取负载和实际请求负载,因此总负载Load(ai',dj)则为前两者之和,即对于任意源节点dj与请求区域ai'之间的负载,Load(ai',dj)表示为式(17):

Load(ai',dj)|bi=Load(ai',bi)+Load(bi,dj), (17)

其中bi是目标存储节点根据式(18)求出目标存储节点

步骤七,预取窗口的大小,具体为:

预取对象确定后,并不是序列SS中所有的数据都进行预取,而需要结合资源请求的主题相关性程度与系统的整体负载情况来决定预取的数据量,结合式(12)与式(17)得到预取数据量的计算方式,如式(19)所示:

其中Size(SS)表示序列SS中数据的总大小;cx为该时间段t的中心概念;α、γ分别是中心概念的相关概念请求热度和系统空闲负载能力对预取数据量影响所占的权重系数,且有α+γ≤1,根据公式(12)控制系统语义预取的窗口大小,其中z是序列SS中应进行预取的对象的总大小,系统从序列SS按顺序获取预取对象时,当文件总大小将超过z时,系统停止预取;

步骤八,主题相关性的保持、转换、消失与停止预取。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学,未经华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810117814.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top