[发明专利]一种基于PageRank算法的医疗数据爬取方法及系统有效
| 申请号: | 201910507881.9 | 申请日: | 2019-06-12 |
| 公开(公告)号: | CN110347896B | 公开(公告)日: | 2021-09-21 |
| 发明(设计)人: | 王刘旺;戴彦;韩嘉佳;颜拥;姚影;杨杨;喻鹏;郝茂杰 | 申请(专利权)人: | 国网浙江省电力有限公司电力科学研究院;国家电网有限公司;北京邮电大学 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/23 |
| 代理公司: | 浙江翔隆专利事务所(普通合伙) 33206 | 代理人: | 张建青 |
| 地址: | 310014 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 pagerank 算法 医疗 数据 方法 系统 | ||
1.一种基于PageRank算法的医疗数据爬取方法,其特征在于,包括步骤:
S1、用户根据需要输入要爬取的医疗关键词;
S2、计算网页时间因子及潜在相关性因子;
S3、计算得到第一轮PR值,并临时存入数据库中;
S4、对各网页中的超链接进行权重计算;
S5、计算得到第二轮PR值,并更新数据库;
S6、比较PR值大小,用户根据需要获取PR值最大的N个网页;
S7、输出PR值最大的N个网页;
步骤S1具体包括:S11、用户根据爬取需要,自行设定关键词C;
步骤S2具体包括:
S21、计算网页的时间因子Tu,计算公式如下:
其中,δ为(0,1]之间的限定系数,保证分母在正常范围内;Ttime为距离最近一次网页更新的时间间隔;Tnumber为最近一次下载的网页文件的数量;Tdownload为最近一次网页被下载的时间间隔;
S22、计算潜在相关性因子Pu,计算公式如下:
Pu=α*inherited(currenturl)+(1-α)*neighborhood(currenturl)
其中,α为小于1的衰减因子,currenturl表示当前链接,inherited(currenturl)表示当前网页从父链接继承得到的分数,计算公式如下:
其中,β为小于1的衰减因子,parenturl为currenturl的父链接;score(C,parenturl)为通过字符串匹配函数计算父链接与关键词C之间的相关性的分;inherited(parenturl)表示parenturl从其父节点继承得到的分数,μ为相关性阈值;
neiborhood(currenturl)代表当前链接周围的文本与关键词之间的相关性,其计算公式如下:
neiborhood(currenturl)
=γ*ln(score(C,anchor)+1)+(1-γ)*ln(score(C,anchortext)+1)
其中,γ为小于1的衰减因子,anchor代表当前链接中的文本信息,anchortext代表当前链接周围的文本信息,即链接上下文;score(C,anchor)表示关键词与当前链接中文本信息的相关性得分,score(C,anchortext)表示关键词与当前链接周围文本信息的相关性得分。
2.根据权利要求1所述的一种基于PageRank算法的医疗数据爬取方法,其特征在于,步骤S3具体包括:
S31、根据PageRank算法计算原始PR值,将时间因子和潜在相关性因子作为系数求得网页的第一轮PR值,计算公式如下:
其中,PRold为第一次计算得到的网页PR值;d为阻尼系数;PR(Mi)表示网页Mi的原始页面排序分数;S(Mi)表示网页Mi的链出页面数目;n表示链入当前网页的网页数目;将计算结果存储到数据库中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网浙江省电力有限公司电力科学研究院;国家电网有限公司;北京邮电大学,未经国网浙江省电力有限公司电力科学研究院;国家电网有限公司;北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910507881.9/1.html,转载请声明来源钻瓜专利网。





