[发明专利]一种基于PageRank算法的医疗数据爬取方法及系统有效

申请号：	201910507881.9	申请日：	2019-06-12
公开（公告）号：	CN110347896B	公开（公告）日：	2021-09-21
发明（设计）人：	王刘旺;戴彦;韩嘉佳;颜拥;姚影;杨杨;喻鹏;郝茂杰	申请（专利权）人：	国网浙江省电力有限公司电力科学研究院;国家电网有限公司;北京邮电大学
主分类号：	G06F16/951	分类号：	G06F16/951;G06F16/23
代理公司：	浙江翔隆专利事务所(普通合伙) 33206	代理人：	张建青
地址：	310014 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 pagerank 算法医疗数据方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于PageRank算法的医疗数据爬取方法，其特征在于，包括步骤：

S1、用户根据需要输入要爬取的医疗关键词；

S2、计算网页时间因子及潜在相关性因子；

S3、计算得到第一轮PR值，并临时存入数据库中；

S4、对各网页中的超链接进行权重计算；

S5、计算得到第二轮PR值，并更新数据库；

S6、比较PR值大小，用户根据需要获取PR值最大的N个网页；

S7、输出PR值最大的N个网页；

步骤S1具体包括：S11、用户根据爬取需要，自行设定关键词C；

步骤S2具体包括：

S21、计算网页的时间因子T_u，计算公式如下：

其中，δ为(0，1]之间的限定系数，保证分母在正常范围内；T_time为距离最近一次网页更新的时间间隔；T_number为最近一次下载的网页文件的数量；T_download为最近一次网页被下载的时间间隔；

S22、计算潜在相关性因子P_u，计算公式如下：

P_u＝α*inherited(current_url)+(1-α)*neighborhood(current_url)

其中，α为小于1的衰减因子，current_url表示当前链接，inherited(current_url)表示当前网页从父链接继承得到的分数，计算公式如下：

其中，β为小于1的衰减因子，parent_url为current_url的父链接；score(C，parent_url)为通过字符串匹配函数计算父链接与关键词C之间的相关性的分；inherited(parent_url)表示parent_url从其父节点继承得到的分数，μ为相关性阈值；

neiborhood(current_url)代表当前链接周围的文本与关键词之间的相关性，其计算公式如下：

neiborhood(current_url)

＝γ*ln(score(C，anchor)+1)+(1-γ)*ln(score(C，anchor_text)+1)

其中，γ为小于1的衰减因子，anchor代表当前链接中的文本信息，anchor_text代表当前链接周围的文本信息，即链接上下文；score(C，anchor)表示关键词与当前链接中文本信息的相关性得分，score(C，anchor_text)表示关键词与当前链接周围文本信息的相关性得分。

2.根据权利要求1所述的一种基于PageRank算法的医疗数据爬取方法，其特征在于，步骤S3具体包括：

S31、根据PageRank算法计算原始PR值，将时间因子和潜在相关性因子作为系数求得网页的第一轮PR值，计算公式如下：

其中，PR_old为第一次计算得到的网页PR值；d为阻尼系数；PR(M_i)表示网页M_i的原始页面排序分数；S(M_i)表示网页M_i的链出页面数目；n表示链入当前网页的网页数目；将计算结果存储到数据库中。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于国网浙江省电力有限公司电力科学研究院;国家电网有限公司;北京邮电大学，未经国网浙江省电力有限公司电力科学研究院;国家电网有限公司;北京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910507881.9/1.html，转载请声明来源钻瓜专利网。

上一篇：基于Web的生态空间数据爬取方法
下一篇：基于事件检测的微博网络情感社区识别方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于PageRank算法的医疗数据爬取方法及系统有效

专利文献下载