[发明专利]一种基于PageRank算法的医疗数据爬取方法及系统有效
| 申请号: | 201910507881.9 | 申请日: | 2019-06-12 |
| 公开(公告)号: | CN110347896B | 公开(公告)日: | 2021-09-21 |
| 发明(设计)人: | 王刘旺;戴彦;韩嘉佳;颜拥;姚影;杨杨;喻鹏;郝茂杰 | 申请(专利权)人: | 国网浙江省电力有限公司电力科学研究院;国家电网有限公司;北京邮电大学 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/23 |
| 代理公司: | 浙江翔隆专利事务所(普通合伙) 33206 | 代理人: | 张建青 |
| 地址: | 310014 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种基于PageRank算法的医疗数据爬取方法及系统。本发明的医疗数据爬取方法,包括步骤:用户根据需要输入要爬取的医疗关键词;计算网页时间因子及潜在相关性因子;计算得到第一轮PR值,并临时存入数据库中;对各网页中的超链接进行权重计算;计算得到第二轮PR值,并更新数据库;比较PR值大小,获取PR值最大的N个网页;输出PR值最大的N个网页。本发明能够有效的解决传统通用爬虫算法偏重旧网页、主题漂移和偏重综合性网页的缺陷,可以高效、准确的爬取医疗数据网页。 | ||
| 搜索关键词: | 一种 基于 pagerank 算法 医疗 数据 方法 系统 | ||
【主权项】:
1.一种基于PageRank算法的医疗数据爬取方法,其特征在于,包括步骤:S1、用户根据需要输入要爬取的医疗关键词;S2、计算网页时间因子及潜在相关性因子;S3、计算得到第一轮PR值,并临时存入数据库中;S4、对各网页中的超链接进行权重计算;S5、计算得到第二轮PR值,并更新数据库;S6、比较PR值大小,用户根据需要获取PR值最大的N个网页;S7、输出PR值最大的N个网页。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网浙江省电力有限公司电力科学研究院;国家电网有限公司;北京邮电大学,未经国网浙江省电力有限公司电力科学研究院;国家电网有限公司;北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910507881.9/,转载请声明来源钻瓜专利网。





