专利名称
主分类
A 农业
B 作业;运输
C 化学;冶金
D 纺织;造纸
E 固定建筑物
F 机械工程、照明、加热
G 物理
H 电学
专利下载VIP
公布日期
2023-10-24 公布专利
2023-10-20 公布专利
2023-10-17 公布专利
2023-10-13 公布专利
2023-10-10 公布专利
2023-10-03 公布专利
2023-09-29 公布专利
2023-09-26 公布专利
2023-09-22 公布专利
2023-09-19 公布专利
更多 »
专利权人
国家电网公司
华为技术有限公司
浙江大学
中兴通讯股份有限公司
三星电子株式会社
中国石油化工股份有限公司
清华大学
鸿海精密工业股份有限公司
松下电器产业株式会社
上海交通大学
更多 »
钻瓜专利网为您找到相关结果13个,建议您升级VIP下载更多相关专利
  • [发明专利]页面爬取方法、装置、存储介质及处理器-CN201710794640.8有效
  • 崔志伸 - 北京国双科技有限公司
  • 2017-09-05 - 2021-07-30 - G06F16/951
  • 本发明提供了一种页面爬取方法、装置、存储介质及处理器,其中,该方法包括:获取页面爬取任务,其中,页面爬取任务包括爬取多个网页的任务,且爬取多个网页的任务为需要使用相同IP地址爬取的任务;从预设的代理IP池中获取一个目标代理IP地址;生成携带有目标代理IP地址的目标任务,并根据目标代理IP地址执行目标任务。采用上述技术方案,解决了使用相同IP地址爬取页面的爬取效率较低的问题,提高了使用相同IP地址爬取页面的爬取效率。
  • 页面方法装置存储介质处理器
  • [发明专利]实体舆情计算方法及系统-CN201911054560.4在审
  • 崔志伸 - 北京国双科技有限公司
  • 2019-10-31 - 2021-05-04 - G06F16/335
  • 本发明实施例提供一种实体舆情计算方法及系统,属于计算机技术领域。包括:获取指定实体以及与所述指定实体的舆情相关的当前文本、以及用于示出当前文本的情感倾向状态的情感数值;根据预设定的分类模型,获取当前文本对应的当前事件类别集及用于示出其中每一当前事件类别的当前词频,其中分类模型被配置为以文本为输入,并以词频为输出;基于所获取的当前词频,计算当前文本与当前事件类别集中的每一当前事件类别的当前相关性数值;以及基于当前文本对应的当前事件类别集、每一当前事件类别的当前相关性数值以及情感数值,计算用于示出指定实体的舆情状态的舆情数值。本发明获得的结果可以反映公司的真实舆情状态。
  • 实体舆情计算方法系统
  • [发明专利]文本相似度确定方法、装置、存储介质和电子设备-CN201910886796.8在审
  • 崔志伸 - 北京国双科技有限公司
  • 2019-09-19 - 2021-03-19 - G06F40/216
  • 本申请涉及一种文本相似度确定方法、装置、存储介质和电子设备。该方法包括:获取第一文本的第一高频词序列和第二文本的第二高频词序列;所述第一高频词序列和所述第二高频词序列中的词均按照词频从大到小排列;提取所述第一高频词序列和所述第二高频词序列中的公共词,得到所述第一文本和所述第二文本的公共词序列;其中,所述公共词序列中的词按照词频从大到小排列,所述公共词序列中任意两个词的顺序,分别与所述任意两个词在所述第一高频词序列和所述第二高频词序列中的顺序相同;根据所述第一高频词序列、所述第二高频词序列和所述公共词序列,确定所述第一文本和所述第二文本的文本相似度。采用本方法能够提高文本相似度的准确性。
  • 文本相似确定方法装置存储介质电子设备
  • [发明专利]网页爬取的方法和装置-CN201611089766.7有效
  • 崔志伸 - 北京国双科技有限公司
  • 2016-11-30 - 2021-01-22 - G06F16/951
  • 本发明公开了一种网页爬取的方法和装置。其中,该方法包括:在翻页爬取任务中针对每页的爬取结果进行存储,并依据每页对应的爬取结果生成对应的存储标识;在翻页爬取任务爬取页面失败时,依据存储标识对应的爬取进程执行爬取操作;在翻页爬取任务结束时,依据每页对应的存储标识提取对应的爬取结果;存储翻页爬取任务的爬取结果。本发明解决了由于翻页过程中出现不可控错误时,之前爬取成功的页面将全部丢失,从而导致降低了爬取效率的技术问题。
  • 网页方法装置
  • [发明专利]网络爬虫的处理方法及装置-CN201610065969.6有效
  • 李可欣;崔志伸 - 北京国双科技有限公司
  • 2016-01-29 - 2020-12-29 - G06F16/951
  • 本发明公开了一种网络爬虫的处理方法及装置,涉及互联网技术领域,解决了现有的网络爬虫运行过程中出现的爬取任务拥塞的问题。本发明的方法包括:判断待爬取页面的类型,所述待爬取页面的类型包括:内容页面和目录页面;将所述待爬取页面的任务以先进先出的处理顺序保存在任务队列中;当确定爬取任务拥塞时对任务队列进行整理,将类型为目录页面的待爬取页面的任务放置在所述任务队列的队列尾部。本发明主要用于提高网络爬虫的爬取效率。
  • 网络爬虫处理方法装置
  • [发明专利]管理网站登录信息的方法和装置-CN201510745533.7有效
  • 崔志伸 - 北京国双科技有限公司
  • 2015-11-05 - 2020-12-01 - G06F16/958
  • 本发明公开了一种管理网站登录信息的方法和装置,涉及互联网技术领域,能够解决现有技术中当爬虫程序确定某登录信息失效时,将其丢弃,之后需人工对丢弃的登录信息进行处理,从而造成管理网站登录信息效率低的问题。本发明的方法主要包括:获取本地存储的失效的登录信息;判断所述登录信息的失效时长是否大于所述登录信息对应的预设时间阈值;若所述失效时长大于所述预设时间阈值,则将所述登录信息恢复为有效的登录信息。本发明主要适用于爬虫程序通过登录凭证爬取网页的场景中。
  • 管理网站登录信息方法装置
  • [发明专利]申请登录凭证的方法和装置-CN201510706429.7有效
  • 崔志伸 - 北京国双科技有限公司
  • 2015-10-27 - 2020-05-12 - G06F21/33
  • 本发明公开了一种申请登录凭证的方法和装置,涉及互联网技术领域,能够解决现有技术中爬虫程序申请登录凭证效率低的问题。本发明的方法主要包括:接收爬虫程序发送的登录凭证请求,所述登录凭证请求用于申请获得所述爬虫程序待爬取网站的登录凭证;获取所述登录凭证请求中携带的网址;从本地获取与所述网址对应的登录凭证;向所述爬虫程序发送所述登录凭证。本发明主要适用于爬虫程序爬取网页的场景中。
  • 申请登录凭证方法装置
  • [发明专利]爬虫任务完成的判断方法和装置-CN201510624770.8有效
  • 崔志伸 - 北京国双科技有限公司
  • 2015-09-25 - 2020-02-07 - G06F16/951
  • 本申请公开了一种爬虫任务完成的判断方法和装置。其中,该方法包括:在当前爬取子任务结束时,累计执行过的所有爬取子任务得到的链接的数量,得到累计链接数;累计执行所有爬取子任务时爬取失败的链接数量、爬取成功的链接数量和无效链接的数量;当爬取失败的链接数量、爬取成功的链接数量和无效链接的数量的总和与链接总数相同时,确定爬虫任务结束,其中,链接总数为累计链接数加1得到。本申请解决了无法准确确定爬取任务的结束时间的技术问题。
  • 爬虫任务完成判断方法装置
  • [发明专利]爬取网站增量资源的方法和装置-CN201510614245.8有效
  • 崔志伸 - 北京国双科技有限公司
  • 2015-09-23 - 2019-12-13 - G06F16/951
  • 本发明实施例公开了一种爬取网站增量资源的方法和装置,其中,方法包括:以待爬取网站的目录层级的最顶层对应页面作为当前页面进行爬取,获得属于网站的所有链接;识别该所有链接中的各链接是内容页链接还是目录页链接;针对目录页链接,分别以各目录页链接所指向的目录页的页面作为当前页面,执行对当前页面进行爬取的操作;针对内容页链接,分别爬取未被爬取过的各内容页链接所指向的内容页,获得内容页数据并存储到网站的资源数据中,并在爬取的内容页中包括属于网站的链接时,针对包括的所有链接,执行识别所有链接是内容页链接还是目录页链接的操作。本发明实施例可以获取网站上的全部增量资源,并且提高增量资源的爬取效率。
  • 网站增量资源方法装置
  • [发明专利]网络爬虫集群信息的更新方法和装置-CN201510579940.5有效
  • 崔志伸 - 北京国双科技有限公司
  • 2015-09-11 - 2019-11-12 - G06F16/951
  • 本申请公开了一种网络爬虫集群信息的更新方法和装置。其中,网络爬虫集群中每个网络爬虫配备一个本地检查器,该方法包括:目标本地检查器根据其对应的网络爬虫发送的消息在该目标本地检查器中查询是否存在目标爬取链接,其中,消息中携带有目标爬取链接;在查询出不存在目标爬取链接时,目标本地检查器保存目标爬取链接,并向其他本地检查器发送携带有目标爬取链接的广播,以使其他本地检查器依据广播更新爬取链接。本申请解决了相关技术中网络爬虫的爬取效率比较低的技术问题。
  • 网络爬虫集群信息更新方法装置

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top