我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:香港跑狗图 > 调度方式 >

如何通过web的方式开发配置并调度监控自己的爬虫

归档日期:07-07       文本归类:调度方式      文章编辑:爱尚语录

  可选中1个或多个下面的关键词,搜索相关资料。也可直接点“搜索资料”搜索整个问题。

  1【专注:Python+人工智能Java大数据HTML5培训】 2【免费提供名师直播课堂、公开课及视频教程】 3【地址:北京市昌平区三旗百汇物美大卖场2层,微信公众号:yuzhitc】果有资金专门做这块的话,市面上已经存在火车头、八爪鱼 这样的抓取软件,小白用户用的还是不错的。

  但是如果要对所有的爬虫进行统一管理和部署的话,需要有一个通用的框架,类似 Hadoop中 确定了 map和reduce的接口,在里面实现所有的抓取操作,对于任务的分配,如果是java的话,就需要提交jar包之类的。

  另外是心跳机制,如何确定一个爬虫在按照既有的规则在执行,别当了之后还不知道,这个时候心跳中就可以存储 当前抓取的数据量、异常数、当前程序运行时间等。这个可以通过监测管理页面来展示等。

本文链接:http://mikephotos.net/diaodufangshi/822.html