詹惠儿

2019-01-08   阅读量: 571

数据分析师

如何理解分布式爬虫

扫码加入数据分析学习群

爬虫中的线程可以在不同的进程下运行,每个进程都在分布式爬网系统的不同节点上运行。这种分配对于扩展至关重要;它也可以在地理上分布的爬虫系统中使用,其中每个节点爬行主机“靠近”它。在爬网程序节点之间对正在爬网的主机进行分区可以通过散列函数或一些更具体定制的策略来完成。例如,我们可能会在欧洲找到一个抓取节点,专注于欧洲域,尽管由于多种原因这是不可靠的 - 数据包通过互联网的路径并不总是反映地理邻近性,并且无论如何都是主机的域并不总是反映其实际位置。

分布式爬网程序的各个节点如何通信和共享URL?我们的想法是 在每个节点上复制之前的流程,但有一个本质区别:在URL过滤器之后,我们使用主机拆分器将每个幸存的URL分派给负责URL的爬虫节点; 因此,被爬网的主机集在节点之间进行分区。主机拆分器的输出进入分布式系统中每个其他节点的Duplicate URL Eliminator块。

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
0.0000 0 2 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子