爬虫中的线程可以在不同的进程下运行,每个进程都在分布式爬网系统的不同节点上运行。这种分配对于扩展至关重要;它也可以在地理上分布的爬虫系统中使用,其中每个节点爬行主机“靠近”它。在爬网程序节点之间对正在爬网的主机进行分区可以通过散列函数或一些更具体定制的策略来完成。例如,我们可能会在欧洲找到一个抓取节点,专注于欧洲域,尽管由于多种原因这是不可靠的 - 数据包通过互联网的路径并不总是反映地理邻近性,并且无论如何都是主机的域并不总是反映其实际位置。
分布式爬网程序的各个节点如何通信和共享URL?我们的想法是 在每个节点上复制之前的流程,但有一个本质区别:在URL过滤器之后,我们使用主机拆分器将每个幸存的URL分派给负责URL的爬虫节点; 因此,被爬网的主机集在节点之间进行分区。主机拆分器的输出进入分布式系统中每个其他节点的Duplicate URL Eliminator块。
然而, 模块由于以下几个因素而变得复杂:
三个资料Q群下载不了也转发不了,先放这里Fine_tuning.zipLangChain.zipdata_clear.rar