URL前前沿目标是确保(i)每次只有一个连接对任何主机开放; (ii)在对主机的连续请求和(iii)优先爬行高优先级页面之间发生几秒的等待时间。
两个主要的子模块是图中上部的一组前队列,下部是一组
后队列 ; 所有这些都是FIFO队列。前队列实现优先级,而后队列实现礼貌。在通过前后队列添加到前沿的URL流中,优先级首先为URL分配1和1之间的整数优先级。
基于其获取历史记录(考虑此URL的网页在之前的爬网之间发生变化的速率)。例如,已经表现出频繁变化的文档将被赋予更高的优先级。其他启发式方法可能依赖于应用程序和显式 - 例如,新闻服务中的URL可能始终被赋予最高优先级。现在已经为其分配了优先级,URL现在被附加到前队列中。
每个后向队列都维护以下不变量:(i)在爬网过程中它是非空的,(ii)它只包含来自单个主机的URL 。辅助表用于维护从主机到后台队列的映射。每当后队列为空并且正从前队列重新填充时,必须相应地更新表。
三个资料Q群下载不了也转发不了,先放这里Fine_tuning.zipLangChain.zipdata_clear.rar