詹惠儿

2018-12-25   阅读量: 619

数据分析师

url的主要问题是什么?

扫码加入数据分析学习群

节点的URL前沿由其爬网过程(或另一个爬网过程的主机拆分器)提供URL。它维护边界中的URL,并在爬虫程序线程寻找URL时以某种顺序对它们进行反刍。两个重要的考虑因素决定了边界返回URL的顺序。首先,频繁更改的高质量页面应优先进行频繁爬行。因此,页面的优先级应该是其变化率和质量的函数(使用一些合理的质量估计)。这种组合是必要的,因为大量的垃圾邮件页面在每次获取时都会完全改变。

第二个考虑因素是礼貌:我们必须避免在短时间内对主机重复获取请求。由于某种形式的参考地点,这种情况的可能性会加剧:许多网址链接到同一主机上的其他网址。因此,实现为简单优先级队列的URL前沿可能会导致向主机发送突发请求。即使我们要约束爬网程序,以便最多一个线程可以随时从任何单个主机获取,也可能发生这种情况。常见的启发式方法是在对主机的连续提取请求之间插入一个间隙,该间隙比从该主机最近提取的时间大一个数量级。

基于其获取历史记录(考虑此URL的网页在之前的爬网之间发生变化的速率)。例如,已经表现出频繁变化的文档将被赋予更高的优先级。其他启发式方法可能依赖于应用程序和显式 - 例如,新闻服务中的URL可能始终被赋予最高优先级。现在已经为其分配了优先级,URL现在被附加到前队列中

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
0.0000 0 2 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子