热线电话:13121318867

登录
2020-11-25 阅读量: 645
如何处理封IP的反爬 ?

因为网络上的免费代理平台可用的IP数量太少,所以自己写一个模块去抓取平台的IP来维护是没有什么意义的。我选择的是付费代理,通过使用平台的api在本地动态维护一个IP缓存池来供给分布式架构的爬虫节点使用。这个缓存池不需要做IP有效性验证,因为我的爬虫若下载某个Request彻底失败后会把这个Request重新放回Request队列,而且选择一个好的代理平台可以大大提高代理IP质量。我常用的是快代理。缓存池的IP被取走一个,池中的数量就减少一个,当数量少于M时,再从平台获取N个。


0.0000
0
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子