爬虫反爬虫运行现状

电子商务行业的爬虫与反爬虫更有趣一些，最初的爬虫需求来源于比价。

这是某些电商网站的核心业务，大家买商品的时候，是一个价格敏感型用户的话，很可能用过网上的比价功能(真心很好用啊)。

毫无悬念，他们会使用爬虫技术来爬取所有相关电商的价格。他们的爬虫还是比较温柔的，对大家的服务器不会造成太大的压力。

然而，这并不意味着大家喜欢被他爬取，毕竟这对其他电商是不利的，于是需要通过技术手段来做反爬虫。

按照技术人员的想法，对方用技术怼过来，我们就要用技术怼回去，不能怂啊。这个想法是很好的，但是实际应用起来根本不是这么回事。

诚然，技术是很重要的，但是实际操作上，更重要的是套路。谁的套路更深，谁就能玩弄对方于鼓掌之中。

谁的套路不行，有再好的技术，也只能被耍的团团转。这个虽然有点伤技术人员的自尊，然而，我们也不是第一天被伤自尊了。大家应该早就习惯了吧。

真实世界的爬虫比例

大家应该听过一句话吧，大概意思是说，整个互联网上大概有 50% 以上的流量其实是爬虫。

第一次听这句话的时候，我还不是很相信，我觉得这个说法实在是太夸张了。怎么可能爬虫比人还多呢？爬虫毕竟只是个辅助而已。

现在做了这么久的反爬虫，我依然觉得这句话太夸张了。50%？你在逗我？就这么少的量？

举个例子，某公司，某个页面的接口，每分钟访问量是 1.2 万左右，这里面有多少是正常用户呢？50%？60%？还是？

正确答案是：500 以下。也就是说，一个单独的页面，12000 的访问量里，有 500 是正常用户，其余是爬虫。

注意，统计爬虫的时候，考虑到你不可能识别出所有的爬虫，因此，这 500 个用户里面，其实还隐藏着一些爬虫。

那么爬虫率大概是：(12000-500)/12000=95.8%。

这个数字你猜到了吗？这么大的爬虫量，这么少的用户量，大家到底是在干什么？是什么原因导致了明明是百人级别的生意，却需要万级别的爬虫来做辅助？ 95% 以上，19 保 1？

答案可能会相当令人喷饭，这些爬虫大部分是由于决策失误导致的。

哭笑不得的决策思路

举个例子，这个世界存在 3 家公司，售卖相同的电商产品，三家公司的名字分别是 A，B，C。

这个时候，客户去 A 公司查询了下某商品的价格，看了下发现价格不好，于是他不打算买了，他对整个行业的订单贡献为 0。

然而 A 公司的后台会检测到，我们有个客户流失了，原因是他来查询了一个商品，这个商品我们的价格不好，没关系，我去爬爬别人试试。

于是他分别爬取了 B 公司和 C 公司，B 公司的后台检测到有人来查询价格，但是呢，最终没有下单。

他会认为，嗯，我们流失了一个客户。怎么办呢？我可以爬爬看，别人什么价格。

于是他爬取了 A 和 C，C 公司的后台检测到有人来查询价格。。。。。

过了一段时间，三家公司的服务器分别报警，访问量过高。三家公司的 CTO 也很纳闷，没有生成任何订单啊，怎么访问量这么高？

一定是其他两家禽兽写的爬虫没有限制好频率。妈的，老子要报仇！于是分别做反爬虫，不让对方抓自己的数据。

然后进一步强化自己的爬虫团队抓别人的数据。一定要做到：宁叫我抓天下人，休叫天下人抓我。

然后，做反爬虫的就要加班天天研究如何拦截爬虫，做爬虫的被拦截了，就要天天研究如何破解反爬虫策略。

大家就这么把资源全都浪费在没用的地方了，直到大家合并了，才会心平气和的坐下来谈谈，都少抓点。

最近国内的公司有大量的合并，我猜这种“心平气和”应该不少吧？

--------------------------------------------

原文链接：http://developer.51cto.com/art/201801/565183.htm