动态加密？看我如何见招拆招爬取某点评全站内容-CDA数据分析师官网

热线电话：13121318867

首页大数据时代动态加密？看我如何见招拆招爬取某点评全站内容

动态加密？看我如何见招拆招爬取某点评全站内容

2020-12-31

公众号：早起Python

作者：刘早起

大家好，我是早起。

在前几天的文章中，我针某点评商家搜索页面的字体反爬给出了解决方案，但是还有一个问题，那就是当时给出的方法是下载对应的woff字体文件，然后建立加密字体与编码之间的映射关系来进行破解。

但是有一个问题就是不同页面的字体文件，是动态加载的，换句话说就是你在这个页面建立的映射关系，换一个页面就不能用了。

那就没有解决办法了吗？其实也不难，或者说对方还是给了很清晰的思考方向，因为，虽然每一个页面的字体是动态加载的，但是这个动态仅针对字体解析后编码的变化，字体内部顺序是没有变化的

每两个页面中，仅仅是字体编码发生了改变，而字体的位置顺讯并没有改变，所以我们只需要在解析每一页的数据之前，先提取页面中CSS样式，再从CSS内容中定位到字体文件存储链接，之后就是请求这一页对应的字体文件并解析构造匹配字典，后面的步骤就和上一篇文章一样了。

那我们开始，目标是爬取某城市指定美食的全部商家信息，比如定位广州搜索沙县小吃，之后爬取全部的搜索页面。

首先就是构造全部的URL，由于每一页的URL是有一定规律的，所以这一步很简单，从第一页中提取全部页数然后按照规律添加到url_list中即可，而这个数据没有被加密

所以这部分代码可以这样写

这部分代码不难理解构造请求——解析页面——提取页数——模拟URL，其中get_ip()必须要返回一个可以使用的ip，不论你是用免费的还是付费的代理，在这里不做详细讲解。

搞定URL之后，我们来到最关键的步骤，写一个函数，传进来一个页面返回该页的文字匹配字典，那么第一步就是把字体拿下来，下面四行代码即可搞定

简单来看一下这段代码，我们传入一个请求后得到的page后

“

第一行代码使用正则表达式提取字体所在的css链接

第二行代码使用requests请求css内容

最后两行代码使用正则提取woff字体文件所在URL

”

如果你传进去的页面是正常的，那么现在我们就有地址、均价字段的字体所在URL，下面就可以使用requests将这两个字体文件下载并保存在本地，代码如下

现在工作目录下就有两个字体文件，之后就按照上一篇文章介绍的字体加密破解方法操作即可。所以这部分完整代码如下：

唯一需要注意的就是，这里传进去的page，就是你直接请求当前页面返回的内容，比如

动态加密？看我如何见招拆招爬取某点评全站内容

你需要确保这里的page是正确包含内容的，如果是被403之后的页面或者是提示要输入验证码之类的页面是无法正确执行的。

那么到这里，我们就搞定了在每一页的字体文件都是动态加载的情况下如何爬取全部搜索页面的信息，之后只需要写一个循环爬去url_list中的全部URL，并使用pandas进行保存即可。动态加密？看我如何见招拆招爬取某点评全站内容

本文的分享就到这里，完整的代码我就不提供了，因为某点评网站的限制，大概率拿走也是不能用的，但是最关键的函数已经完整的发在文中了，复制粘贴就能使用。

如果你尝试去爬取过大众点评，会发现最难的不再是字体加密，而是捉摸不透的反爬机制，尤其是headers中参数的构造，cookie的破解，公众号没有留言，你可以添加早小起微信和我交流，我会在后续继续更新相关文章！

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

requests 字段 pandas 正则表达式

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇企业如何搭建合理的数据分析体系？

下一篇北京企业平均薪酬达16.68万元，全国最高，你又拉后腿了吗？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

动态加密？看我如何见招拆招爬取某点评全站内容

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

从“杂乱”到“有序”：CDA数据分析师视角下的数据 ...

CDA持证人专访：崔爱军谈地产行业数据治理与数据中 ...

【CDA干货】显著水平与P值的核心区别、关联关系及实 ...

为什么统计是数据分析师的“底层语言”？ ...

【CDA干货】数据分析核心技能体系：从工具落地到业 ...

【CDA干货】企业价值市场法价值比率与线性回归分析 ...

从“零散明细”到“多维洞察”：CDA数据分析师视角 ...

CDA持证人专访：赵君研谈金融行业数据分析与运营岗 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

CDA持证人专访：贺译册谈产品经理的市场洞察力与数 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

【CDA干货】漏斗拆解：核心逻辑、实操方法与业务优 ...

【CDA干货】SQL数值转日期函数全解析：主流数据库语 ...

数据分析必修课：CDA数据分析师视角下的表格结构数 ...

CDA持证人专访：杨旭谈数据产品经理的工作实践与核 ...

【CDA干货】Python变量定义与类实例化：核心原理、 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】联合索引与覆盖索引：本质区别、实战场 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载