
来源:麦叔编程
作者:麦叔
练武的人都知道:练武不练功,到老一场空!
说的是只练花架子,不练习内功,最终也都是一个菜鸟级武师。
学习编程何尝不是!我时常见到已经学习相当一段时间的程序员,连稍微深点的基本知识都没有掌握。可叹,可悲啊!根子不牢,注定走不远啊!
基于实例学习编程非常重要,也非常有效,但与此同时,我们也必须不断的加强基本功的学习,刻意的加强相关的技术。掌握技术脉络,加强各项技术,跳出编程语言本身,练好内功,才能爬的又快又好,成为一个高级的爬虫工程师!
本文从爬虫的技术原理出发,讨论了Python爬虫工程师必须掌握和不断加强的几项技术。
除此之外,网站会有各种反爬取技术,爬虫工程师和网站开发工程一个攻,一个守,斗智斗勇。
另外,爬虫10个网页和爬取10000个网站是不同的概念,你需要维护要爬取的数以万计的URL,设置更新频率,去掉不需要的URL等等,查看各个网站的爬取状态等,这就是一个工程化的问题。商业级的爬虫涉及到很多工程化问题。
就像家庭作坊可以就在自己院子里,一家人就能生产出少量的产品。但要大量生成就需要厂房,财务,人事等企业框架和管理制度、
下面列举了爬虫工程师需要不断掌握和精进的基本功技术:
HTTP协议是爬虫和网页交流的语言,如果不懂这个语言,你肯定不能成为一个有效的爬虫工程师。你也不需要成为一个协议专家,主要掌握请求,相应,header,cookie等就可以了。
我们看到的网页基本都是HTML的格式,我们要从HTML的脚本中找出所需要的信息,就必须掌握HTML的格式。
同样的一个HTML页面,我们可以展现不同的样式。我们通过CSS来指定样式,比如指定表格用什么背景颜色,文字用什么字体等。
这些样式,本来不是爬虫工程师在意的事情,因为我们只在意数据。但是通过CSS,我们可以有效的定位到某些数据,所以CSS还是需要学习的,后面的数据解析部分会再次提到CSS。
HTML是完全静态的网页,为了在网页上实现动态效果,就有了JavaScript。很多网页上的数据并没有直接在HTML中给出,而是通过JavaScript后续又加载出来的。
实际上,JavaScript是编程语言排行榜上很靠前的编程语言,所谓的前端开发者需要精通JavaScript,而爬虫工程师了解基本的知识,知道Ajax请求的相关原理,有时候还要知道如何用JavaScript加密,就差不多了。
JSON是JavaScript Object Notation的意思,可以理解成一种数据结构。一般的数据API都是以JSON格式的:
我们需要用某种技术,从HTML中找出我们想要的数据,xpath是其中一种。简单说,就是通过路径来找到想要的数据:
通过指定样式,我们也可以定位到指定的数据,再解析数据:
因为喜欢Jquery的原因,我个人更喜欢CSS选择器。
前两种数据解析都是基于结构的解析方式,而正则表达式(re)就把HTML当成一个文本,不在意其中的结构,用字符串的规则解析数据:
CSV是用逗号隔开的一种纯文本的数据格式,是数据分析和处理中最常用的格式。CSV可以用记事本打开,也可以用Excel打开。
把数据存储在CSV等文本中很方便,但是数据的查询和处理不方便,为了解决这个问题,我们可以会把数据保存在数据库中。
这是很广阔的领域,数据库是计算机技术中最重要分分支之一。值得你不断地学习和精进。相比前面的HTML等,你只要几个小时就可以学会了,后面也不怎么需要更新知识。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
CDA 数据分析师证书考取全攻略 在数字化浪潮汹涌的当下,数据已成为企业乃至整个社会发展的核心驱动力。数据分析师作 ...
2025-06-25人工智能在数据分析的应用场景 在数字化浪潮席卷全球的当下,数据以前所未有的速度增长,传统的数据分析方法逐渐难以满足海 ...
2025-06-25评估模型预测为正时的准确性 在机器学习与数据科学领域,模型预测的准确性是衡量其性能优劣的核心指标。尤其是当模型预测结 ...
2025-06-25CDA认证:数据时代的职业通行证 当海通证券的交易大厅里闪烁的屏幕实时跳动着市场数据,当苏州银行的数字金融部连夜部署新的风控 ...
2025-06-24金融行业的大数据变革:五大应用案例深度解析 在数字化浪潮中,金融行业正经历着深刻的变革,大数据技术的广泛应用 ...
2025-06-24Power Query 中实现移动加权平均的详细指南 在数据分析和处理中,移动加权平均是一种非常有用的计算方法,它能够根据不同数据 ...
2025-06-24数据驱动营销革命:解析数据分析在网络营销中的核心作用 在数字经济蓬勃发展的当下,网络营销已成为企业触达消费者 ...
2025-06-23随机森林模型与 OPLS-DA 的优缺点深度剖析 在数据分析与机器学习领域,随机森林模型与 OPLS-DA(正交偏最小二乘法判 ...
2025-06-23CDA 一级:开启数据分析师职业大门的钥匙 在数字化浪潮席卷全球的今天,数据已成为企业发展和决策的核心驱动力,数据分析师 ...
2025-06-23透视表内计算两个字段乘积的实用指南 在数据处理与分析的过程中,透视表凭借其强大的数据汇总和整理能力,成为了众多数据工 ...
2025-06-20CDA 一级考试备考时长全解析,助你高效备考 CDA(Certified Data Analyst)一级认证考试,作为数据分析师领域的重要资格认证, ...
2025-06-20统计学模型:解锁数据背后的规律与奥秘 在数据驱动决策的时代,统计学模型作为挖掘数据价值的核心工具,发挥着至关重要的作 ...
2025-06-20Logic 模型特征与选择应用:构建项目规划与评估的逻辑框架 在项目管理、政策制定以及社会服务等领域,Logic 模型(逻辑模型 ...
2025-06-19SPSS 中的 Mann-Kendall 检验:数据趋势与突变分析的利器 在数据分析的众多方法中,Mann-Kendall(MK)检验凭借其对数据分 ...
2025-06-19CDA 数据分析能力与 AI 的一体化发展关系:重塑数据驱动未来 在数字化浪潮奔涌的当下,数据已然成为企业乃至整个社会发展进 ...
2025-06-19CDA 干货分享:统计学的应用 在数据驱动业务发展的时代浪潮中,统计学作为数据分析的核心基石,发挥着无可替代的关键作用。 ...
2025-06-18CDA 精益业务数据分析:解锁企业增长新密码 在数字化浪潮席卷全球的当下,数据已然成为企业最具价值的资产之一。如何精准地 ...
2025-06-18CDA 培训:开启数据分析师职业大门的钥匙 在大数据时代,数据分析师已成为各行业竞相争夺的关键人才。CDA(Certified Data ...
2025-06-18CDA 人才招聘市场分析:机遇与挑战并存 在数字化浪潮席卷各行业的当下,数据分析能力成为企业发展的核心竞争力之一,持有 C ...
2025-06-17CDA金融大数据案例分析:驱动行业变革的实践与启示 在金融行业加速数字化转型的当下,大数据技术已成为金融机构提升 ...
2025-06-17