京公网安备 11010802034615号
经营许可证编号:京B2-20210330
来源:麦叔编程
作者:麦叔
练武的人都知道:练武不练功,到老一场空!
说的是只练花架子,不练习内功,最终也都是一个菜鸟级武师。
学习编程何尝不是!我时常见到已经学习相当一段时间的程序员,连稍微深点的基本知识都没有掌握。可叹,可悲啊!根子不牢,注定走不远啊!
基于实例学习编程非常重要,也非常有效,但与此同时,我们也必须不断的加强基本功的学习,刻意的加强相关的技术。掌握技术脉络,加强各项技术,跳出编程语言本身,练好内功,才能爬的又快又好,成为一个高级的爬虫工程师!
本文从爬虫的技术原理出发,讨论了Python爬虫工程师必须掌握和不断加强的几项技术。
除此之外,网站会有各种反爬取技术,爬虫工程师和网站开发工程一个攻,一个守,斗智斗勇。
另外,爬虫10个网页和爬取10000个网站是不同的概念,你需要维护要爬取的数以万计的URL,设置更新频率,去掉不需要的URL等等,查看各个网站的爬取状态等,这就是一个工程化的问题。商业级的爬虫涉及到很多工程化问题。
就像家庭作坊可以就在自己院子里,一家人就能生产出少量的产品。但要大量生成就需要厂房,财务,人事等企业框架和管理制度、
下面列举了爬虫工程师需要不断掌握和精进的基本功技术:
HTTP协议是爬虫和网页交流的语言,如果不懂这个语言,你肯定不能成为一个有效的爬虫工程师。你也不需要成为一个协议专家,主要掌握请求,相应,header,cookie等就可以了。
我们看到的网页基本都是HTML的格式,我们要从HTML的脚本中找出所需要的信息,就必须掌握HTML的格式。
同样的一个HTML页面,我们可以展现不同的样式。我们通过CSS来指定样式,比如指定表格用什么背景颜色,文字用什么字体等。
这些样式,本来不是爬虫工程师在意的事情,因为我们只在意数据。但是通过CSS,我们可以有效的定位到某些数据,所以CSS还是需要学习的,后面的数据解析部分会再次提到CSS。
HTML是完全静态的网页,为了在网页上实现动态效果,就有了JavaScript。很多网页上的数据并没有直接在HTML中给出,而是通过JavaScript后续又加载出来的。
实际上,JavaScript是编程语言排行榜上很靠前的编程语言,所谓的前端开发者需要精通JavaScript,而爬虫工程师了解基本的知识,知道Ajax请求的相关原理,有时候还要知道如何用JavaScript加密,就差不多了。
JSON是JavaScript Object Notation的意思,可以理解成一种数据结构。一般的数据API都是以JSON格式的:
我们需要用某种技术,从HTML中找出我们想要的数据,xpath是其中一种。简单说,就是通过路径来找到想要的数据:
通过指定样式,我们也可以定位到指定的数据,再解析数据:
因为喜欢Jquery的原因,我个人更喜欢CSS选择器。
前两种数据解析都是基于结构的解析方式,而正则表达式(re)就把HTML当成一个文本,不在意其中的结构,用字符串的规则解析数据:
CSV是用逗号隔开的一种纯文本的数据格式,是数据分析和处理中最常用的格式。CSV可以用记事本打开,也可以用Excel打开。
把数据存储在CSV等文本中很方便,但是数据的查询和处理不方便,为了解决这个问题,我们可以会把数据保存在数据库中。
这是很广阔的领域,数据库是计算机技术中最重要分分支之一。值得你不断地学习和精进。相比前面的HTML等,你只要几个小时就可以学会了,后面也不怎么需要更新知识。
关于反爬技术,请看我另外一篇文章:
搞疯爬虫程序员的8个难点!!
在Python的世界里,工程化最常用的就是Scrapy框架,它使用组件化的方式分解了爬虫所需要处理的事情,让你可以集中在最关键的地方,剩下的管理工作交给框架来完成。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、机器学习的实操场景中,聚类分析与主成分分析(PCA)是两种高频使用的统计与数据处理方法。二者常被用于数据预处理 ...
2026-02-24在聚类分析的实操场景中,K-Means算法因其简单高效、易落地的特点,成为处理无监督分类问题的首选工具——无论是用户画像分层、 ...
2026-02-24数字化浪潮下,数据已成为企业核心竞争力,“用数据说话、用数据决策”成为企业发展的核心逻辑。CDA(Certified Data Analyst) ...
2026-02-24CDA一级知识点汇总手册 第五章 业务数据的特征、处理与透视分析考点52:业务数据分析基础考点53:输入和资源需求考点54:业务数 ...
2026-02-23CDA一级知识点汇总手册 第四章 战略与业务数据分析考点43:战略数据分析基础考点44:表格结构数据的使用考点45:输入数据和资源 ...
2026-02-22CDA一级知识点汇总手册 第三章 商业数据分析框架考点27:商业数据分析体系的核心逻辑——BSC五视角框架考点28:战略视角考点29: ...
2026-02-20CDA一级知识点汇总手册 第二章 数据分析方法考点7:基础范式的核心逻辑(本体论与流程化)考点8:分类分析(本体论核心应用)考 ...
2026-02-18第一章:数据分析思维考点1:UVCA时代的特点考点2:数据分析背后的逻辑思维方法论考点3:流程化企业的数据分析需求考点4:企业数 ...
2026-02-16在数据分析、业务决策、科学研究等领域,统计模型是连接原始数据与业务价值的核心工具——它通过对数据的规律提炼、变量关联分析 ...
2026-02-14在SQL查询实操中,SELECT * 与 SELECT 字段1, 字段2,...(指定个别字段)是最常用的两种查询方式。很多开发者在日常开发中,为了 ...
2026-02-14对CDA(Certified Data Analyst)数据分析师而言,数据分析的核心不是孤立解读单个指标数值,而是构建一套科学、完整、贴合业务 ...
2026-02-14在Power BI实操中,函数是实现数据清洗、建模计算、可视化呈现的核心工具——无论是简单的数据筛选、异常值处理,还是复杂的度量 ...
2026-02-13在互联网运营、产品迭代、用户增长等工作中,“留存率”是衡量产品核心价值、用户粘性的核心指标——而次日留存率,作为留存率体 ...
2026-02-13对CDA(Certified Data Analyst)数据分析师而言,指标是贯穿工作全流程的核心载体,更是连接原始数据与业务洞察的关键桥梁。CDA ...
2026-02-13在机器学习建模实操中,“特征选择”是提升模型性能、简化模型复杂度、解读数据逻辑的核心步骤——而随机森林(Random Forest) ...
2026-02-12在MySQL数据查询实操中,按日期分组统计是高频需求——比如统计每日用户登录量、每日订单量、每日销售额,需要按日期分组展示, ...
2026-02-12对CDA(Certified Data Analyst)数据分析师而言,描述性统计是贯穿实操全流程的核心基础,更是从“原始数据”到“初步洞察”的 ...
2026-02-12备考CDA的小伙伴,专属宠粉福利来啦! 不用拼运气抽奖,不用复杂操作,只要转发CDA真题海报到朋友圈集赞,就能免费抱走实用好礼 ...
2026-02-11在数据科学、机器学习实操中,Anaconda是必备工具——它集成了Python解释器、conda包管理器,能快速搭建独立的虚拟环境,便捷安 ...
2026-02-11在Tableau数据可视化实操中,多表连接是高频操作——无论是将“产品表”与“销量表”连接分析产品销量,还是将“用户表”与“消 ...
2026-02-11