scrapy是什么？如何进行安装？-CDA数据分析师官网

热线电话：13121318867

scrapy是什么？如何进行安装？

2020-07-15

scrapy一个开源和协作的框架，最初的设计目的为：页面抓取（更准确来说是网络抓取），因此scrapy能够以简便、快捷·、可扩展的方式从网站中提取所需的信息。现阶段scrapy的应用十分广泛，能够用于挖掘、监测和自动化测试等许多领域，也可以被用在API所返回的数据，就像：Amazon Associates Web Services，或者通用的网络爬虫等方面。 scrapy是基于twisted框架而开发出来的，twisted是一个流行的事件驱动的python网络框架，所以通过利用一种非阻塞（又被称为异步）的代码来实现并发。

一、scrapy架构

scrapy框架主要由以下·六大组件组成：调试器(Scheduler)、下载器(Downloader)、爬虫（Spider）、中间件（Middleware）、实体管道(Item Pipeline)和Scrapy引擎(Scrapy Engine)

1、Scrapy Engine(引擎): 主要负责控制所有组件间的数据流，并在相应动作触发事件时进行处理。

2、Scheduler(调度器): 调度器从引擎接受请求，并将这些请求放入队列中，并在之后返回给引擎。

3、Downloader（下载器）：下载器负责根据引擎的请求，获取页面数据并反应给引擎，之后提供给spider。

4、Spider（爬虫）：每一个spider负责处理一个(或一些)特定网站，Spider发出请求，并对引擎返回给它下载器响应数据进行处理，以items和规则内的数据请求（urls）返回给引擎。

5、Item Pipeline(管道)： Item Pipeline负责处理被spider提取出来的数据，并将数据持久化。

6、Downloader Middlewares（下载中间件）：下载器中间件是在引擎及下载器之间的交互组件，也被称为特定钩子(specific hook)，能够代替接收请求、处理数据的下载，并将结果提供给引擎。

7、Spider Middlewares（Spider中间件）： Spider中间件是在引擎及Spider之间的特定钩子(specific hook)，处理spider的输入(response)和输出(items及requests)。其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。

二、scrapy安装

windows环境配置

scrapy依赖包（或者到官网单独下载各文件安装）：

1.lxml: pip install wheel

2.zope.interface:pip install zope.interface-4.3.3-cp35-cp35m-win_amd64.whl

3.pyOpenSSL:pip install pyOpenSSL

4.Twisted:pip install Twisted

5.Scrapy:pip install Scrapy

如果还没安装，Anoconda+Pycharm+Scrapy Anaconda，先到http://www.continuum.io/downloads下载对应平台的包安装。如果已经安装，直接通过conda命令安装Scrapy。conda install scrapy

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；