Python爬虫-数据科学专业问答社区-CDA答疑社区

热线电话：13121318867

登录

PGC123

python re模块介绍

re模块使Python语言拥有全部的正则表达式功能，本节主要介绍Python中re模块常用的3种函数使用方法。1. search()函数2. sub()函数3. findall()函数4. re模块修饰符

0.0000

0

6

0

关注作者

收藏

PGC123

边界匹配的用法

（1）“^”匹配字符串的开头。例如，^abc匹配abc开头的字符串。（2）“$”匹配字符串的结尾。例如，abc$匹配abc结尾的字符串。（3）“\A”匹配字符串的结尾。例如，\Aabc。（4）“\Z”匹配字符串的结尾。例如，abc\Z。边界匹配在爬虫实战中的使用较少，因为爬虫提取的数据大部分为标签中的数据，例如

0.0000

0

6

0

关注作者

收藏

PGC123

边界匹配的关键符号

边界匹配的关键符号列表如下：

0.0000

0

1

0

关注作者

收藏

PGC123

正则表达式中数量词的说明

说明：（1）“*”数量词匹配前一个字符0或无限次。例如，ab*c匹配ac、abc、abbc和abbbc等。（2）“ ”与“*”很类似，只是至少匹配前一个字符一次。例如，ab c匹配abc、abbc和abbbc等。（3）“？”数量词匹配前一个字符0或1次。例如，ab？c匹配ac和abc。（4）“{m}”数量词匹配前一个字符m次。例如，ab{3}c匹配abbbc。（5）“{m，n}”数量词匹

0.0000

0

2

0

关注作者

收藏

PGC123

正则中的数量词列表

正则中的数量词列表如下：

0.0000

0

4

0

关注作者

收藏

PGC123

正则表达式预定义字符集

正则表达式预定义字符集有6个

0.0000

0

2

0

关注作者

收藏

PGC123

正则表达式一般字符

正则表达式的一般字符有3个，见表格（1）“.”字符为匹配任意单个字符。例如，a.b可以的匹配结果为abc、aic、a

0.0000

0

4

0

关注作者

收藏

kejiayuan0806

python爬虫出现错误

问题描述：requests.exceptions.ChunkedEncodingError解决方法：对于这个错误，stackoverflow给出的解释是The link you included in your question is simply a wrapper that executes urllib’s read() function, which catches any

16.1763

1

0

0

关注作者

收藏

kejiayuan0806

python爬虫异常

问题描述：python爬虫异常报错：requests.exceptions.ConnectionError解决方法：对于这个错误，stackoverflow给出的解释是In the event of a network problem (e.g. DNS failure, refused connection, etc), Requests will raise a Connec

0.0000

0

6

0

关注作者

收藏

kejiayuan0806

python爬虫报错

问题描述：python爬虫报错：requests.exceptions.ProxyError解决方法：对于这个错误，stackoverflow给出的解释是The ProxyError exception is not actually the requests.exceptions exception; it an exception with the same name from

0.0000

0

2

0

关注作者

收藏

kejiayuan0806

爬虫时url中文编码报错

问题描述：爬虫时要访问的url中含有中文，如何来编码？解决方法：如果URL中存在中文，而你却不对它做任何处理，他不会达到你所想的那样，因此我们需要将中文部分进行处理，要用到urllib.request模块中的quote将中文转化成URL所需的编码，url中的中文要单独处理，不能中英文全部合在一起处理（因为一部分的特殊字符也会被处理掉）from urllib.request impo

0.0000

0

4

0

关注作者

收藏

kejiayuan0806

python中jieba的使用

问题描述：python中如何使用jieba?主要有哪些方法？其功能都是什么？解决方法：jieba中常用方法有如下6种，其功能如下：jieba.cut 方法接受三个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型jieba.cut_for_search 方法接受两个参数：需要分词的字符串；是否使用 HMM 模型。该方法

18.3147

1

5

0

关注作者

收藏

kejiayuan0806

爬虫中urlopen()和get()区别

问题描述：Python爬虫中用urllib的urlopen()和requests.get()方法去请求或获取一个网页的内容时，requests.get(url)和urlopen()有什么区别呢？两者的区别在于：urlopen打开URL网址，url参数可以是一个字符串url或者是一个Request对象，返回的是http.client.HTTPResponse对象.它包括read()

15.1137

1

3

0

关注作者

收藏

wo56565

爬虫过程中验证码怎么处理?

1.scrapy自带2.付费接口

0.0000

0

0

0

关注作者

收藏

wo56565

分布式爬虫主要解决什么问题?

1)ip2)带宽3)cpu4)io

0.0000

0

3

0

关注作者

收藏

wo56565

常见的反爬虫和应对方法?

1).通过Headers反爬虫从用户请求的Headers反爬虫是最常见的反爬虫策略。很多网站都会对Headers的User-Agent进行检测，还有一部分网站会对Referer进行检测(一些资源网站的防盗链就是检测Referer)。如果遇到了这类反爬虫机制，可以直接在爬虫中添加Headers，将浏览器的User-Agent复制到爬虫的Headers中;或者将Referer值修改为目标网站域名。

29.1701

1

2

0

关注作者

收藏

wo56565

写爬虫是用多进程好?还是多线程好? 为什么?

IO密集型代码(文件处理、网络爬虫等)，多线程能够有效提升效率(单线程下有IO操作会进行IO等待，造成不必要的时间浪费，而开启多线程能在线程A等待时，自动切换到线程B，可以不浪费CPU的资源，从而能提升程序执行效率)。在实际的数据采集过程中，既考虑网速和响应的问题，也需要考虑自身机器的硬件情况，来设置多进程或多线程

0.0000

0

0

0

关注作者

收藏

wo56565

描述下scrapy框架运行的机制?

从start_urls里获取第一批url并发送请求，请求由引擎交给调度器入请求队列，获取完毕后，调度器将请求队列里的请求交给下载器去获取请求对应的响应资源，并将响应交给自己编写的解析方法做提取处理：1. 如果提取出需要的数据，则交给管道文件处理;2. 如果提取出url，则继续执行之前的步骤(发送url请求，并由引擎将请求交给调度器入队列...)，直到请求队列里没有请求，程序结束。

0.0000

0

3

0

关注作者

收藏

wo56565

常用的mysql引擎有哪些?各引擎间有什么区别?

主要 MyISAM 与 InnoDB 两个引擎，其主要区别如下：一、InnoDB 支持事务，MyISAM 不支持，这一点是非常之重要。事务是一种高级的处理方式，如在一些列增删改中只要哪个出错还可以回滚还原，而 MyISAM就不可以了;二、MyISAM 适合查询以及插入为主的应用，InnoDB 适合频繁修改以及涉及到安全性较高的应用;三、InnoDB 支持外键，MyISAM 不支持

29.1701

1

4

0

关注作者

收藏

wo56565

你用过的爬虫框架或者模块有哪些?谈谈他们的区别或者优缺点?

Python自带：urllib，urllib2第三方：requests框架：Scrapyurllib和urllib2模块都做与请求URL相关的操作，但他们提供不同的功能。urllib2.：urllib2.urlopen可以接受一个Request对象或者url，(在接受Request对象时候，并以此可以来设置一个URL 的headers)，urllib.urlopen只接收一个url

0.0000

0

4

0

关注作者

收藏

<1234…8>

CDA考试动态

CDA报考指南