Python爬虫正则表达式常用符号和方法-CDA数据分析师官网

热线电话：13121318867

Python爬虫正则表达式常用符号和方法

2017-09-03

Python爬虫正则表达式常用符号和方法

在 python语言中，我们经常会用到python爬虫的正则表达式，下面小编通过本篇文章给大家介绍python爬虫正则表达式常用的符号和方法，以及具体用法，感兴趣的童鞋快来看看吧。

正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具，拥有自己独特的语法以及一个独立的处理引擎，效率上可能不如str自带的方法，但功能十分强大。得益于这一点，在提供了正则表达式的语言里，正则表达式的语法都是一样的，区别只在于不同的编程语言实现支持的语法数量不同；但不用担心，不被支持的语法通常是不常用的部分。

1、常用符号

. ：匹配任意字符，换行符 \n 除外

：匹配前一个字符0次或无限次
? ：匹配前一个字符0次或1次

.* ：贪心算法，尽可能的匹配多的字符

.*? ：非贪心算法

() ：括号内的数据作为结果返回

2、常用方法

findall：匹配所有符合规律的内容，返回包含结果的列表

Search：匹配并提取第一个符合规律的内容，返回一个正则表达式对象

Sub：替换符合规律的内容，返回替换后的值

3、使用示例

（1）. 的使用举例，匹配任意字符，换行符 \n 除外

import re #导入re库文件

a = 'xy123'

b = re.findall('x..',a)

print b

打印的结果为：['xy1'] ，每个 . 表示一个占位符

（2） * 的使用举例，匹配前一个字符0次或无限次

a = 'xyxy123'

b = re.findall('x*',a)

print b

打印的结果为：['x', '', 'x', '', '', '', '', '']

（3） ? 的使用举例，匹配前一个字符0次或1次

a = 'xy123'

b = re.findall('x?',a)

print b

打印的结果为：['x', '', '', '', '', '']

（4） .* 的使用举例

secret_code = 'hadkfalifexxIxxfasdjifja134xxlovexx23345sdfxxyouxx8dfse'

b = re.findall('xx.*xx',secret_code)

print b

打印的结果为：['xxIxxfasdjifja134xxlovexx23345sdfxxyouxx']

（5）.*？的使用举例

secret_code = 'hadkfalifexxIxxfasdjifja134xxlovexx23345sdfxxyouxx8dfse'

c = re.findall('xx.*?xx',secret_code)

print c

打印的结果为：['xxIxx', 'xxlovexx', 'xxyouxx']

（6） ()的使用举例

secret_code = 'hadkfalifexxIxxfasdjifja134xxlovexx23345sdfxxyouxx8dfse'

d = re.findall('xx(.*?)xx',secret_code)

print d

打印的结果为：['I', 'love', 'you'] ，括号内的数据作为返回的结果

（7） re.S的使用举例

s = '''sdfxxhello

xxfsdfxxworldxxasdf'''

d = re.findall('xx(.*?)xx',s,re.S)

print d

打印的结果为：['hello\n', 'world'] ，re.S的作用是使 . 在匹配时包括 \n

（8） findall的使用举例

s2 = 'asdfxxIxx123xxlovexxdfd'

f2 = re.findall('xx(. ?)xx123xx(. ?)xx',s2)

print f20

打印的结果为：love

这时f2为含有一个元组的列表，该元组包含两个元素，该元组中的两个元素为两个()匹配到的内容，如果s2包含多个'xx(. ?)xx123xx(. ?)xx'这样的子串，则f2包含多个元组；

（9） search的使用举例

s2 = 'asdfxxIxx123xxlovexxdfd'

f = re.search('xx(. ?)xx123xx(. ?)xx',s2).group(2)

print f

打印的结果为：love

.group(2) 表示返回第二个括号匹配到的内容，如果是 .group(1), 则打印的就是：I

（10）sub的使用举例

s = '123rrrrr123'

output = re.sub('123(.*?)123','123%d123'%789,s)

print output

打印的结果为：123789123

其中的%d类似于C语言中的%d，如果 output=re.sub('123(.*?)123','123789123',s)，输出结果也为： 123789123

（11） \d 的使用举例，用于匹配数字

a = 'asdfasf1234567fasd555fas'

b = re.findall('(\d+)',a)

print b

打印的结果为：['1234567', '555'] ， \d+ 可以匹配数字字符串；

以上就是python爬虫正则表达式的一些常用符号和语法，希望对python初学者学习有所帮助。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

正则表达式 python

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

Python爬虫正则表达式常用符号和方法

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA 持证人专访：杨迅谈保险行业数据产品与数据中台 ...

【CDA干货】MySQL分表数据读取：核心方案、查询优化 ...

从“凭感觉”到“有章法”：CDA数据分析师视角下的 ...

【CDA干货】面板数据聚类分析：方法原理、实操流程 ...

以指标为锚，以体系为纲：CDA数据分析师视角下的指 ...

CDA “暑期学生报名送教材” 活动已开启！ ...

【CDA干货】金融行业运营风险监测：核心统计分析方 ...

【CDA干货】基于数据分析的财险潜在客户挖掘与精准 ...

从“杂乱数据”到“分析资产”：CDA数据分析师视角 ...

CDA持证人专访：何显臻谈餐饮行业数据分析与生产管 ...

【CDA干货】如何利用统计学方法开展数据分析：流程 ...

从“数据描述”到“业务预判”：CDA数据分析师视角 ...

【CDA干货】箱线图上下限计算原理、标准流程与异常 ...

【CDA干货】MySQL固定时间间隔数据查询：语法原理、 ...

从“杂乱信号”到“有序资产”：CDA数据分析师视角 ...

CDA持证人专访：周婧博谈会计行业数据分析与经营诊 ...

【CDA干货】问卷调查卡方检验：原理、前提与实战应 ...

从“整体波动”到“因子归因”：CDA数据分析师视角 ...

【CDA干货】单因素方差分析：三组及以上独立样本的 ...

【CDA干货】次日付费留存计算方法、统计口径与业务 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载