热线电话：13121318867

Python爬虫利器BeautifulSoup解析！

2020-05-14

BeautifulSoup是一种可以从html和xml中快速提取内容的python库，共有四种类型，对于爬虫解析来说，主要用其中的遍历文档树和搜索文档树。

来自BeautifulSoup的官方的一个示例，使用的是HTML文本

The Dormouse's story

Once upon a time there were three little sisters; and their names were

Elsie,
Lacie and
Tillie;

and they lived at the bottom of a well.

...

1.导入模块 from bs4import BeautifulSoup

2.创建beautifulsoup对象

beautifulobj = BeautifulSoup(html_doc)#

print(type(beautifulobj))#beautifulsoup'="">

print(beautifulobj.prettify())#打印按照lxml格式的补全代码，太长，省略

说明：此处在创建对象时未指定解析器，默认使用的是python自带的解析器html.parse,原因在于新买的电脑安装lxml模块时失败，官方推荐使用lxml解析器，可通过

beautifulobj = BeautifulSoup(html_doc,"lxml")来指定lxml解析器解析。

Python爬虫利器BeautifulSoup有四种类型，它们分别是Tag，BeautifulSoup，NavigableString，comment。

Tag类型即节点，比如HTML中的a标签、p标签等等，tag类型主要有两个属性，name和attributes属性，可通过.name和.attrs方法获取属性值，其中.attrs返回字典类型，并且如果是多值属性的话，其value是一个列表；也可通过["href"]指定输出特定的属性值。

print(type(beautifulobj.a))#

print(beautifulobj.p.name)#p，这样的使用方式，我是懵的，自己都敲进去P标签了，感觉自己有点**

print(beautifulobj.p.attrs)#，返回一个字典，字典的value有可能是个list， {'class': ['title']}class是个多值属性

print(beautifulobj.p["class"])#['title'],此处是个列表，如果不是多值属性，输出就是字符串

print(beautifulobj.a["id"])#link1

BeautifulSoup类型是整个文档的根形式，一种特殊的Tag类型,支持遍历文档树和搜索文档树的大部分方法，但是没有name和attrs属性。

print(type(beautifulobj))#beautifulsoup'="">

NavigableString是tag中的字符串内容形式。

print(type(beautifulobj.p.string))#

comment是文档中的备注类型。

在使用.string时，可同样输出NavigableString和coment类型，如果获取特定的内容而又想与另一种类型区别对待时必须通过type来进行判断。

BeautifulSoup是爬虫必学的技能之一，大家可以多多了解。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

beautifulsoup python

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇JavaScript教程中的同步加载和异步加载！

下一篇爬虫解析库xpath功能很强大吗？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

Python爬虫利器BeautifulSoup解析！

来自BeautifulSoup的官方的一个示例，使用的是HTML文本

Python爬虫利器BeautifulSoup有四种类型，它们分别是Tag，BeautifulSoup，NavigableString，comment。

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】透视表跨表数据应用原理与实战方法 ...

【CDA干货】正态分布异常事件识别与处理方法：数据 ...

从“raw”到“ready”：CDA数据分析师视角下的标签 ...

CDA持证人专访：孙尚亮谈制造行业数据分析与生产采 ...

【CDA干货】DataFrame数据归一化：核心原理、常用方 ...

从“零散标识”到“结构资产”：CDA数据分析师视角 ...

【CDA干货】数据分析如何辅助商业谈判决策：从经验 ...

【CDA干货】T检验完整实操教程：核心原理、分类场景 ...

精准取数之道：CDA数据分析师视角下的数据查询语言 ...

CDA持证人专访：曾津谈互联网数据分析与业务赋能实 ...

【CDA干货】Pandas文本词频统计：查找关键词出现次 ...

从“数据存储”到“智能取数”：CDA数据分析师视角 ...

【CDA干货】CDA透视分析核心计算方法：求和、计数、 ...

【CDA干货】客户交易价值分析：核心逻辑、分析方法 ...

从“数据仓库”到“智能取数”：CDA数据分析师视角 ...

CDA持证人专访：黄冬谈数字化运营核心与数据中台建 ...

【CDA干货】市场调查、竞品分析、需求调研的核心区 ...

从“凭感觉”到“有章法”：CDA数据分析师视角下的 ...

【CDA干货】MySQL分表如何查询数据在哪张表？实战方 ...

【CAD干货】业务模型与逻辑模型的概念辨析及实战案 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载