京公网安备 11010802034615号
经营许可证编号:京B2-20210330
作者:李晓飞
来源:Python 技术
爬虫程序想必大家都很熟悉了,随便写一个就可以获取网页上的信息,甚至可以通过请求自动生成 Python 脚本[1]。
最近我遇到一个爬虫项目,需要爬取网上的文章。感觉没有什么特别的,但问题是没有限定爬取范围,意味着没有明确的页面的结构。
对于一个页面来说,除了核心文章内容外,还有头部,尾部,左右列表栏等等。有的页面框架用 div 布局,有的用 table,即使都用 div,不太的网站风格和布局也不同。
但问题必须解决,我想,既然搜索引擎抓取到各种网页的核心内容,我们也应该可以搞定,拎起 Python, 说干就干!
如何解决呢?
开始想了一个取巧的方法,就是利用工具(wkhtmltopdf[2])将目标网页生成 PDF 文件。
好处是不必关心页面的具体形式,就像给页面拍了一张照片,文章结构是完整的。
虽然 PDF 是可以源码级检索,但是,生成 PDF 有诸多缺点:
耗费计算资源多、效率低、出错率高,体积太大。
几万条数据已经两百多G,如果数据量上来光存储就是很大的问题。
不生成PDF,有简单办法就是通过 xpath[3] 提取页面上的所有文字。
但是内容将失去结构,可读性差。更要命的是,网页上有很多无关内容,比如侧边栏,广告,相关链接等,也会被提取下来,影响内容的精确性。
为了保证有一定的结构,还要识别到核心内容,就只能识别并提取文章部分的结构了。像搜索引擎学习,就是想办法识别页面的核心内容。
我们知道,通常情况下,页面上的核心内容(如文章部分)文字比较集中,可以从这个地方着手分析。
于是编写了一段代码,我是用 Scrapy[4] 作为爬虫框架的,这里只截取了其中提取文章部分的代码 :
divs = response.xpath("body//div")
sel = None
maxvalue = 0 for d in divs:
ds = len(d.xpath(".//div"))
ps = len(d.xpath(".//p")) value = ps - ds if value > maxvalue:
sel = { "node": d, "value": value }
maxvalue = value print("".join(sel['node'].getall()))
简单明了,测试了几个页面确实挺好。
不过大量提取时发现,很多页面提取不到数据。仔细查看发现,有两种情况。
再调整了一下策略,不再区分 div,查看所有的元素。
另外优先选择更多的 p,在其基础上再看更少的 div。调整后的代码如下:
divs = response.xpath("body//*")
sels = []
maxvalue = 0 for d in divs:
ds = len(d.xpath(".//div"))
ps = len(d.xpath(".//p")) if ps >= maxvalue:
sel = { "node": d, "ps": ps, "ds": ds
}
maxvalue = ps
sels.append(sel)
sels.sort(lambda x: x.ds)
sel = sels[0] print("".join(sel['node'].getall()))
经过这样修改之后,确实在一定程度上弥补了前面的问题,但是引入了一个更麻烦的问题。
就是找到的文章主体不稳定,特别容易受到其他部分有些 p 的影响。
既然直接计算不太合适,需要重新设计一个算法。
我发现,文字集中的地方是往往是文章主体,而前面的方法中,没有考虑到这一点,只是机械地找出了最大的 p。
还有一点,网页结构是个颗 DOM 树[6]
那么越靠近 p 标签的地方应该越可能是文章主体,也就是说,计算是越靠近 p 的节点权值应该越大,而远离 p 的结点及时拥有很多 p 但是权值也应该小一点。
经过试错,最终代码如下:
def find(node, sel): value = 0 for n in node.xpath("*"): if n.xpath("local-name()").get() == "p":
t = "".join([s.strip() for s in (n.xpath('text()').getall() + n.xpath("*/text()").getall())]) value += len(t) else: value += find(n, a)*0.5 if value > sel["value"]:
sel["node"] = node
sel["value"] = value return value sel = { 'value': 0, 'node': None
}
find(response.xpath("body"), sel)
通过这样改造之后,效果特别好。
为什么呢?其实利用了密度原理,就是说越靠近中心的地方,密度越高,远离中心的地方密度成倍的降低,这样就能筛选出密度中心了。
50% 的坡度比率是如何得到的呢?
其实是通过实验确定的,刚开始时我设置为 90%,但结果时 body 节点总是最优的,因为 body 里包含了所有的文字内容。
反复实验后,确定 50% 是比较好的值,如果在你的应用中不合适,可以做调整。
描述了我如何选取文章主体的方法后,后没有发现其实很是很简单的方法。而这次解决问题的经历,让我感受到了数学的魅力。
一直以来我认为只要了解常规处理问题的方式就足以应对日常编程了,可以当遇到不确定性问题,没有办法抽取出简单模型的问题时,常规思维显然不行。
所以平时我们应该多看一些数学性强的,解决不确定性问题的方法,以便提高我们的编程适应能力,扩展我们的技能范围。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在机器学习建模与数据分析实战中,特征维度爆炸、冗余信息干扰、模型泛化能力差是高频痛点。面对用户画像、企业经营、医疗检测、 ...
2026-03-26在这个数据无处不在的时代,数据分析能力已不再是数据从业者的专属技能,而是成为了职场人、管理者、创业者乃至个人发展的核心竞 ...
2026-03-26在CDA(Certified Data Analyst)数据分析师的能力体系中,线性回归是连接描述性统计与预测性分析的关键桥梁,也是CDA二级认证的 ...
2026-03-26在数据分析、市场研究、用户画像构建、学术研究等场景中,我们常常会遇到多维度、多指标的数据难题:比如调研用户消费行为时,收 ...
2026-03-25在流量红利见顶、获客成本持续攀升的当下,营销正从“广撒网”的经验主义,转向“精耕细作”的数据驱动主义。数据不再是营销的辅 ...
2026-03-25在CDA(Certified Data Analyst)数据分析师的全流程工作中,无论是前期的数据探索、影响因素排查,还是中期的特征筛选、模型搭 ...
2026-03-25在当下数据驱动决策的职场环境中,A/B测试早已成为互联网产品、运营、营销乃至产品迭代优化的核心手段,小到一个按钮的颜色、文 ...
2026-03-24在统计学数据分析中,尤其是分类数据的分析场景里,卡方检验和显著性检验是两个高频出现的概念,很多初学者甚至有一定统计基础的 ...
2026-03-24在CDA(Certified Data Analyst)数据分析师的日常业务分析与统计建模工作中,多组数据差异对比是高频且核心的分析场景。比如验 ...
2026-03-24日常用Excel做数据管理、台账维护、报表整理时,添加备注列是高频操作——用来标注异常、说明业务背景、记录处理进度、补充关键 ...
2026-03-23作为业内主流的自助式数据可视化工具,Tableau凭借拖拽式操作、强大的数据联动能力、灵活的仪表板搭建,成为数据分析师、业务人 ...
2026-03-23在CDA(Certified Data Analyst)数据分析师的日常工作与认证考核中,分类变量的关联分析是高频核心场景。用户性别是否影响商品 ...
2026-03-23在数据工作的全流程中,数据清洗是最基础、最耗时,同时也是最关键的核心环节,无论后续是做常规数据分析、可视化报表,还是开展 ...
2026-03-20在大数据与数据驱动决策的当下,“数据分析”与“数据挖掘”是高频出现的两个核心概念,也是很多职场人、入门学习者容易混淆的术 ...
2026-03-20在CDA(Certified Data Analyst)数据分析师的全流程工作闭环中,统计制图是连接严谨统计分析与高效业务沟通的关键纽带,更是CDA ...
2026-03-20在MySQL数据库优化中,分区表是处理海量数据的核心手段——通过将大表按分区键(如时间、地域、ID范围)分割为多个独立的小分区 ...
2026-03-19在商业智能与数据可视化领域,同比、环比增长率是分析数据变化趋势的核心指标——同比(YoY)聚焦“长期趋势”,通过当前周期与 ...
2026-03-19在数据分析与建模领域,流传着一句行业共识:“数据决定上限,特征决定下限”。对CDA(Certified Data Analyst)数据分析师而言 ...
2026-03-19机器学习算法工程的核心价值,在于将理论算法转化为可落地、可复用、高可靠的工程化解决方案,解决实际业务中的痛点问题。不同于 ...
2026-03-18在动态系统状态估计与目标跟踪领域,高精度、高鲁棒性的状态感知是机器人导航、自动驾驶、工业控制、目标检测等场景的核心需求。 ...
2026-03-18