2018-11-27
阅读量:
876
处理Soup对象要注意什么?
1. 通过仅选择li html标签来选择网页代码段,并通过仅选择具有结果类类别的li标签来进一步缩小选项范围。该结果变量包含所有符合该条件的网页片段:results = soup.find_all("li", class_="result-row")
2.
尝试根据目标片段的结构创建记录。如果结构不匹配,那么Python将抛出异常,这将导致它跳过此记录和片段:
- 使用Beautiful Soup的数组表示法来访问HTML元素的属性:
'pid': result['data-pid']
- 其他数据属性可以在HTML结构中更深地嵌套,并且可以使用点和数组表示法的组合来访问。例如,发布结果的日期存储在元素中,该元素是元素
datetime
的数据属性,该time
元素是作为其子元素的p
标记的子元素result
。要访问此值,请使用以下格式:'date': result.p.time['datetime']






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
0条评论