热线电话:13121318867

登录
2018-11-27 阅读量: 876
处理Soup对象要注意什么?

1. 通过仅选择li html标签来选择网页代码段,并通过仅选择具有结果类类别的li标签来进一步缩小选项范围。该结果变量包含所有符合该条件的网页片段:

results = soup.find_all("li", class_="result-row")

2. 尝试根据目标片段的结构创建记录。如果结构不匹配,那么Python将抛出异常,这将导致它跳过此记录和片段:

  1. 使用Beautiful Soup的数组表示法来访问HTML元素的属性:

    'pid': result['data-pid']
  2. 其他数据属性可以在HTML结构中更深地嵌套,并且可以使用点和数组表示法的组合来访问。例如,发布结果的日期存储在元素中,该元素是元素datetime的数据属性,该time元素是作为其子元素的p标记的子元素result。要访问此值,请使用以下格式:

    'date': result.p.time['datetime']
0.0000
1
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子