热线电话:13121318867

登录
2018-11-27 阅读量: 937
处理Soup对象要注意什么(2)
  1. 有时需要的信息是标签内容(在开始和结束标签之间)。要访问标记内容,BeautifulSoup提供了以下string方法:

    <span class="result-price">$12791</span>
    可以访问:

    'cost': clean_money(result.a.span.string.strip())
    这里的值通过使用Python strip()函数以及clean_money删除美元符号的自定义函数进一步处理。
  2. Craigslist上出售的大多数商品都包含该商品的图片。自定义函数clean_pic用于将第一张图片的URL分配给pic

    'pic': clean_pic(result.a['data-ids'])
  3. 元数据可以添加到记录中。例如,您可以添加一个字段来跟踪创建特定记录的时间:

    'createdt': datetime.datetime.now().isoformat()
  4. 在插入记录之前,使用Query对象检查数据库中是否已存在记录。这可以避免创建重复记录。

0.0000
1
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子