2018-11-27
阅读量:
1067
处理Soup对象要注意什么(2)
- 有时需要的信息是标签内容(在开始和结束标签之间)。要访问标记内容,BeautifulSoup提供了以下
string方法:<span class="result-price">$12791</span>
可以访问:'cost': clean_money(result.a.span.string.strip())
这里的值通过使用Pythonstrip()函数以及clean_money删除美元符号的自定义函数进一步处理。 - Craigslist上出售的大多数商品都包含该商品的图片。自定义函数
clean_pic用于将第一张图片的URL分配给pic:'pic': clean_pic(result.a['data-ids']) - 元数据可以添加到记录中。例如,您可以添加一个字段来跟踪创建特定记录的时间:
'createdt': datetime.datetime.now().isoformat() - 在插入记录之前,使用Query对象检查数据库中是否已存在记录。这可以避免创建重复记录。
0.0000
0
1
关注作者
收藏
评论(0)
发表评论
暂无数据
推荐帖子
0条评论
0条评论
0条评论

