2018-11-27
阅读量:
937
处理Soup对象要注意什么(2)
- 有时需要的信息是标签内容(在开始和结束标签之间)。要访问标记内容,BeautifulSoup提供了以下
string
方法:<span class="result-price">$12791</span>
可以访问:'cost': clean_money(result.a.span.string.strip())
这里的值通过使用Pythonstrip()
函数以及clean_money
删除美元符号的自定义函数进一步处理。 - Craigslist上出售的大多数商品都包含该商品的图片。自定义函数
clean_pic
用于将第一张图片的URL分配给pic:'pic': clean_pic(result.a['data-ids'])
- 元数据可以添加到记录中。例如,您可以添加一个字段来跟踪创建特定记录的时间:
'createdt': datetime.datetime.now().isoformat()
- 在插入记录之前,使用Query对象检查数据库中是否已存在记录。这可以避免创建重复记录。






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
0条评论