必需的模块
在BeautifulSoup
从类bs4
将处理网页的解析。该datetime
模块提供日期操作。Tinydb
为NoSQL数据库提供API,该urllib3
模块用于发出http请求。最后,xlsxwriter
API用于创建Excel电子表格。
craigslist.py
在文本编辑器中打开并添加必要的import语句:
在import语句之后,添加全局变量和配置选项:
url
存储要抓取的网页的URL,并total_added
用于跟踪添加到数据库的结果总数。该urllib3.disable_warnings()
函数忽略任何SSL证书警告。
三个资料Q群下载不了也转发不了,先放这里Fine_tuning.zipLangChain.zipdata_clear.rar