cainiaofei

2022-09-30   阅读量: 1461

python爬虫遇到隐藏内容如何处理?

python爬虫遇到隐藏内容如何处理?
添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
0.0000 0 1 关注作者 收藏

评论(1)

85691082
2022-09-30

界面上如果能看到就不是hidden,通常爬虫的一大困难是html是由js渲染,并不是简单的发请求就可以获得肉眼看到的内容。解决方法:用selenium等模拟用户操作。Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。Selenium可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生。Selenium自己不带浏览器,不支持浏览器的功能,它需要与第三方浏览器结合在一起才能使用.先下载selenium webdriver 'geckodriver.exe’,下载好后放到python目录里面

firefox的目录也要添加到环境变量中,Selenium库里有个叫WebDriver的API。WebDriver有点儿像可以加载网站的浏览器,但是它也可以像BeautifulSoup或者其他Selector对象一样用来查找页面元素,与页面上的元素进行交互(发送文本、点击等),以及执行其他动作来运行网络爬虫。

0.0000 0 0 回复

推荐帖子


    暂无数据

推荐课程