文章目录标题无意冒犯,就是觉得这个广告挺好玩的
- 前言
- 欢迎来到我们的圈子
- 开手练习:爬取网上书店
- 第一步:找到最小公共父标签
- 第二步:找到单个目标所在标签
- 第三步:代码与自动化
- 第四步:填充网址
- 小爬虫扑空啦
- json串
- Network
- 重要图标介绍
- 操作流程
- json
- why json?
- how json?
- 小爬虫又来啦
- 易容术:请求头Request Headers
- 什么是Request Headers
- 如何添加Request Headers
- 进击吧!小爬虫
- 小爬虫被骗啦
- 带参请求数据
- 强行灌输知识点
前期回顾:你要偷偷学Python(第八天)
上一篇呢,上一篇我们了解了一下网页的基本结构,并且通过对网页的分析抓取了一点数据出来。
但是我们就这么满足了吗?这显然是不可能的,你见过哪个爬虫就爬几个字嘛。
所以今天,我们来一次性爬上一大波数据!!!
我行,你也行!!!
插播一条推送:(如果是小白的话,可以看一下下面这一段)
欢迎来到我们的圈子如果大家在学习中遇到困难,想找一个python学习交流环境,可以加入我们的python裙,关注小编,并私信“01”即可进裙,领取python学习资料,会节约很多时间,减少很多遇到的难题。
本系列文默认各位有一定的C或C 基础,因为我是学了点C 的皮毛之后入手的Python。
本系列文默认各位会百度,学习‘模块’这个模块的话,还是建议大家有自己的编辑器和编译器的,上一篇已经给大家做了推荐啦?
本系列也会着重培养各位的自主动手能力,毕竟我不可能把所有知识点都给你讲到,所以自己解决需求的能力就尤为重要,所以我在文中埋得坑请不要把它们看成坑,那是我留给你们的锻炼机会,请各显神通,自行解决。
1234567
哎,怪我孤陋寡闻,实在找不到适合我们这个阶段的网站,我的爬虫又不断地让人捏死,只好借鉴别人的栗子了。。。
开手练习:爬取网上书店目标网址:http://books.toscrape.com/
任务:爬取目标网址中的分类目录:
有没有思路?没思路看我讲。
第一步:找到最小公共父标签这个会找吧: