最简单的爬虫代码,爬虫代码简单实例

首页 > 经验 > 作者:YD1662022-10-28 21:50:17

# 3. 分页器的爬取

爬取数据最经典的模型就是列表、分页、详情,接下来我也将围绕这个方向,以爬取 CSDN 博客文章去介绍几个 Selector 的用法。

分页器可以分为两种:

在早期的 web-scraper 版本中,这两种的爬取方法有所不同。

对于某些网站的确是够用了,但却有很大的局限性。

经过我的试验,第一种使用 Link 选择器的原理就是取出 下一页的 a 标签的超链接,然后去访问,但并不是所有网站的下一页都是通过 a 标签实现。

像下面这样用 js 监听事件然后跳转的,就无法使用 Link 选择器 。

最简单的爬虫代码,爬虫代码简单实例(9)

而在新版的 web scraper ,对导航分页器提供了特别的支持,加了一个 Pagination的选择器,可以完全适用两种场景,下面我会分别演示。

不重载页面的分页器爬取

点入具体一篇 CSDN 博文,拉到底部,就能看到评论区。

如果你的文章比较火,评论的同学很多的时候,CSDN 会对其进行分页展示,但不论在哪一页的评论,他们都隶属于同一篇文章,当你浏览任意一页的评论区时,博文没有必要刷新,因为这种分页并不会重载页面。

最简单的爬虫代码,爬虫代码简单实例(10)

对于这种不需要重载页面的点击,完全可以使用 Element Click 来解决。

最简单的爬虫代码,爬虫代码简单实例(11)

其中最后一点千万注意,要选择 root 和 next_page,只有这样,才能递归爬取

最后爬取的效果如下

最简单的爬虫代码,爬虫代码简单实例(12)

上一页12345下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.