最简单的爬虫代码,爬虫代码简单实例

首页 > 经验 > 作者:YD1662022-10-28 21:50:17

经常会遇到一些简单的需求,需要爬取某网站上的一些数据,但这些页面的结构非常的简单,并且数据量比较小,自己写代码固然可以实现,但*鸡焉用牛刀?

目前市面上已经有一些比较成熟的零代码爬虫工具,比如说八爪鱼,有现成的模板可以使用,同时也可以自己定义一些抓取规则。但我今天要介绍的是另外一个神器 -- Web Scraper,它是 Chrome 浏览器的一个扩展插件,安装后你可以直接在F12调试工具里使用它。

# 1. 安装 Web Scraper

有条件的同学,可以直接在商店里搜索 Web Scraper 安装它

最简单的爬虫代码,爬虫代码简单实例(1)

没有条件的同学,可以来这个网站(https://crxdl.com/)下载 crx 文件,再离线安装,具体方法可借助搜索引擎解决

最简单的爬虫代码,爬虫代码简单实例(2)

安装好后,需要重启一次 Chrome, 然后 F12 就可以看到该工具

最简单的爬虫代码,爬虫代码简单实例(3)

# 2. 基本概念与操作

在使用 Web Scraper 之前,需要讲解一下它的一些基本概念:

sitemap

直译起来是网站地图,有了该地图爬虫就可以顺着它获取到我们所需的数据。

因此 sitemap 其实就可以理解为一个网站的爬虫程序,要爬取多个网站数据,就要定义多个 sitemap。

sitemap 是支持导出和导入的,这意味着,你写的 sitemap 可以分享给其他人使用的。

从下图可以看到 sitemap 代码就是一串 JSON 配置

最简单的爬虫代码,爬虫代码简单实例(4)

首页 12345下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.