m.mm131.ne t,美美国际婚恋网

首页 > 大全 > 作者:YD1662022-12-05 11:16:32

Scrapy是个啥?(详细内容可自行google)

环境:centos7、python2.7

第一步:安装pip,下载get-pip.py(https://bootstrap.pypa.io/get-pip.py),在命令行中输入下面命令即可:

# python get-pip.py

第二步:验证pip是否安装成功(看见下图即安装成功,忽略红色,哈哈)

# pip list

m.mm131.ne t,美美国际婚恋网(1)

pip安装成功

第三步:安装scrapy(这个才是重点,没出现error就ok咯)

# pip install scrapy

m.mm131.ne t,美美国际婚恋网(2)

scrapy安装成功

第四步:初始化project

# scrapy startproject meitu

m.mm131.ne t,美美国际婚恋网(3)

初始化一个scrapy项目名字是meitu

第五步:创建一个spider(在刚刚创建的project下面执行下面命令,meinv是爬虫的名字,随便起不要和project相同就好,www.mm131.com/xiaohua/是一个美图的网址)

# cd meitu

# scrapy genspider meinv www.mm131.com/xiaohua/

之后,在文件夹meitu/spider下面出现meinv.py文件,如下图,

m.mm131.ne t,美美国际婚恋网(4)

接下来就是改造它了;

第六步:改造结果如下

m.mm131.ne t,美美国际婚恋网(5)

第七步:运行以下命令,获得结果,图片位置在(meitu/pic)

#scrapy crawl meinv

m.mm131.ne t,美美国际婚恋网(6)

分析:在第六步中出现的改造完的meinv.py文件,其中导入了scrapy(用它爬去图片链接)和urllib(用它下载链接美图)两个包,在MeinvSpider中:

name是这个spider的名字;

allowed_domains是允许爬去的域名(只会爬去这个域名下的链接);

start_urls是爬虫启动时第一次请求的链接;

parse函数中的response其实是请求start_urls完成后返回的结果,用xpath(不难,随便研究下可以写了)匹配出美图链接;

urllib.urlretrieve(url,'./pic/' str(self.number) '.jpg')是把分析出来的美图下载下来,存到pic目录下面(需要自己创建下);

self.number =1是为了避免每次下载的图片名字相同,导致图片被覆盖。

结语:scrapy还有不少功能,才开始学习,慢慢研究了!

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.