爬虫有什么用的技能（学爬虫技术有什么用） - 原点资讯

前段时间我妈突然问我：儿子，爬虫是什么？我当时既惊讶又尴尬，惊讶的是为什么我妈会对爬虫好奇？尴尬的是我该怎么给她解释呢？

一、爬虫介绍

1.爬虫是什么

网络爬虫(web crawler 简称爬虫)就是按照一定规则从互联网上抓取信息的程序，既然是程序那和正常用户访问页面有何区别？爬虫与用户正常访问信息的区别就在于：用户是缓慢、少量的获取信息，而爬虫是大量的获取信息。

爬虫有什么用的技能,学爬虫技术有什么用(1)

这里还需要注意的是：爬虫并不是Python语言的专利，Java、Js、C、PHP、Shell、Ruby等等语言都可以实现，那为什么Python爬虫会这么火？我觉得相比其他语言做爬虫Python可能就是各种库完善点、上手简单大家都在用，社区自然活跃，而社区活跃促成Python爬虫慢慢变成熟，成熟又促使更多用户来使用，如此良性循环，所以Python爬虫相比其他语言的爬虫才更火。

下面是一段hello world级别的Python爬虫，它等效于你在百度搜索关键字：python。

爬虫有什么用的技能,学爬虫技术有什么用(2)

2.爬虫案例

既然爬虫是大量抓取网页，那是不是爬虫都是不好的呢？答案当然不是，可以说我们的日常上网已经离不开爬虫了，为什么这么说？下面我就为大家盘点几个爬虫日常应用：

搜索引擎：如Google、百度、雅虎、搜狗、必应等等很多搜索引擎其本质就是一个（可能多个）巨大爬虫，这些搜索引擎工作原理是：页面收录->页面分析->页面排序->响应关键字查询，也就是说它会先把互联网上很多页面保存到服务器，然后分析网页内容建立关键字索引，最后用户输入关键字的时候去查询内容，然后根据相关性排序（百度害人的竞价排名毫无相关性可言），第一步的页面收录就是爬虫，百度查看一个网站有多少网页被收录方法，百度输入：site:你想查询的网站，如：site:blog.csdn.net。

爬虫有什么用的技能,学爬虫技术有什么用(3)

抢票软件：很多人在吐槽12306卡，可你不知道12306几乎每天都相当于淘宝双11的流量，这谁受得了。为什么每天都是如此高的流量？答案自然是爬虫了，为什么抢票软件可以抢票？因为它在不断的刷新和监控是否有余票，大大小小这么多抢票app，访问量之高可想而知。之前很多公司都出过抢票插件，如：百度、360、金山、搜狗等等，后来都被铁道部约谈下线了，而现在又流行抢票app，为什么抢票app可以，插件就不可以？可能是因为管理和可控性的原因。
惠惠购物助手：这是一款能进行多个网站比价并能知道最低价的一个网站，其工作原理也是通过大量爬虫爬取商品价格然后存储，这样就可以制作一个价格走势图，帮助你了解商品最低价。

爬虫有什么用的技能,学爬虫技术有什么用(4)