所以配置ChromeDriver的环境变量的时候,可以直接将chromedriver.exe可执行文件拖拽到python的scripts目录下。下面看验证安装,在pycharm下
看到如上信息的时候说明chromedirver环境变量已经配置好了。
随后再在程序中测试,执行如下python代码:
from selenium import webdriver
browser = webdriver.Chrome()
运行之后,弹出一个空白的chrome浏览器,说明所有的配置都没有问题
4. GeckoDriver的安装对于Firefox浏览器来说,可以使用同样的方式完成Selenium的对接,这时需要安装另外一个驱动GeckoDriver。
官网地址:
步骤类似前面的步骤,
from selenium import webdriver
browser = webdriver.Firefox()
5. aiohttp的安装推荐使用pip安装:pip3 install aiohttp
另外官方还推荐如下两个库,一个是字符编码检测库cchardet,另一个是加速DNS的解析库aiodns,安装命令如下:pip3 install cchardet aiodns
解析库的安装1. lxml的安装lxml是python的一个解析库,支持HTML和XML的解析,支持Xpath解析方式,解析效率非常高。安装方法:pip3 install lxml
2. Beautiful Soup的安装Beautiful Soup是python的一个HTML或XML的解析库,可以用它来方便地从网页中提取数据。Beautiful Soup的HTML和XML解析器是依赖于lxml库,所以必须先确保成功安装lxml库。最新的版本是4.x,使用pip3 install beautifulsoup4安装
这里,我们虽然安装的是beautifulsoup4这个包,但是引入的时候却是bs4,这是因为这个包源代码本身的库文件夹名称就是bs4,所以安装完成后,这个库文件夹就被移入到本机python3的lib库里面,所以识别到的库文件名就叫做bs4.
3. pyquery的安装pyquery同样是一个强大的网页解析工具,它提供了和jQuery类似的语法来解析HTML文档,支持CSS选择器。安装命令:pip3 install pyquery
4. tesserocr的安装在爬虫的过程中,难免会遇到各种验证码,而大多数验证码还是图形验证码,这时候我们可以直接用OCR来识别。OCR(optical character recognition):光学字符识别。是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。tesserocr是python的一个OCR识别库,但其实是对tesseract做的一层pythonAPI封装,所以它的核心是tesseract,因此在安装tesserocr之前,我们需要先安装tesseract。
下载地址:
进入到下载页面,可以看到各种.exe文件的下载列表,其中,文件名带有dev的为开发版本,不带dev的为稳定版本,可以选择不带dev的版本,这里选择版本为3.05.01,如下图所示: