网络爬虫爬取实例,永久免费的爬虫软件

首页 > 经验 > 作者:YD1662022-11-08 14:34:05

图4,爬取小说名

5、继续用BeautifulSoup解析soup内容,获得章节标题及网址

继续在图2response里查找,发现章节信息都在dd标签下的a标签里,如图5:

网络爬虫爬取实例,永久免费的爬虫软件(5)

图5

提取章节标题和链接代码:

import requests from bs4 import BeautifulSoup ...... ...... dd = soup.find_all('dd') for i in range(len(dd)): title = dd[i].find('a').text # 获得章节名 chap_url = dd[i].find('a')['href'] # 获得章节链接 print(title, ': ", chap_url) # 临时打印查看效果如下图

网络爬虫爬取实例,永久免费的爬虫软件(6)

图6

5、循环遍历访问章节链接,获得小说正文

通过上面的操作,我们获得了每一章节页面的具体网址链接,继续用requests访问链接,就能获得小说的网页页面,接着用BeautifulSoup解析获得小说内容。我们可用简单方法,快速找到小说内容所在位置:在小说页面正文区域右键单击,选择“检查”或“审查元素”,会自动弹出浏览器控制台并高亮显示的正文在网页页面里的位置,分析确定提取参数即可。

网络爬虫爬取实例,永久免费的爬虫软件(7)

图7

网络爬虫爬取实例,永久免费的爬虫软件(8)

上一页123下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.