Internet Archive 是爬虫自动收录,不同的网站,其收录的数量和周期也不一样,大网站可能每天都会收录一次,小网站也可能会一年才收录一次,一些重要的网页,我可以手动提交保存。
方法是在 https://web.archive.org/save/ 后面加入要保存的网页地址即可。比如 https://web.archive.org/save/https://www.runningcheese.com,也可以使用拓展或者小书签来一键保存。
方法 3:Archive Today
由于 Internet Archive 是爬虫收录,且遵循 Robots 协议,如果网站已经声明不允许收录某个网页、目录、甚至是全站,那么将不会收录。
Archive Today 是一个类似于 Internet Archive 的网站,由私人资助,采取的是主动存档策略,可以保存任意一个网页,保存速度快,而且还提供了网页打包下载。Archive Today 可以说是对 Internet Archive 的补充。
(Archive Today)