但它俩之间还是有个很大区别——
archive.org 类似于搜索引擎,绝大多数资料都是爬虫自动抓取的。所以一直以来他们都遵守 robot.txt 。
robot.txt 是互联网里通行的一个君子协议。通过它,网站可以告诉搜索引擎,哪些东西它不能抓。百度里搜不到微信文章和淘宝商品,就是因为 robot.txt 。
但 archive.today 不遵守这个协议,即便网站不让它存,它也会霸王硬上弓。
不过,这也不能说 archive.today 缺德。
因为它并非自动抓取别人的网站,只有用户上传某个网页时,它才会抓取。
存档 ing..... ▼
目前,archive.today 已经存储了 5 亿个网页。虽然远不及 archive.org ,但这种大家主动寻求备份的网页,相对来说,它的意义和价值会更大点。
就像三年前,有位吴彦祖备份了差评的官网,明显是肯定了咱们,咳咳。
除了可以备份网页,因为技术上一些细节,人们发现 archive.today 有另外一个妙用:
翻越付费墙。
对于那些订阅费动辄几百美刀的西方媒体,很多第三方世界国家的读者不光无力支付,甚至压根没有匹配的支付方式。
但自从这个功能被发现后, archive.today 成为了大家心照不宣的 “ 白嫖 ” 工具。
只要有好心人存档了付费文章和有版权的学术论文,后来的读者都可以看到。
还有不少人基于这个网站做了一些小工具,让白嫖变得更简单。