題 如何從archive.org Wayback Machine下載網站?


我想在archive.org上獲取給定網站的所有文件。原因可能包括:

  • 原作者沒有存檔他自己的網站,它現在是離線的,我想從它做一個公共緩存
  • 我是某個網站的原作者,丟失了一些內容。我想恢復它
  • ...

我怎麼做 ?

考慮到archive.org wayback機器非常特殊:網頁鏈接不是指向存檔本身,而是指向可能不再存在的網頁。 JavaScript用於客戶端更新鏈接,但像遞歸wget這樣的技巧將無效。


72
2017-10-20 10:16


起源


我遇到了同樣的問題,我編寫了一個寶石。安裝: gem install wayback_machine_downloader。使用您要檢索的網站的基本網址作為參數運行wayback_machine_downloader: wayback_machine_downloader http://example.com更多信息: github.com/hartator/wayback_machine_downloader - Hartator
一步一步幫助Windows用戶(win8.1 64bit對我而言)是Ruby的新手,這是我做的工作:1)我安裝了 rubyinstaller.org/downloads 然後運行“rubyinstaller-2.2.3-x64.exe”2)下載了zip文件 github.com/hartator/wayback-machine-downloader/archive/...3)在我的計算機中解壓縮拉鍊4)在Windows開始菜單中搜索“使用Ruby啟動命令提示符”(待續) - Erb
5)按照說明操作 github.com/hartator/wayback_machine_downloader (e; .g:將此“gem install wayback_machine_downloader”複製粘貼到提示符中。按Enter鍵,它將安裝程序...然後按照“使用”指南)。 6)一旦你的網站被捕獲,你會發現文件到C:\ Users \ YOURusername \ website - Erb


答案:


我嘗試了不同的方式下載一個網站,最後我找到了回歸機器下載器 - 之前由Hartator提到過(因此所有信用都歸他所有),但我根本沒有註意到他對這個問題的評論。為了節省您的時間,我決定在此處添加wayback_machine_downloader gem作為單獨的答案。

該網站在 http://www.archiveteam.org/index.php?title=Restoring 列出了從archive.org下載的這些方法:

  • Wayback Machine下載器,Ruby中的小工具,從Wayback Machine下載任何網站。免費和開源。我的選擇!
  • 瓦里克  - 主要網站似乎失敗了。
  • Wayback下載器 ,一種服務,將從Wayback Machine下載您的網站,甚至為Wordpress添加插件。不是免費的。

54
2017-08-14 18:19



2016年9月:我使用了Wayback Machine Downloader,效果很好! - itnAAnti
2016年10月 - 我還使用了Wayback Machine Downloader。幹得好! - YaDa
2017年2月: 韋巴克 - 機 - 下載 仍然是最好的選擇。工作完美無瑕。 - Clément
我還在php中編寫了一個“wayback downloader”,下載資源,調整鏈接等: gist.github.com/divinity76/85c01de416c541578342580997fa6acf - hanshenrik
@ComicSans,在您鏈接的頁面上,是什麼 歸檔團隊搶?? - Pacerier


這可以使用 bash shell腳本結合使用 wget

這個想法是使用一些 網址功能 回程機器:

  • http://web.archive.org/web/*/http://domain/* 將列出所有已保存的頁面 http://domain/ 遞歸。它可用於構建要下載的頁面索引,並避免啟發式檢測網頁中的鏈接。對於每個鏈接,還有第一個版本和最後一個版本的日期。
  • http://web.archive.org/web/YYYYMMDDhhmmss*/http://domain/page 將列出所有版本的 http://domain/page 今年YYYY。在該頁面中,可以找到特定的版本鏈接(具有確切的時間戳)
  • http://web.archive.org/web/YYYYMMDDhhmmssid_/http://domain/page 將返回未修改的頁面 http://domain/page 在給定的時間戳。請注意 ID_ 令牌。

這些是構建腳本以從給定域下載所有內容的基礎知識。


9
2017-10-20 10:16



你應該真的使用API archive.org/help/wayback_api.php 維基百科幫助頁面適用於編輯,而不適用於一般公眾。因此該頁面專注於圖形界面,這個界面既被取代也不適合這項任務。 - Nemo
只是說取URL(比如說)可能更容易 http://web.archive.org/web/19981202230410/http://www.google.com/)並添加 id_ 到“日期數字”的末尾。然後,你會得到類似的東西 http://web.archive.org/web/19981202230410id_/http://www.google.com/。 - haykam
這裡也可以找到python腳本: gist.github.com/ingamedeo/... - Amedeo Baragiola


有一個專門為此目的而設計的工具,Warrick: https://code.google.com/p/warrick/

它基於Memento協議。


3
2018-01-21 22:38



至於我設法使用它(2017年5月),它只是恢復了archive.is所擁有的內容,並且幾乎忽略了archive.org上的內容;它還嘗試從Google / Yahoo緩存中獲取文檔和圖像,但完全失敗。自從谷歌代碼關閉以來,Warrick已經在GitHub上多次克隆,也許那裡有一些更好的版本。 - Gwyneth Llewelyn