題 通過網址列表下載網頁?


我正在使用 sitesucker 下拉客戶端網站的所有文件。它讓我獲得了大部分頁面,但問題是我們擁有的某些頁面並非真正通過鏈接訪問,而是通過郵政代碼查找器訪問。有沒有辦法可以使用這個工具或其他工具甚至給它一個URL列表,並根據需要為我下載文件,保持文件夾結構很像網站吸盤。

如果這是一個討論這個問題的好地方,我很抱歉:)。


3
2018-03-28 12:58


起源




答案:


你可以使用wget: 創建一個普通文件,其中包含您需要下載的URL列表(例如pippo.txt):

pippo.txt:

http://url1.zip
http://url2.htm
http://url3/
ftp://url4/file.zip

然後使用wget下載url列表:

cd /some/folder/
wget -i /path/to/pippo.txt

完成

wget for linux是一個基礎工具 https://www.gnu.org/software/wget/ 對於Windows有一個bin端口: http://users.ugent.be/~bpuype/wget/


5
2018-03-28 13:22





如果您可以訪問Linux機器(也許幾乎可以訪問) VirtualBox的),根據你想要做的事情,你可能想看一看 wget

使用 -r 選項你可以做一些網站的遞歸獲取。

你可以這樣做:

wget -r http://website/page?postcode=1234
wget -r http://website/page?postcode=5678

易於編寫腳本/可擴展。


1
2018-03-28 13:05



wget已被移植到Windows。 gnuwin32.sourceforge.net/packages/wget.htm - Patrick Seymour


我已經使用谷歌瀏覽器的下載API為Chrome瀏覽器編寫了一個瀏覽器擴展程序,可以在所有平台(操作系統)上運行,即Windows / Mac / Linux :-)

它被稱為TabSave,最初是為了這個,我增加了做一些研究人員想要做的事情的能力直接從瀏覽器提供PDF標題,但它非常輕,如果方便的話可以從打開的標籤中抓取。

你可以在這裡獲得擴展,所有代碼都是GitHub上的開源代碼 這裡

如果你想與它走另一個方向,請隨意分叉:-)


1
2018-05-26 15:57