Heute wollte ich alle PDF-Dateien einer Webseite herunterladen. Um dies in der Shell zu tun, muss man das Paket wget
installiert haben. Das ist ein Download-Programm für die Shell. Wer dieses Paket nicht installiert hat, kann dies mit
1
|
|
nachholen.
Der Befehl, um alle PDF-Dateien, die auf einer Seite verlinkt sind, herunterzuladen, lautet:
1
|
|
Der Befehl hat folgende Eigenschaften:
-p
: Alle PDF-Dateien downloaden, auch die, die sich auf einem anderen Server befinden-r
: rekursives Downloaden, folgt den Links der PDF's-nd
: Es werden keine Ordner erstellt. D.h. alle Dateien werden in dem Ordner, in dem Sie sich befinden abgespeichert.-l 1
: maximale Rekursionstiefe, es werden keine Links von Unterseiten heruntergeladen.-e robots=off
: Ausschließen der Dateirobots.txt
-A pdf
: Einträge mit erlaubten Dateiendungen. In unserem Fall werden nur Dateien, mit der Endungpdf
heruntergeladen.
In meinem Fall wurden leider nicht alle PDF-Dateien heruntergeladen. Ich habe keine Erklärung dafür. Wer einen Tipp oder Verbesserungsvorschlag hat, kann mich gerne unter meiner E-Mail-Adresse oder in meinem Twitter-Account kontaktieren; ein Kommentar tut's auch. ;-)
Alternativ kann man auch das Firefox-Add-on "DownThemAll!" benutzen, das auch schon für Firefox 4 erhältlich ist.
(via) Rorschachs Tagebuch