Herunterladen von PDF-Dateien einer Webseite

Heute wollte ich alle PDF-Dateien einer Webseite herunterladen. Um dies in der Shell zu tun, muss man das Paket wget installiert haben. Das ist ein Download-Programm für die Shell. Wer dieses Paket nicht installiert hat, kann dies mit

sudo aptitude install wget

nachholen.

Der Befehl, um alle PDF-Dateien, die auf einer Seite verlinkt sind, herunterzuladen, lautet:

wget -pr -nd -l 1 -e robots=off -A pdf "http://www.domain.tld/seite.html"

Der Befehl hat folgende Eigenschaften:

-p: Alle PDF-Dateien downloaden, auch die, die sich auf einem anderen Server befinden
-r: rekursives Downloaden, folgt den Links der PDF's
-nd: Es werden keine Ordner erstellt. D.h. alle Dateien werden in dem Ordner, in dem Sie sich befinden abgespeichert.
-l 1: maximale Rekursionstiefe, es werden keine Links von Unterseiten heruntergeladen.
-e robots=off: Ausschließen der Datei robots.txt
-A pdf: Einträge mit erlaubten Dateiendungen. In unserem Fall werden nur Dateien, mit der Endung pdf heruntergeladen.

In meinem Fall wurden leider nicht alle PDF-Dateien heruntergeladen. Ich habe keine Erklärung dafür. Wer einen Tipp oder Verbesserungsvorschlag hat, kann mich gerne unter meiner E-Mail-Adresse oder in meinem Twitter-Account kontaktieren; ein Kommentar tut's auch. ;-)

Alternativ kann man auch das Firefox-Add-on "DownThemAll!" benutzen, das auch schon für Firefox 4 erhältlich ist.

(via) Rorschachs Tagebuch

DSIW

Alles was interessant ist... (Linux, Programmierung, Datenschutz, Medien, uvm.)

Herunterladen von PDF-Dateien einer Webseite

Comments