DSIW

Alles was interessant ist... (Linux, Programmierung, Datenschutz, Medien, uvm.)

Herunterladen von PDF-Dateien einer Webseite

| Comments

Heute wollte ich alle PDF-Dateien einer Webseite herunterladen. Um dies in der Shell zu tun, muss man das Paket wget installiert haben. Das ist ein Download-Programm für die Shell. Wer dieses Paket nicht installiert hat, kann dies mit

1
sudo aptitude install wget

nachholen.

Der Befehl, um alle PDF-Dateien, die auf einer Seite verlinkt sind, herunterzuladen, lautet:

1
wget -pr -nd -l 1 -e robots=off -A pdf "http://www.domain.tld/seite.html"

Der Befehl hat folgende Eigenschaften:

  • -p: Alle PDF-Dateien downloaden, auch die, die sich auf einem anderen Server befinden
  • -r: rekursives Downloaden, folgt den Links der PDF's
  • -nd: Es werden keine Ordner erstellt. D.h. alle Dateien werden in dem Ordner, in dem Sie sich befinden abgespeichert.
  • -l 1: maximale Rekursionstiefe, es werden keine Links von Unterseiten heruntergeladen.
  • -e robots=off: Ausschließen der Datei robots.txt
  • -A pdf: Einträge mit erlaubten Dateiendungen. In unserem Fall werden nur Dateien, mit der Endung pdf heruntergeladen.

In meinem Fall wurden leider nicht alle PDF-Dateien heruntergeladen. Ich habe keine Erklärung dafür. Wer einen Tipp oder Verbesserungsvorschlag hat, kann mich gerne unter meiner E-Mail-Adresse oder in meinem Twitter-Account kontaktieren; ein Kommentar tut's auch. ;-)

Alternativ kann man auch das Firefox-Add-on "DownThemAll!" benutzen, das auch schon für Firefox 4 erhältlich ist.

(via) Rorschachs Tagebuch

Comments