Rorschachs Tagebuch

Alle PDF – Dateien einer Webseite herunterladen Januar 21, 2009

Filed under: Linux — Rorschach @ 17:02
Tags: , ,

Ich musste heute mal wieder ein Manusskript welches in zahlreiche PDF-Dateien zerstückelt war von einer Webseite herunterladen.

Früher habe ich für solche Sachen immer das Firefox Addon DownThemAll! benutzt. Doch da ich gemerkt habe, dass Firefox merklich langsamer wird je mehr Addons installiert sind und ich deswegen nur noch die Addons installiert habe die ich wirklich brauche musste ich sie anders herunterladen.

Jedes einzelne von Hand anklicken und runterladen scheidet natürlich aus. Man ist ja kein DAU. Also heisst es wget bemühen. Nehmen wir also an, wir wollen von http://www.meinewebseite.de/unterseite.html alle PDF-Dateien herunterladen, die dort verlinkt sind, dann ist dies der perfekte Befehl dazu:

wget -p -r -nd -l 1 -e robots=off -A pdf "www.meinewebseite.de/unterseite.html"

Die Parameter machen folgendes: -p sorgt dafür, dass wget zum Beispiel auch PDF-Dateien berücksichtigt, welche nicht auf dem gleichen Server gehostet sind. -r arbeiter rekursiv die Seite ab, folgt also den Links auf der Seite zu den PDF-Dokumenten. Ansonsten würde man nur das Dokument unterseite.html selbst abrufen und nicht die Links zu den PDFs. -nd sorgt dafür, dass wget keine Ordner erstellt. Die PDFs landen also in dem Ordner in dem man sich befindet wenn man den Befehl ausführt. -l 1 sagt wget, dass es nur die PDF-Dateien herunterladen soll die auf der angegebenen Seite verlinkt sind und nicht die auf Unterseiten. -e robots=off sorgt normalerweise dafür, dass wget die robots.txt ignoriert und auch Links folgt die in dieser Datei ausgeschlossen sind. Für uns ist das nützlich weil wget dann nicht die Datei robots.txt selbst herunterlädt. -A pdf schliesslich zwingt wget dazu alle Links zu ignorieren, ausser solchen die auf .pdf enden.

Mehr zu den einzelnen Optionen findet man in der Manpage von wget.

 

8 Responses to “Alle PDF – Dateien einer Webseite herunterladen”

  1. Sven Says:

    Mit Opera geht das super einfach.

    – Mit F4 das Seiten-Panel anzeigen lassen,
    – darin sich alle Links der aktuellen Seite anzeigen lassen,
    – in das Suchfeld (Filter) pdf eingeben
    – alle pdfs in einem schwung runterladen

  2. Basti Says:

    Beide Varianten sind genial🙂

  3. Anonymous Says:

    Das mit Opera geht jedoch nicht über ssh🙂

  4. Anonymous Says:

    Kleine Korrektur:

    > „-p sorgt dafür, dass wget zum Beispiel auch PDF-Dateien berücksichtigt, welche nicht auf dem gleichen Server gehostet sind.“

    Laut man-Page ist das -H:

    -H
    –span-hosts
    Enable spanning across hosts when doing recursive retrieving.

  5. Anonymous Says:

    this is a test

  6. Anonymous Says:

    hehe alert(„hi“);

  7. Anonymous Says:

    hehe

  8. Anonymous Says:

    Das hier sollte nicht möglich sein: alert(„hi“);
    Wordpress updaten!


Schreibe einen Kommentar

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s