Linux
Postscript
PDFs mit den Poppler-Tools um Texte und Bilder erleichtern
Aktualisiert: 12.09.2008
Mit «pdftotext» Text aus einem PDF-Dokument extrahieren
Der in einem PDF enthaltene Text lässt sich mit «pdftotext» (Teil der «poppler-utils») kinderleicht extrahieren und sowohl als Text- als auch als HTML-Datei abspeichern. Einige einfache Formatierungen wie die Beibehaltung des Layouts (-layout) oder das Entfernen jeglicher formatierung (-raw) sind dabei möglich.
pdftotext input.pdf -raw pdftotext input.pdf -htmlmeta -layout
Die HTML-Datei wird zwar korrekterweise mit der Zeichenkodierung UTF-8 abgespeichert, doch muss zur korrekten Erkennung der Datei im Browser im HTML-Header noch zusätzlich die korrekte Metaangabe eingefügt werden.
Mit «pdfimages» Bilder aus einem PDF-Dokument extrahieren
Ebenso einfach wie Text lassen sich auch die in einem PDF enthaltenen Bilder mit «pdfimages» (Teil der «poppler-utils») extrahieren, wobei diese standardmässig als ppm (Portable Pixmap, nicht-monochrome Bilder) oder pbm (Portable Bitmap, monochrome Bilder) gespeichert werden. Das Programm braucht nun noch den Pfad zu einem Bilderordner, welcher insbesondere bei grossen PDFs mit vielen Bildern angelegt werden sollte.
pdfimages input.pdf ~/Desktop/bilder/ pdfimages -f 10 -l 15 -j input.pdf ~/Desktop/bilder/
Sind im PDF Bilder mit DCT-Komprimierung (Discrete Cosinus Transformation) eingebettet, lassen sich diese durch Hinzufügen der Option «-j» auch als JPEGs extrahieren. Mit den beiden Optionen «-f» (first) und «-l» (last) hat man noch zusätzlich die Möglichkeit, die zu verarbeitenden Seiten einzugrenzen.

