Linux
Postscript
PDFs mit «gscan2pdf» aus einer Textvorlage heraus erstellen
Aktualisiert: 12.01.2008
Mit scaimage Bilder von der Konsole aus scannen
Mit einem simplen Befehl ist es auch möglich Bilder direkt von einem angeschlossenen USB-Scanner einzulesen und abzuspeichern. Vorher muss man das Gerät eventuell mit sane-find-scanner oder scanimage -L aufwecken. Dieser Befehl lässt sich übrigens auch ganz einfach als alias in die .bashrc eintragen, sodass man später z. B. mit dem Befehl scan sofort scannen kann:
scanimage --format tiff --resolution 300 -x 215 -y 297 > bild alias scan=’scanimage --format tiff --resolution 300 -x 215 -y 297 > scan.tiff’
Gute Texterkennung mit «gocr»
Ein eingescannte Seite lässt sich natürlich auch von der Kommandozeile aus mit Hilfe der Texterkennung «gocr» auslesen und das Resultat als reiner Text in einer Datei abspeichern. Zuvor muss man vermutlich noch das eingescannte TIF- oder JPG-Bild mit «convert» (siehe oben) in ein PNM-Bild umwandeln und ein wenig mit den Einstellung für Entfleckung (-d 1) und Kontrast (-l 170) herumspielen:
convert bild.tif bild.pnm gocr -d 1 -l 170 -i bild.pnm -o 2.txt
Exzellente Texterkennung mit «tesseract»
Leider ist «gocr» in der Erkennung von Text nicht so effizient wie «tesseract», das zurzeit unter Google stark weiterentwickelt wird und ab Version 2.0 bereits Englisch, Deutsch, Französisch, Italienisch, Spanisch, Holländisch und Portugiesisch erkennt. Das zu erkennende Bild muss im offenen TIF-Format (ohne Kompression) vorliegen und sollte ein Auflösung von mindestens 150 dpi haben.
tesseract bild.tif resultat -l deu

