Veröffentlicht in

PDF: gescanntes Buch optimieren

Tool ocrmypdf
Das Tool ocrmypdf in Aktion

Ganz ehrlich, seit meinem radikalen Wechsel von Windows zu Linux (aus Datenschutzgründen alternativlos) weine ich dem Tool PDF-XChange (https://pdf-xchange.de/) hinterher. So einen umfassenden PDF-Editor habe ich unter Linux bislang nicht gefunden. Eine Rückkehr zu Windows schließe ich aber aus. Auch unter dem Betriebssystem von IBM, OS/2, gab es damals ein tolles, ausgesprochen flottes DFÜ-Programm, was man für Windows vergeblich suchen musste. Man muss damit leben, nicht immer das Optimum bekommen zu können.

Aktuell habe ich das Problem das PDF eines eingescannten Buches, welches aus Bildern von Doppelseiten besteht, in ein handhabbares, durchsuchbaren PDF umwandeln zu wollen. Das Trennen solcher Seiten in Einzelseiten bietet der bisher beste PDF-Editor, den ich unter Linux kenne (Master PFD Editor 5), anscheinend nicht an. Zum Glück gibt es aber die mupdf-tools! Die kann man unter Linux Mint über die Anwendungsverwaltung installieren.

Mit mutool poster -x 2 input.pdf output.pdf (in der Kommandozeile: https://www.mankier.com/1/mutool) sind die Seiten schneller getrennt als man gucken kann! Wow! Das war selbst mit dem PDF-XChange Editor umständlicher.

Zum Umwandeln mit OCR gibt es das Kommandozeilentool ocrmypdf, das unter Linux Mint ebenfalls über die Anwendungsverwaltung installiert werden kann.

Immer wieder wird im Web zum Bearbeiten von PDF LibreDraw genannt. So angenehm es auch ist, mit GUI-Programmen zu arbeiten, wenn die Ergebnisse schlecht sind, sollte man es vermeiden.

Bei vielen Scans von Büchern gibt es Leerseiten, die bei gedruckten Büchern der Gliederung dienen, in PDF-Dateien aber nutzlos sind. Diese Leerseiten kann man mit LibreDraw wunderbar visuell löschen. Allerdings bläht die Bearbeitung mit LibreDraw bei jeder Bearbeitung die Dateigröße der PDF-Datei unangemessen auf; in meinem Fall, einem Dokument mit über 200 Seiten, den Datenumfang von knapp 18 MB auf 35 MB; das ist eine glatte Verdoppelung!

Erster Workflow

Rohdatenumfang des PDF-Scans: 18,4 MB

  1. Trennen der Seiten mit mutool => Datenumfang: 18,5 MB
  2. Löschen von Leerseiten mit LibreDraw, dann Export als PDF => Datenumfang: 34,8 MB
  3. OCR mit ocrmypdf => Datenumfang: 37,7 MB
  4. Nachträgliches Löschen einer übersehenen Leerseite mit LibreDraw und Export als PDF => Datenumfang: 53,6 MB

Verbesserter Workflow

Rohdatenumfang des PDF-Scans: 18,4 MB (selbe Ausgangslage)

  1. Trennen der Seiten mit mutool => Datenumfang: 18,5 MB
  2. OCR mit ocrmypdf => Datenumfang: 16,6 MB
  3. Visuelle Suche nach Leerseiten mit dem PDF-Reader Okular
  4. Löschen von Leerseiten mit dem Tool pdftk (zu exportierende Seiten angeben): Datenumfang: 16,6 MB
  5. Nachträgliches Löschen übersehener Leerseiten mit pdttk: Datenumfang: 16,6 MB

Um die PDF-Daten nicht unnötig aufzublähen, sollte man auf die visuelle Bearbeitung mit LibreDraw verzichten. Kommandozeilen-Tools erfordern einen etwas anderen Workflow (hier musste ich mir die zu exportierenden Seiten auf einen Zettel notieren und die schlussendlich notwendige Befehlszeile in einen Texteditor schreiben, die ich am Ende per Copy & Paste in die Kommandozeile übertrug). Der Gewinn liegt in schlanken Dateien und Erledigung in atemberaubender Geschwindigkeit auch auf einem alten Laptop.

Der verbesserte Workflow konkret

Ausgangslage: buch.pdf

  1. Trennen der Seiten mit mutool: mutool poster -x 2 buch.pdf buch-getrennt.pdf
  2. OCR mit ocrmypdf: ocrmypdf buch-getrennt.pdf buch-getrennt-ocr.pdf
  3. Export nur der bedruckten Seiten mit pdftk In diesem Beispiel Löschen der Seiten 2, 4-5, 9-11: pdftk buch-getrennt-ocr.pdf cat 1 3 6-8 12-end buch-getrennt-ocr-clean.pdf

Der Vorteil von Kommandozeilentools liegt insbesondere auch darin, dass man sich für den Workflow ein Skript basteln kann. Dazu veröffentliche ich vielleicht später mal etwas. Das oft genannte Argument, bei Linux Mint benötige man nicht die Kommandozeile ist somit Dummfug! Es sei denn, man möchte ich gern sehenden Auges ins Knie schießen und ein PDF mit 58 MB nutzen, wenn es auch mit 17 MB ginge.

Lieber mal den Horizont erweitern. Etwas lernen. Wenn man absoluter EDV-Laie ist, kennt man ohnehin jemanden, den man fragen, bzw. mal bitten kann. Das kennen wir doch alle.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert