Schritt 7: Papierloses Büro ohne Scanner

Was digital kommt, muss nicht erst digitalisiert werden!

Umstellung auf Digital

Eigentlich logisch: Alles, was wir schon als PDF erhalten, müssen wir nicht einscannen. Digitale Dokumente machen immer noch genug Arbeit, da wir diese ja trotzdem sichten und sortieren müssen, aber immerhin fällt der lästige Schritt des Scannens und Vernichtens weg. Weitere Vorteile: Weniger Müll und Schutz der Umwelt.

Mittlerweile bieten fast alle Dienstleister, Banken & Co. an, dass Rechnungen und sonstige Dokumente direkt als PDF zugestellt werden bzw. dass diese in einem Online-Postfach heruntergeladen werden können. Nicht immer ist dies auf den ersten Blick möglich - manchmal muss persönlich nachgefragt werden. Aber meist geht dies. Also einfach bei jedem Brief, den wir erhalten, prüfen, ob dies nicht auch digital möglich gewesen wäre.

PDF zu PDF/A wandeln

Hört sich ja erst mal super an. Einen Nachteil hat dies jedoch. Viele PDF-Generatoren, die zur Erstellung von Rechnungen, Kontoauszügen & Co verwendet werden, erstellen keine PDF/A-Dokumente. Viele der PDFs sind sogar in einem eher fraglichen Zustand. Bei mir haben einzig die Dokumente der comdirect Bank einer Prüfung mittels veraPDF standgehalten.

Für eine Langzeitarchivierung sind beschädigte Dokumente bzw. Dokumente, die keinerlei Standard folgen eher ungeeignet. Nur weil unser PDF-Reader diese aktuell lesen kann, heißt es nicht, dass diese auch in 5 oder 10 Jahren noch problemlos gelesen werden können.

Was also tun?

Wir wandeln die Dokumente einfach in ein valides PDF/A. Man sollte hier immer einen Vorher-Nachher-Vergleich des Dokuments machen. Da in PDF/A nicht alle Elemente unterstützt werden, könnte es passieren, dass uns Informationen verloren gehen. Dies wäre natürlich fatal!

OCRmyPDF hilft uns hier wieder weiter. Wir können damit nämlich auch einfach PDFs zu PDF/A-Dokumenten wandeln: Link zur Dokumentation

--tesseract-timeout=0 --skip-text

Mit dieser Option wird einfach kein OCR durchgeführt, sondern die Datei nur konvertiert.

Nun haben wir jedoch auch PDF-Dateien, die dem PDF/A-Standard folgen. Diese möchten wir nicht unnötig bearbeiten. Jedoch jede Datei händisch mit veraPDF zu prüfen, ist zu aufwändig.

Also schnell wieder ein kleines Python Script schreiben:

Es wird also jedes PDF im Verzeichnis mit veraPDF geprüft und wenn es dem PDF/A-Standard nicht folgt, wird es durch OCRmyPDF in ein PDF/A umgewandelt und somit für die Zukunft "konserviert".

https://github.com/rsmuc/paperless/blob/master/repair.py


Warnung:

Nochmal die Warnung: PDFs vorher und hinterher bitte händisch prüfen. Durch die Konvertierung können Informationen verloren gehen.



Randnotiz:

Es kann sein, dass sich OCRmyPDF mit folgender Meldung beendet:

Output file is okay but is not PDF/A (seems to be No PDF/A metadata in XMP)

Dies passiert, wenn die Schriftarten im PDF nicht eingebettet sind. Näheres hierzu findet man auch in diesem Github Issue: Link

Um das Problem zu lösen, können wir das gleiche machen, wie im nächsten Punkt "Defekte Textebene reparieren" beschrieben.


Defekte Textebene reparieren

Nun gibt es leider auch immer wieder PDFs, die nicht nur nicht als PDF/A geliefert werden, sondern auch auch noch eine defekte Textebene haben. Dies ist vor allem ein Problem, da somit eine Suche nach dem Inhalt nicht möglich ist und sich Informationen (z.B. IBANs) nicht aus dem Dokument heraus kopieren lassen.

Besonders die HypoVereinsbank hat seit Anfang 2020 ein ziemliches Problem mit ihrem PDF-Generator. Sämtliche Kontoauszüge kommen mit einer kaputten Textebene und beim Versuch Inhalte zu kopieren, kommt nur Kauderwelsch heraus.

Aber auch hier hilft und OCRmyPDF:

-l deu --force-ocr

Normalerweise überspringt OCRmyPDF alle PDFs, welche bereits einen Text haben. Aber mittels des "--force-ocr"-Parameters wird eine Durchführen der Texterkennung erzwungen.

Hinterher haben wir also ein PDF/A mit ordentlichem Text. Dies ist natürlich nicht perfekt. Aber besser als nichts.


Randnotiz:

Je nach Dokument gehe ich hier unterschiedlich vor. Ist es ein Kontoauszug, hebe ich das fehlerhafte Original nicht auf. Ist es ein Vertragsdokument, hebe ich sowohl das Original, als auch das PDF/A auf.


Werbung und unnötige Dokumente abbestellen

Als letzte Optimierung, um das allgemeine Papieraufkommen zu reduzieren, können wir noch Werbung und Dokumente, die wir überhaupt nicht benötigen, abbestellen. Dies klappt meiner Erfahrung nach sehr zuverlässig. Eine kurze Mail reicht hier üblicherweise aus und schon ist der Briefkasten deutlich leerer.