Gescannte OCR PDF umbenennen und sortieren

hier bitte nur *nach* Benutzen der Boardsuche (siehe oben) posten

Moderatoren: Jean, |Gordon|, Moderatoren

Antworten
oixio
Mitglied
Beiträge: 29
Registriert: 21.01.07, 15:08

Gescannte OCR PDF umbenennen und sortieren

Beitrag von oixio » 20.12.14, 12:50

Moin,

ich habe seit neuestem einen Dokumentenscanner. Mit dem habe ich meine Ablageordner durchgescannt und nun um die 800 PDFs auf der Platte. In den PDFs ist schon OCR drübergelaufen, ich kann also auf den Textinhalt zugreifen.
ABER: die Dateien heißen alle "<Scan-Datum>-<Scan-Uhrzeit>.pdf". Doof um schnell was wiederzufinden.

Ich suche nun ein Tool, mit dem ich gewisse Regeln vorgeben kann. z.B. durchsuche alle PDFs. Wenn du das Wort "Ikea" findest, dann verschiebe in den Ordner "Möbel" und umbenennen in "IKEA-<alter dateiname>.pdf". Also im Grunde ein Batch-Rename/Move nach Regeln, die den Textinhalt von PDFs betreffen.

Weitere Features die mich wirklich glücklich machen würden:
  • Auslesen eines Datums aus der Datei und die Datei damit umbenennen. Die Dateinamen im Scanner enthalten das Scandatum; interessant ist natürlich das Datum auf der Rechnung oder dem Kassenbon. Ziel "IKEA-<Datum auf Kassenbon>.pdf". Hier müsste man also nach Mustern in dem PDF-Text suchen können.
  • Denkbar wäre auch ein halbautomatischer Prozess, wo man eine Vorschau der PDF sieht und in dieser einfach Texte markiert, die dann zum Bestandteil des Dateinamens werden.
  • OCR ist nicht ganz sauber. D.h. ein unscharfe Suche (statt "IKEA" wird auch "JKEA" akzeptiert) wäre hilfreich. Allerdings dürfte das nur wenige PDFs betreffen und die kann ich notfalls per Hand sortieren

Was ich nicht benötige:
  • PDFs bearbeiten (sei es OCR, Zerteilen, Zusammenfassen oder sonst wie) denn meine Scannersoftware liefert schon schön ein fertiges PDF pro Dokument
  • Einen Webdienst in den ich die PDFs hochlade. Ich möchte die schön lokal haben und nicht in die Cloud pusten
Die einzige Software, die ich im Netz in dieser Hinsicht gefunden habe ist A-PDF Preview and Rename. Die kostet aber und unterstützt so wie das aussieht keinerlei Automatismen sondern nur den manuellen(halbautomatischen) Prozess.

Alle Batch-Renamer die ich bisher angesehen habe, arbeiten entweder nur mit Dateinamen oder falls sie PDFs unterstützen, dann nur deren Metadaten.

Ein schicke GUI oder so ist nebensächlich. Wenn ich nichts finde, dann werde ich mir wohl ein paar Scripte zusammenzimmern. Aber vielleicht muss ich das Rad ja nicht neu erfinden. Wie machen denn das andere mit ihrem papierlosen Büro?

Jean
Beiträge: 11330
Registriert: 30.10.01, 12:41

Re: Gescannte OCR PDF umbenennen und sortieren

Beitrag von Jean » 20.12.14, 14:52

... zur Not kann man die verschiedenen Aufgaben ja auch unterschiedliche Tools aufteilen.

Zum Umbenennen nach Inhalt - das scheint mir der Knackpunkt zu sein - schau mal, ob Siren den
PDF-Inhalt auswerten kann.

Sonst - in großer Not - irgendein PDF-2-Txt-CL, dann mit grep/awk/sonstwas durchsuchen und etwas
shell (oder PDFMiner und Co) ...

Ansonsten - nicht probiert, aber nomen est omen
http://www.sobolsoft.com/pdfrenamefile/

Evtl. geht http://www.mendeley.com/

Nicht-ganz-automatisch
http://cogit.net/pmwiki/NeoBook/ViewAndRenamePDF

Falls du etwas programmieren möchtest
http://www.codeproject.com/Articles/636 ... ng-scanned
oder
http://www.autoitscript.com/forum/topic ... n-content/

oixio
Mitglied
Beiträge: 29
Registriert: 21.01.07, 15:08

Re: Gescannte OCR PDF umbenennen und sortieren

Beitrag von oixio » 20.12.14, 18:43

Danke für die Empfehlungen, hier mein Feedback dazu:
Jean hat geschrieben:Zum Umbenennen nach Inhalt - das scheint mir der Knackpunkt zu sein - schau mal, ob Siren den
PDF-Inhalt auswerten kann.
Leider nein, nur Metadaten wie Änderungszeitpunkt und Autor.
Jean hat geschrieben:Ansonsten - nicht probiert, aber nomen est omen
http://www.sobolsoft.com/pdfrenamefile/
Nach dem Youtube-Video kann das nur nach den ersten x Wörtern im PDF umbenennen - grade bei Rechnungen sind das aber meist nichtssagende Kopfeinträge.
Jean hat geschrieben:Evtl. geht http://www.mendeley.com/
Scheint ne komplette Verwaltungsdatenbank (vorrangig für wissenschaftliche Papers) zu sein. Ich habe auf der Homepage auch keinen Hinweis gefunden, ob das auch ohne Cloud-Account geht. Wohl nicht das richtige.
Jean hat geschrieben:Nicht-ganz-automatisch
http://cogit.net/pmwiki/NeoBook/ViewAndRenamePDF
Testweise installiert. Bedienung ist so grausam, dass ich wohl im Explorer schneller bin.
Jean hat geschrieben:Falls du etwas programmieren möchtest
http://www.codeproject.com/Articles/636 ... ng-scanned
oder
http://www.autoitscript.com/forum/topic ... n-content/

Sonst - in großer Not - irgendein PDF-2-Txt-CL, dann mit grep/awk/sonstwas durchsuchen und etwas
shell (oder PDFMiner und Co) ...
Darauf wird es dann wohl hinauslaufen. Hatte nur die leise Hoffnung, dass ich mir diese Arbeit nicht machen muss...

Benutzeravatar
Der_F
Beiträge: 859
Registriert: 23.10.02, 19:01

Re: Gescannte OCR PDF umbenennen und sortieren

Beitrag von Der_F » 20.12.14, 20:10

ich würd die PDFs so belassen und jeweils Volltext suchen zB mit Agent Ransack (EFB-Suche) . Dauert nur Sekunden
in Calibre (EFB-Suche)kannst du die PDFs auch importieren
"Alles ist möglich, aber nicht überall"

oixio
Mitglied
Beiträge: 29
Registriert: 21.01.07, 15:08

Re: Gescannte OCR PDF umbenennen und sortieren

Beitrag von oixio » 20.12.14, 23:35

Der_F hat geschrieben:ich würd die PDFs so belassen und jeweils Volltext suchen zB mit Agent Ransack (EFB-Suche) . Dauert nur Sekunden
Das Hilft mir nur nichts, wenn ich mal von unterwegs auf die Dateien auf meinem NAS zugreifen will. Zumindest eine grobe Sortierung hilft da ungemein.
Normalerweise nutze ich schon die Suche um dann im "Rechnungen" Ordner das richtige zu finden. Ich will ja auch nur die nötigsten Sachen im Dateinamen unterbringen. Wenn ich dann z.B. nach einer Rechnungsposition suche (z.B. "Billy") dann geht das nur über die Volltextsuche (oder halt auf dem Handy die IKEA-Rechnungen aus dem ungefähren Zeitraum kurz aufmachen).
Der_F hat geschrieben:in Calibre (EFB-Suche)kannst du die PDFs auch importieren
Das nutze ich für meine Ebooks. Ich wüsste aber nicht, dass Calibre irgendwas mit dem Textinhalt anfangen kann und mir daraus die Dateien umbenennt. Calibre arbeitet doch auch nur mit den Metadaten.

Jean
Beiträge: 11330
Registriert: 30.10.01, 12:41

Re: Gescannte OCR PDF umbenennen und sortieren

Beitrag von Jean » 20.12.14, 23:40

... das wäre dann ja wieder eine der Desktopsuchmaschinen-Teile.

Ja, automatisches Taggen/Benamsen ist bestimmt schick. Ich habe neulich nach einer DAU-fähigen
taggen/einordnen/suchen-Lösung für PDFs gesucht und auch nichts gescheites gefunden. Aber zur
Not kann man dann ja auch mal den Pfad der Tugend verlassen und Sachen kaufen ;)

Also: https://github.com/chrK/pdf-rename und weitermachen


Antworten