Seite 1 von 1

Re-Indexierung von Volltext in gescannten pdf

Verfasst: 20.05.08, 8:44
von helwa
Ich habe folgendes Problem und bin auf der Suche nach einer Freeware-Lösung (obwohl ich auch unter Bezahlware nix passendes gefunden habe):
Ich habe pdf-Dateien, welche aus alten Zeitschriftenartikeln gescannt wurden und korrekt dargestellt werden, aber offensichtlich als "Grafik vor Text" erzeugt wurden.
Wenn ich also die Suchfunktion benutze fällt mir auf, dass offenbar die OCR nicht wirklich gut war: mal wird das gesuchte Wort gefunden und mal nicht.
Einige der Dateien haben auch tatsächlich markierbaren und skalierbaren Text (also offenbar Truertype), nur dass ich bei copy & paste in Word oder Suche nach eben diesen Textpassagen nur Murks erhalte.
Gibt es ein Programm, welches
a) die in der Datei bestehende "Textebene" strippt und
b) eine Neuindexierung (Neu-OCR?) durchführt?

Heller

Verfasst: 20.05.08, 10:36
von Guybrush Threepwood
Hast du schon mal versucht mit einem PDF to [fill in format] Programm das Ganze zu umgehen?

Nebenbei Anfragen gehören nach Requests / Anfragen.

Verfasst: 20.05.08, 10:37
von Jean
>die in der Datei bestehende "Textebene" strippt

Text exportieren können doch viele der hier vorgestellten Tools ... (sogar der Reader - im
Menü gibt es ein "als Text speichern")

zu b)
einfach noch mal die OCR-Software deines Vertrauens darüber schicken. Ob es davon besser
wird? Hm. Ich bin mir nicht sicher, ob sie die Textfragmente schlauerweise schon als Text über-
nehmen, aber die (beim ersten Mal ja nicht erkannten) Grafik-Teile werden sicherlich wieder
Probleme machen.

Verfasst: 20.05.08, 13:19
von helwa
Jean hat geschrieben:>die in der Datei bestehende "Textebene" strippt

Text exportieren können doch viele der hier vorgestellten Tools ... (sogar der Reader - im
Menü gibt es ein "als Text speichern")

zu b)
einfach noch mal die OCR-Software deines Vertrauens darüber schicken. Ob es davon besser
wird? Hm. Ich bin mir nicht sicher, ob sie die Textfragmente schlauerweise schon als Text über-
nehmen, aber die (beim ersten Mal ja nicht erkannten) Grafik-Teile werden sicherlich wieder
Probleme machen.
zu a) Das mit der Textexport-Funkton war mir bekannt. das ist ja gerade mein Problem: der tatsächliche Text weicht vom "sichtbaren" Text signifikant ab. In milden Fällen kann ich mir das durch fehlerhafte OCR erklären, aber ich kriege manchmal echten Murks, der mit Fließtext gar nichts mehr zu tun hat.

zu b) ich habe Scansoft-Software, die macht mir aber Probleme, wenn ich bereits als pdf erkannte Files von Grund auf neu einlesen lassen will. Ist das bei anderen OCR-Proggies auch so?

trotzdem Danke für die hilfe
@ guybrush: du hast Recht, kannst Du verschieben?

Verfasst: 20.05.08, 14:27
von Jean
>der tatsächliche Text weicht vom "sichtbaren" Text signifikant ab.

sollte er nicht ;)
Was passiert, wenn du diese Stellen kopierst und in einen Editor einfügst?
Kann eigentlich nur abweichen, wenn dein »sichtbarer« Text aus Grafik besteht.


>echten Murks, der mit Fließtext gar nichts mehr zu tun hat.

probiere mal verschiedene Tools aus ... Und etwaige Formatierungen im PDF können
natürlich dazu führen, daß auch der ausgegebene Text kein Fließtext mehr ist - aber es
geht dir doch um die Inhalte, nicht um das Format?

Verfasst: 21.05.08, 8:36
von helwa
Jean hat geschrieben:>der tatsächliche Text weicht vom "sichtbaren" Text signifikant ab.

sollte er nicht ;)
Was passiert, wenn du diese Stellen kopierst und in einen Editor einfügst?
Kann eigentlich nur abweichen, wenn dein »sichtbarer« Text aus Grafik besteht.


>echten Murks, der mit Fließtext gar nichts mehr zu tun hat.

probiere mal verschiedene Tools aus ... Und etwaige Formatierungen im PDF können
natürlich dazu führen, daß auch der ausgegebene Text kein Fließtext mehr ist - aber es
geht dir doch um die Inhalte, nicht um das Format?
Das ist ja leider mein Problem! Die Formatierung ist mir egal, solange der Text halbwegs korrekt ist, ist er aber nicht.
Mir geht es im Endeffekt darum, dass ich indexierbare pdfs erhalte, welche z.B. mit copernic desktop search auch gefunden werden.

Noch eine Beobachtung, die ich vor kurzem gemacht habe:
Ich habe ein ebook (pdf) wieder in ein pdf gedruckt, um auf a4 zu kommen. das resultirende pdf ist korrekt zu sehen: der text im erstellten pdf ist auch nicht grafik, sondern schön skalierbar. ich kann ihn markieren, kopieren ist auch möglich, aber der tatsächlich kopierte und eingefühte "wortlaut" besteht nur aus wirren zeichenfolgen. lasse ich acrobat nochmal drüberlaufen, sagt er mir, dass ich ja eh einen skalierbaren text habe und daher ocr nicht nötig ist...
lange rede, kurzr sinn: meine pdfs sehen auf dem bildschirm und beim druck gut aus, bloß kann ich nix darin suchen/finden. das sit mir aber immens wichtig!

danke für die hilefstellung
heller

Verfasst: 21.05.08, 10:34
von Jean
>besteht nur aus wirren zeichenfolgen

flasche Zeichenkodierung?

Verfasst: 21.05.08, 14:06
von QuoVadis
Nur mal so als Vermutung:
Wenn Du die Datei im Adobe Reader öffnest und dann in den Eigenschaften schaust (Strg+D), was steht dann unter dem Reiter "Sicherheit" beim Punkt "Kopieren bzw. Entnehmen von Inhalt"?

Welchen Reader setzt Du denn ein und welche Version? Hintergrund: In älteren Versionen des AR produzierte das Kopieren von Inhalten von geschützten Dokumenten ins Clipboard nur Zeichenmüll. In neueren Versionen wird es von vorn herein Unterbunden.

Verfasst: 21.05.08, 16:19
von Jean
(ich denke, er hat die PDFs selber erstellt? ... dann sollte das kein Problem sein.)

Verfasst: 21.05.08, 19:19
von QuoVadis
War mir da nicht sicher, da es im Passiv im OP stand...
aber offensichtlich als "Grafik vor Text" erzeugt wurden.

Verfasst: 24.05.08, 10:56
von helwa
QuoVadis hat geschrieben:War mir da nicht sicher, da es im Passiv im OP stand...
aber offensichtlich als "Grafik vor Text" erzeugt wurden.

Hallo Leute,
also ich habe zwei Arten von Dateien, die Probleme bereiten:
1.) Versionen von gescannten Fachzeitschriften aus den frühen 90'ern (dort das Problem, daß die pdf offenbar als Grafik vorliegt und die OCR offenbar mies durchgeführt wurde)
2.) bei ebooks bzw. pdf-printouts, wo nur murks rauskommt (Sicherheitseinstellungen: Drucken erlaubt, Kopieren erlaubt, Editieren nicht erlaubt).

hoffe diese Details konnten das Problem eingrenzen

PS bin ene woche ohne Compi, nicht wundern wenn keine Reaktion kommt