Re-Indexierung von Volltext in gescannten pdf

Erstellen und Bearbeiten von PDFs

Moderatoren: |Gordon|, Jean, Moderatoren

Antworten
helwa
Einsteiger
Beiträge: 8
Registriert: 28.07.06, 13:00

Re-Indexierung von Volltext in gescannten pdf

Beitrag von helwa » 20.05.08, 8:44

Ich habe folgendes Problem und bin auf der Suche nach einer Freeware-Lösung (obwohl ich auch unter Bezahlware nix passendes gefunden habe):
Ich habe pdf-Dateien, welche aus alten Zeitschriftenartikeln gescannt wurden und korrekt dargestellt werden, aber offensichtlich als "Grafik vor Text" erzeugt wurden.
Wenn ich also die Suchfunktion benutze fällt mir auf, dass offenbar die OCR nicht wirklich gut war: mal wird das gesuchte Wort gefunden und mal nicht.
Einige der Dateien haben auch tatsächlich markierbaren und skalierbaren Text (also offenbar Truertype), nur dass ich bei copy & paste in Word oder Suche nach eben diesen Textpassagen nur Murks erhalte.
Gibt es ein Programm, welches
a) die in der Datei bestehende "Textebene" strippt und
b) eine Neuindexierung (Neu-OCR?) durchführt?

Heller

Benutzeravatar
Guybrush Threepwood
Mitglied
Beiträge: 437
Registriert: 15.06.06, 21:53

Beitrag von Guybrush Threepwood » 20.05.08, 10:36

Hast du schon mal versucht mit einem PDF to [fill in format] Programm das Ganze zu umgehen?

Nebenbei Anfragen gehören nach Requests / Anfragen.

Jean
Beiträge: 11572
Registriert: 30.10.01, 12:41

Beitrag von Jean » 20.05.08, 10:37

>die in der Datei bestehende "Textebene" strippt

Text exportieren können doch viele der hier vorgestellten Tools ... (sogar der Reader - im
Menü gibt es ein "als Text speichern")

zu b)
einfach noch mal die OCR-Software deines Vertrauens darüber schicken. Ob es davon besser
wird? Hm. Ich bin mir nicht sicher, ob sie die Textfragmente schlauerweise schon als Text über-
nehmen, aber die (beim ersten Mal ja nicht erkannten) Grafik-Teile werden sicherlich wieder
Probleme machen.

helwa
Einsteiger
Beiträge: 8
Registriert: 28.07.06, 13:00

Beitrag von helwa » 20.05.08, 13:19

Jean hat geschrieben:>die in der Datei bestehende "Textebene" strippt

Text exportieren können doch viele der hier vorgestellten Tools ... (sogar der Reader - im
Menü gibt es ein "als Text speichern")

zu b)
einfach noch mal die OCR-Software deines Vertrauens darüber schicken. Ob es davon besser
wird? Hm. Ich bin mir nicht sicher, ob sie die Textfragmente schlauerweise schon als Text über-
nehmen, aber die (beim ersten Mal ja nicht erkannten) Grafik-Teile werden sicherlich wieder
Probleme machen.
zu a) Das mit der Textexport-Funkton war mir bekannt. das ist ja gerade mein Problem: der tatsächliche Text weicht vom "sichtbaren" Text signifikant ab. In milden Fällen kann ich mir das durch fehlerhafte OCR erklären, aber ich kriege manchmal echten Murks, der mit Fließtext gar nichts mehr zu tun hat.

zu b) ich habe Scansoft-Software, die macht mir aber Probleme, wenn ich bereits als pdf erkannte Files von Grund auf neu einlesen lassen will. Ist das bei anderen OCR-Proggies auch so?

trotzdem Danke für die hilfe
@ guybrush: du hast Recht, kannst Du verschieben?

Jean
Beiträge: 11572
Registriert: 30.10.01, 12:41

Beitrag von Jean » 20.05.08, 14:27

>der tatsächliche Text weicht vom "sichtbaren" Text signifikant ab.

sollte er nicht ;)
Was passiert, wenn du diese Stellen kopierst und in einen Editor einfügst?
Kann eigentlich nur abweichen, wenn dein »sichtbarer« Text aus Grafik besteht.


>echten Murks, der mit Fließtext gar nichts mehr zu tun hat.

probiere mal verschiedene Tools aus ... Und etwaige Formatierungen im PDF können
natürlich dazu führen, daß auch der ausgegebene Text kein Fließtext mehr ist - aber es
geht dir doch um die Inhalte, nicht um das Format?

helwa
Einsteiger
Beiträge: 8
Registriert: 28.07.06, 13:00

Beitrag von helwa » 21.05.08, 8:36

Jean hat geschrieben:>der tatsächliche Text weicht vom "sichtbaren" Text signifikant ab.

sollte er nicht ;)
Was passiert, wenn du diese Stellen kopierst und in einen Editor einfügst?
Kann eigentlich nur abweichen, wenn dein »sichtbarer« Text aus Grafik besteht.


>echten Murks, der mit Fließtext gar nichts mehr zu tun hat.

probiere mal verschiedene Tools aus ... Und etwaige Formatierungen im PDF können
natürlich dazu führen, daß auch der ausgegebene Text kein Fließtext mehr ist - aber es
geht dir doch um die Inhalte, nicht um das Format?
Das ist ja leider mein Problem! Die Formatierung ist mir egal, solange der Text halbwegs korrekt ist, ist er aber nicht.
Mir geht es im Endeffekt darum, dass ich indexierbare pdfs erhalte, welche z.B. mit copernic desktop search auch gefunden werden.

Noch eine Beobachtung, die ich vor kurzem gemacht habe:
Ich habe ein ebook (pdf) wieder in ein pdf gedruckt, um auf a4 zu kommen. das resultirende pdf ist korrekt zu sehen: der text im erstellten pdf ist auch nicht grafik, sondern schön skalierbar. ich kann ihn markieren, kopieren ist auch möglich, aber der tatsächlich kopierte und eingefühte "wortlaut" besteht nur aus wirren zeichenfolgen. lasse ich acrobat nochmal drüberlaufen, sagt er mir, dass ich ja eh einen skalierbaren text habe und daher ocr nicht nötig ist...
lange rede, kurzr sinn: meine pdfs sehen auf dem bildschirm und beim druck gut aus, bloß kann ich nix darin suchen/finden. das sit mir aber immens wichtig!

danke für die hilefstellung
heller

Jean
Beiträge: 11572
Registriert: 30.10.01, 12:41

Beitrag von Jean » 21.05.08, 10:34

>besteht nur aus wirren zeichenfolgen

flasche Zeichenkodierung?

Benutzeravatar
QuoVadis
Mitglied
Beiträge: 146
Registriert: 18.04.06, 0:37

Beitrag von QuoVadis » 21.05.08, 14:06

Nur mal so als Vermutung:
Wenn Du die Datei im Adobe Reader öffnest und dann in den Eigenschaften schaust (Strg+D), was steht dann unter dem Reiter "Sicherheit" beim Punkt "Kopieren bzw. Entnehmen von Inhalt"?

Welchen Reader setzt Du denn ein und welche Version? Hintergrund: In älteren Versionen des AR produzierte das Kopieren von Inhalten von geschützten Dokumenten ins Clipboard nur Zeichenmüll. In neueren Versionen wird es von vorn herein Unterbunden.
QuoVadis, Author of qvPDF
D/L: http://sourceforge.net/projects/qvpdf

Jean
Beiträge: 11572
Registriert: 30.10.01, 12:41

Beitrag von Jean » 21.05.08, 16:19

(ich denke, er hat die PDFs selber erstellt? ... dann sollte das kein Problem sein.)

Benutzeravatar
QuoVadis
Mitglied
Beiträge: 146
Registriert: 18.04.06, 0:37

Beitrag von QuoVadis » 21.05.08, 19:19

War mir da nicht sicher, da es im Passiv im OP stand...
aber offensichtlich als "Grafik vor Text" erzeugt wurden.
QuoVadis, Author of qvPDF
D/L: http://sourceforge.net/projects/qvpdf

helwa
Einsteiger
Beiträge: 8
Registriert: 28.07.06, 13:00

Beitrag von helwa » 24.05.08, 10:56

QuoVadis hat geschrieben:War mir da nicht sicher, da es im Passiv im OP stand...
aber offensichtlich als "Grafik vor Text" erzeugt wurden.

Hallo Leute,
also ich habe zwei Arten von Dateien, die Probleme bereiten:
1.) Versionen von gescannten Fachzeitschriften aus den frühen 90'ern (dort das Problem, daß die pdf offenbar als Grafik vorliegt und die OCR offenbar mies durchgeführt wurde)
2.) bei ebooks bzw. pdf-printouts, wo nur murks rauskommt (Sicherheitseinstellungen: Drucken erlaubt, Kopieren erlaubt, Editieren nicht erlaubt).

hoffe diese Details konnten das Problem eingrenzen

PS bin ene woche ohne Compi, nicht wundern wenn keine Reaktion kommt

Antworten