Landesverein Badische Heimat e.V.

Badische Heimat - das Online-Magazin

1/2009

Digitales Publizieren

Thorbogen oder Chorbogen?

Ein Praxisbericht über den Einsatz von OCR-Software zur Erkennung von Frakturschrift

Das Archiv der Badischen Heimat enthält 89 Jahrgänge heimat- und landeskundlicher Literatur, viele Jahrgänge sind doppelt und dreifach besetzt – vor dem 2. Weltkrieg „Mein Heimatland“ als Zeitschrift, die „Badische Heimat“ als regional konzentrierter Jahresband, und schließlich das Ekkhart-Jahrbuch. Die Bände vor 1943 sind allesamt in Frakturschrift gedruckt, was bei einzelnen, besonders bedeutenden und grundlegenden Artikeln die Veröffentlichung im Internet allenfalls als Bild-Datei erlaubte. Für ein Einscannen stand bisher keine Software zur Verfügung, die die Frakturschrift in lesbare ASCII-Zeichen umgewandelt hätte.

Zum 100-jährigen Jubiläum der „Badischen Heimat“ wuchs das Interesse, doch Artikel aus dem älteren Bestand neu zu veröffentlichen, um die Kompetenz zu demonstrieren, die der Vereins seit seiner Gründung auf seinen Arbeitsgebieten hat. Eine kurze Recherche im Internet ergab, dass die Firma ABBYY ein solches Produkt auf dem Markt hat.
Die Erwartungen unsererseits waren eher mäßig.

Die Installation war schnell erledigt, die Bedienung des Programms ist einfach, die Bedeutung der einzelnen Schaltflächen war von früheren Versionen bekannt. Gescannt werden muss üblicherweise in hoher Auflösung (3 – 400 dpi).
Wie üblich ist das Ergebnis abhängig von der Qualität der Vorlage. Wir testeten mit zwei verschiedenen Qualitäten: Einmal die Hefte der Badischen Heimat der 1920er Jahre, dann die der 1930er Jahre. Erstere sind auf holzhaltigem, inzwischen deutlich gegilbtem Papier gedruckt, die Buchstaben an manchen Stellen scharf, mit dünnem Schaft. Letztere haben besseres, will sagen glatteres und helleres Papier, die Buchstaben geben ein sattes Bild mit sehr gutem Kontrast.
Die Erinnerung an eigene, kindliche Leseversuche in der Frakturschrift ist deutlich: Der „Schild des Glaubens“, das Religionsbuch der Volksschulklassen, war bis in die 1950er Jahre immer noch in Fraktur gedruckt. Hieß das Wort nun Kinder oder Rinder? Da es Rinder Israel schlechterdings nicht gab (warum eigentlich nicht? Die waren doch auch Viehhirten!), musste es wohl „Kinder Israel“ heißen. Auch die Software entscheidet sich meistens nur für eine Version. Bei B und V liegt der Fall ähnlich, hier liest das geübte Auge einfach weiter und erschließt das Wort aus seinem Gesamtbild. Die Software hat Probleme.

Ansonsten ist das Ergebnis überraschend gut. Natürlich ist man bei solchen Texten weit entfernt von der Automatisierung bei modernen Schrifttypen. Aber die Fehlerquote hält sich bei guten Vorlagen – wenn man von B und V und von A und K und R absieht – in Grenzen. Ein Buch über den Rhein wird da eben als Vuch über den Rhein gelesen. Immer wieder kehrende gleiche Worte kann man über Suchen und Ersetzen korrigieren. Von den Kleinbuchstaben wird allenfalls das Binnen-s mit dem f verwechselt.

Ein eingescannter Text kann auf diese Weise zu vielleicht 97 – 99% nach dem Schriftbild auf dem Bildschirm korrigiert werden, nur ganz selten ist ein Blick ins Original notwendig. Der Einsatz der Rechtschreibkorrektur wird schnell wieder verworfen, da das Korrekturfenster zu klein ist und die Sorte der eingescannten Texte zu viele Wörter enthält, die die Rechtschreibkorrektur gar nicht kennt.

OCR-Software zur Erkennung von Frakturschrift
Fensteraufteilung in der Software: Links die Seitenübersicht, daneben (verkleinert) die Einzelseite, rechts der erkannte Text, unten der Originaltext vergrößert. Im Textfenster blau eingezeichnet die Lesefehler, deren tatsächliche Zahl allerdings weit geringer ist als hier angezeigt.

Es empfiehlt sich allerdings, schon im Programmfenster der Software und nicht erst in der Word-Datei zu korrigieren, zumal dessen Rechtschreibhilfe letztlich sich doch als völlig unzulänglich erweist. Durch Vergrößern des Textfensters kann man sich bequem Originaltext und eingelesenen Text nebeneinander holen. Dann kann man auch schnell (im Text anklicken, im Originaltext lesen) exotische Ortsnamen, Lesefehler und Interpretationsprobleme korrigieren. Dort allerdings wird mehr als Fehler angezeigt als tatsächlich fehlerhaft ist – auch das ein Problem der eingebauten Rechtschreibkontrolle. Zum einfacheren Arbeiten lassen sich das Textfenster vergrößern und die Schriftgröße einstellen.
Feste Werte für den Scanprozess lassen sich nicht angeben. Die reine Erkennungsgeschwindigkeit ist geringfügig geringer als bei Texten in modernen Typen, hält sich aber noch in einem Rahmen, den man für den einen oder anderen Atemzug noch braucht. Bilder in Vorlagen dieses Alters sollten besser durch Setzen der Rahmen ausgeklammert werden, sonst werden Zeichen erkannt, die nichts mit dem Text zu tun haben.

Fehlerquote? Auch dafür gibt es keinen Wert, das richtet sich nach der Häufigkeit der Worte mit B oder R. Sie bleibt aber deutlich unter 5%.

Das Preis-Leistungs-Verhältnis ist alternativlos: Die Software-Version für 10.000 Seiten kostet knapp über 1000 €. Das ist erst mal viel Geld, relativiert sich jedoch, wenn man das auf 10 ct. je Seite umrechnet. Von Hand abschreiben (lassen) ist allemal um ein Vielfaches teurer. Die Start-Version kann dann mit weiteren Modulen aufgestockt werden, dann kosten weitere 10.000 oder 25.000 Seiten 6,5 bzw. 4 ct. In der Basis-Version mit 408 € kostet die Einzelseite allerdings schon 16 ct., der zweite Nachteil ist, dass diese Version nicht aufgestockt werden kann, wenn das Kontingent von 2500 Seiten verbraucht ist. Besonders von Nachteil für kleine Vereine, die erst mal eher zögernd anfangen wollen.

Unser Urteil: Konkurrenzlos und empfehlenswert. Nacharbeiten ist in jedem Fall notwendig.

Das Produkt: ABBYY Fine Reader XIX für Frakturschrift

Bild: Schwetzingen, Zirkelbau
Badische Heimat aktuell
 
Aktuelles aus dem Verein
Nachrichten aus dem Land - tagesaktuell veröffentlicht bei Landeskunde online
Badische Heimat aktiv
 

Landeskunde online
Badische Heimat aktuell
Das Online-Magazin
Dossiers
Denkmalschutzpreis
Straße der Industriekultur
Kulturerbe des Landes
Buchbesprechungen
Digitale Reprints
Texte
Forschungen und Darstellungen
Themen und Regionen
Bildwelten

 
Mit freundlicher Unterstützung durch
Technik

Den kostenlosen Real-Player erhalten Sie bei www.real.com

wmv-Dateien spielen Sie mit dem in Windows enthaltenen Media-Player oder anderen Programmen ab.

 
Praxis

Digitale Reprints

 
   

Startseite | Kontakt | Impressum | © Badische Heimat 2008