|
Digitales Publizieren
Thorbogen oder Chorbogen?
Ein Praxisbericht über den
Einsatz von OCR-Software zur Erkennung von Frakturschrift
Das Archiv der Badischen Heimat enthält 89 Jahrgänge
heimat- und landeskundlicher Literatur, viele Jahrgänge
sind doppelt und dreifach besetzt – vor dem 2. Weltkrieg „Mein
Heimatland“ als Zeitschrift, die „Badische Heimat“ als
regional konzentrierter Jahresband, und schließlich
das Ekkhart-Jahrbuch. Die Bände vor 1943 sind allesamt
in Frakturschrift gedruckt, was bei einzelnen, besonders
bedeutenden und grundlegenden Artikeln die Veröffentlichung
im Internet allenfalls als Bild-Datei erlaubte. Für
ein Einscannen stand bisher keine Software zur Verfügung,
die die Frakturschrift in lesbare ASCII-Zeichen umgewandelt
hätte.
Zum 100-jährigen Jubiläum der „Badischen
Heimat“ wuchs das Interesse, doch Artikel aus dem älteren
Bestand neu zu veröffentlichen, um die Kompetenz zu
demonstrieren, die der Vereins seit seiner Gründung
auf seinen Arbeitsgebieten hat. Eine kurze Recherche im Internet
ergab, dass die Firma ABBYY ein solches Produkt auf dem Markt
hat.
Die Erwartungen unsererseits waren eher mäßig.
Die Installation war schnell erledigt, die Bedienung des
Programms ist einfach, die Bedeutung der einzelnen Schaltflächen
war von früheren Versionen bekannt. Gescannt werden
muss üblicherweise in hoher Auflösung (3 – 400
dpi).
Wie üblich ist das Ergebnis abhängig von der Qualität
der Vorlage. Wir testeten mit zwei verschiedenen Qualitäten:
Einmal die Hefte der Badischen Heimat der 1920er Jahre, dann
die der 1930er Jahre. Erstere sind auf holzhaltigem, inzwischen
deutlich gegilbtem Papier gedruckt, die Buchstaben an manchen
Stellen scharf, mit dünnem Schaft. Letztere haben besseres,
will sagen glatteres und helleres Papier, die Buchstaben
geben ein sattes Bild mit sehr gutem Kontrast.
Die Erinnerung an eigene, kindliche Leseversuche in der
Frakturschrift ist deutlich: Der „Schild des Glaubens“, das
Religionsbuch der Volksschulklassen, war bis in die 1950er
Jahre immer noch in Fraktur gedruckt. Hieß das Wort
nun Kinder oder Rinder? Da es Rinder Israel schlechterdings
nicht gab (warum eigentlich nicht? Die waren doch auch Viehhirten!),
musste es wohl „Kinder Israel“ heißen.
Auch die Software entscheidet sich meistens nur für
eine Version. Bei B und V liegt der Fall ähnlich, hier
liest das geübte Auge einfach weiter und erschließt
das Wort aus seinem Gesamtbild. Die Software hat Probleme.
Ansonsten ist das Ergebnis überraschend
gut. Natürlich
ist man bei solchen Texten weit entfernt von der Automatisierung
bei modernen Schrifttypen. Aber die Fehlerquote hält
sich bei guten Vorlagen – wenn man von B und
V und von A und K und R absieht – in Grenzen.
Ein Buch über den Rhein wird da eben als Vuch über
den Rhein gelesen. Immer wieder kehrende gleiche Worte
kann man über Suchen und Ersetzen korrigieren. Von
den Kleinbuchstaben wird allenfalls das Binnen-s mit
dem
f verwechselt.
Ein eingescannter Text kann auf diese Weise zu vielleicht
97 – 99% nach dem Schriftbild auf dem Bildschirm korrigiert
werden, nur ganz selten ist ein Blick ins Original notwendig.
Der Einsatz der Rechtschreibkorrektur wird schnell wieder
verworfen, da das Korrekturfenster zu klein ist und die Sorte
der eingescannten Texte zu viele Wörter enthält,
die die Rechtschreibkorrektur gar nicht kennt.
Fensteraufteilung in der Software: Links die Seitenübersicht,
daneben (verkleinert) die Einzelseite, rechts der erkannte
Text, unten der Originaltext vergrößert. Im
Textfenster blau eingezeichnet die Lesefehler, deren tatsächliche
Zahl allerdings
weit geringer ist als hier angezeigt.
Es empfiehlt sich allerdings, schon
im Programmfenster der Software und nicht
erst
in der Word-Datei
zu korrigieren, zumal dessen Rechtschreibhilfe letztlich
sich doch als völlig unzulänglich erweist. Durch Vergrößern
des
Textfensters kann man sich bequem Originaltext und eingelesenen
Text nebeneinander holen. Dann kann man auch schnell (im
Text anklicken, im Originaltext lesen) exotische Ortsnamen,
Lesefehler und Interpretationsprobleme
korrigieren. Dort allerdings wird mehr als Fehler angezeigt
als tatsächlich fehlerhaft
ist – auch das ein Problem der eingebauten
Rechtschreibkontrolle. Zum einfacheren Arbeiten
lassen sich das Textfenster vergrößern
und die Schriftgröße einstellen.
Feste Werte für den Scanprozess lassen sich nicht
angeben. Die reine Erkennungsgeschwindigkeit ist geringfügig
geringer als bei Texten in modernen Typen, hält
sich aber noch in einem Rahmen, den man für
den einen oder anderen Atemzug noch braucht.
Bilder in Vorlagen dieses Alters sollten besser
durch Setzen der Rahmen ausgeklammert werden, sonst
werden Zeichen erkannt, die nichts mit dem Text
zu tun haben.
Fehlerquote? Auch dafür gibt es keinen Wert, das richtet
sich nach der Häufigkeit der Worte mit B oder R. Sie bleibt
aber deutlich unter 5%.
Das Preis-Leistungs-Verhältnis ist alternativlos: Die
Software-Version für 10.000 Seiten kostet knapp über
1000 €. Das ist erst mal viel Geld, relativiert sich
jedoch, wenn man das auf 10 ct. je Seite umrechnet. Von Hand
abschreiben (lassen) ist allemal um ein Vielfaches teurer.
Die Start-Version kann dann mit weiteren Modulen aufgestockt
werden, dann kosten weitere 10.000 oder 25.000 Seiten 6,5
bzw. 4 ct. In der Basis-Version mit 408 € kostet die
Einzelseite allerdings schon 16 ct., der zweite Nachteil
ist, dass diese Version nicht aufgestockt werden kann, wenn
das Kontingent von 2500 Seiten verbraucht ist. Besonders
von Nachteil für kleine Vereine, die erst mal eher zögernd
anfangen wollen.
Unser Urteil: Konkurrenzlos und empfehlenswert.
Nacharbeiten ist in jedem Fall notwendig.
Das Produkt: ABBYY
Fine Reader XIX für Frakturschrift
|