Schnellsuche:

Die Digitalisierung

der 4. Auflage des Meyers Konversations-Lexikon

Initiative
Christian Aschoff
Christian Aschoff

Im Herbst 2001 suchte der Ingenieur Christian Aschoff in Meyers Konversationslexikon nach Informationen zu 'Triops'. Ihm fiel die 'Schönheit' des Lexikons mit seinen Farbtafeln und seiner heute seltsam anmutenden Sprache auf. Allerdings war das Recherchieren mühsam, da das Lexikon viele Verweise auf andere Artikel hat. Am Ende lag ein ganzer Berg von Bänden auf dem Schreibtisch. In den folgenden Monaten entwickelte er den Plan, das Lexikon in einer Internetfassung herauszubringen. Denn HTML als Sprache mit Hyperlinks ist geradezu prädestiniert für Lexika.

Die Überführung eines historischen Lexikons in Daten, die via EDV verarbeitet werden können, bietet etliche Vorteile. So muss bei der Benutzung eines gedruckten Lexikons das Stichwort bekannt sein, unter dem die gesuchte Information zu finden ist. Mit einer Volltextsuche per Computer dagegen können auch Informationen gefunden werden, wenn das Stichwort nicht bekannt ist (z. B. die Autorin des Romans 'Frankenstein'). Es ist sogar eine semantische Aufnahme des Lexikons denkbar, damit Suchanfragen wie 'Alle Artikel betreffend Personen bei denen Virilstimme vorkommt' durchführbar werden.

Das Meyers in der 4. Auflage bot sich für die Digitalisierung an, da die Urheberrechte schon lange ausgelaufen waren. Dennoch wurde bei Projektbeginn mit dem Meyers-Verlag (Bibliographisches Institut & F. A. Brockhaus AG) Rücksprache gehalten, wo man das Projekt sehr begrüßte.

Jetzt fehlte nur noch ein Exemplar, das für die Digitalisierung verwendet werden konnte. Das geerbte Lexikon von Christian Aschoff kam dafür nicht in Frage, denn die Bände mussten für das Vorhaben in einzelne Seiten zerlegt werden. Freundlicherweise stellte das Fabri Antiquariat in Ulm eine Ausgabe zur Verfügung, die aufgrund ihres schlechten Erhaltungsgrades nicht mehr verkaufbar war.

Das Einscannen

Zunächst mussten die Bände zerlegt werden - die ersten drei noch aufwändig von Hand, also Einband heraustrennen, alle Klammern auf der Rückseite aufbiegen und innen herausziehen, den hartgewordenen Kleber entfernen etc. Später, als die "Angst vor der Zerstörung alter Werke" ein wenig gewichen war, wurden die Buchrücken einfach abgeschlagen.

Der erste Schritt auf dem Weg einer Buchseite zu einem durchsuchbaren Text ist das Scannen der Seite, also die optische Übertragung als Bild in den Computer. Die Seiten des Meyers wurden mit 600 dpi Auflösung in Graustufen gescannt. Normalerweise ist für eine spätere Erkennung eine Auflösung von 300 dpi in schwarzweiß ausreichend, bei dem Fraktursatz mit seinen teilweise leicht verwechselbaren Lettern ist eine höhere Auflösung vorteilhaft. Drei Bände wurden dabei in Heimarbeit gescannt - meist in kleinen Happen während des Frühstücks. 13 Bände wurden von der Firma German Dataservice mit einem Einzugsscanner in Bilder umgesetzt, bezahlt vom Verlag Bibliographisches Institut und F. A. Brockhaus AG, dem an dieser Stelle noch einmal für seine Unterstützung gedankt werden soll. Den Indexband (Band 17, gehört aber zur 3. Auflage) hat freundlicherweise Lars Aronsson vom Runeberg Projekt gescannt, der Supplementband 18 wurde wiederum von German Dataservice bearbeitet und privat finanziert.

Als nächstes mussten die jetzt als Bilder vorliegenden Seiten geradegerückt werden, denn oft waren die Zeilen um ca. 0,3-2,5° schief - was das Erkennen der Buchstaben durch den Computer erschwert hätte. Dann wurden alle Scanbilder an den Rändern manuell beschnitten.

Schließlich wurden die Seiten in die OCR (Optical Character Recognition), in diesem Projekt Abbyys Finereader, importiert. In einem ersten Durchlauf wurde das Layout der Seite analysiert (was ist Text, was sind Bilder, wie ist die Reihenfolge), in einem zweiten Schritt manuell geprüft und korrigiert. Dann erst kam die tatsächliche Erkennung, wobei auf jeder Seite die Kopfzeile und die ersten paar Sätze als Training für die OCR dienten; der Rest der Seite wurde dann automatisch erkannt.

Für die Verwendung im Internet wurden die Bilddateien der Seiten auf eine horizontale Kantenlänge von 800 Bildpunkten (ca. 150 dpi) verkleinert, damit die Bilder nicht aus zu großen Dateien bestehen, aber dennoch gut lesbar sind.

Als letzter Schritt konnten die 16000 Textseiten in die Datenbank importiert werden, die der Internetversion als Grundlage dient.

Die Bildtafeln und Karten werden wegen ihrer Größe von der Papyrologie der Universität Trier eingescannt.

Die Korrektur

Nach diesen Schritten enthielt der Computer zwar eine Menge Bilder und Texte, allerdings waren diese voller Fehler und kaum sinnvoll durchsuchbar. Denn auch wenn eine moderne OCR bei heutigen Schrifttypen eine Erkennungsrate von ca 99,8% erreicht - bei Fraktur scheitert sie. Über die 16.000 Seiten summierten sich die Erkennungsfehler auf über 2 Millionen. Das lag an den ähnlichen Lettern des Fraktursatzes (z. B. f vs. s oder I vs. J), der aus heutiger Sicht schlechten Druckqualität sowie an durchscheinenden Buchstaben von der Rückseite.

Die sogenannten 'Rohtexte' mussten daher Korrektur gelesen werden, häufig im direkten Vergleich zum Digitalisat, da die Schreibweise vieler Wörter, speziell der Schlagwörter, nicht aus dem Text alleine ersichtlich war. Für eine Einzelperson wäre das eine kaum zu bewältigende Aufgabe gewesen. Die Idee war daher, die Arbeit mit einem kollaborativen Korrektursystem zu bewältigen: Jeder, der Spaß an der Sache hat, kann über das Internet die einzelnen Seiten 'ausklinken' und zu Hause korrigieren. Dadurch sind sie im System für andere Korrektoren gesperrt, stehen aber für die Allgemeinheit zum Lesen weiterhin zur Verfügung. Nach der Verbesserung werden sie wieder 'eingeklinkt' und ersetzen den fehlerhaften Text.

Um den Zustand der Seiten verfolgen zu können, wurden drei 'Stati' eingeführt. 'Unkorrigiert' ist der Text, wie er von der OCR kommt. 'Normal' ist ein erster Korrekturlauf, bei dem unklare Eigennamen außer Acht gelassen werden (stellenweise läßt sich die Schreibweise eines Eigennamens nicht aus dem Digitalisat ersehen und muß recherchiert werden). 'Fein' ist dann der Status, bei dem die Seite komplett fertig ist. Der letzte Status, 'geTagged', bringt Steuerinformationen wie z. B. Artikelbeginn und -ende hinzu.

Das System wurde mit Java-Servlets unter Apache Tomcat realisiert, die auf eine MySQL Datenbank zurückgreifen. Den Server (Dual-Prozessor unter Linux) stellte freundlicherweise die Universität Ulm zur Verfügung.

Mit der Zeit hatten sich einige Unzulänglichkeiten des Meyers-Korrektursystems herausgestellt. Die Version 2 wurde daher 2005 komplett neu entworfen - sie bot Besuchern eine Volltextsuche auf der Basis von Apache Lucene und dadurch qualitativ bessere Suchergebnisse sowie den Korrektoren bessere 'Massenverarbeitung' der Seitentexte.

Die aktuell vorliegende Version 3 wurde 2007 wieder komplett neu entworfen. Einerseits hatte sich gezeigt, daß die Zeichencodierung ISO-Latin-1 nicht den Anforderungen einer Abbildung eines Lexikons genügt, andererseits mußte eine Möglichkeit gefunden werden, geTaggte (XML-Seiten) sinnvoll ausgeben zu können. Das System wurde dazu auf UTF-8 umgestellt, das Layout auf XHTML. Gleichzeitig wurden etliche selbst geschriebene Komponenten verworfen und durch Open-Source-Komponenten ersetzt. Die aktuelle Architektur (siehe Technik auf der linken Seite) trennt Darstellung und Inhalt vollständig und ist leicht wartbar.

Für die Zukunft sind eine Wiedergabe der Texte in Anlehnung an das Original-Layout (Sperr- und Fettschrift, Textabbildungen etc.), eine Hypertextverschlagwortung und eventuell die semantische Erfassung des Volltextes für erweiterte Suchmöglichkeiten geplant.

Trennlinie

Wenn Sie also nun in dem alten Lexikon herumschmökern, bedenken Sie die viele Arbeit, die von Hunderten von Autoren, Verlagsmitarbeitern, Schriftsetzern, Buchbindern und Handlungsreisenden im 19. Jahrhundert geleistet wurde, um dieses Wissen zusammenzutragen und zu verbreiten, und nicht zuletzt die geschätzten 10 Arbeitsjahre, die ehrenamtliche Freunde alter Bücher einsetzen, um Ihnen den freien Zugang zu diesem Wissen des 19. Jahrhunderts zu ermöglichen.