netbib weblog

Der kurioese Bibliotheksbote worinnen zu finden sind allerley newe Zeitungen

Freie Inhalte aus dem Staubsauger-Scanner

Digitales hat hier in Alexandria offensichtlich einen hohen Stellenwert, denn selbst in der Fuehrung fuer die Touristen weist die Bibliotheca Alexandrina auf ihre Beteiligung an Carnegie Mellons Million Book Project (MBP) hin. Den Besuchern wird ein aufwaendiges Digitalisat der Description de l’Egypte gezeigt, und im Lesesaal ist die hiesige Filiale des Internet Archive hinter einer grossen Glasfront mit seinen zahlreichen Serverracks zu bewundern. In einer Dauerpraesentation auf grossen Videoschirmen koennen dort archivierte Websites und arabische Fernsehprogramme vergangener Zeiten betrachtet werden.

Fuer diejenigen, die Brewster Kahles Projekt fuer den „universellen Zugriff auf das Menschheitswissen“ noch nicht kennen: Er will alle elektronischen Medien ohne jede Barriere online zugaenglich archivieren. Zur Sicherung der Daten soll eine quasi globale Redundanz beitragen. Auf jedem Kontinent soll das Archiv je einmal eins zu eins gespiegelt werden. Die erste IA-Filiale dieser Art steht in Afrika, hier in der Bibliotheca. (Uebrigens berichtet netbib ziemlich regelmaessig ueber Kahle und das Internet Archive.)
Aber zurueck zu den digitalisierten Druckwerken. Rami Rouchdi, der Leiter des Digital Laboratory, war so freundlich mir alles zu zeigen und sich Loecher in den Bauch fragen zu lassen. (Fotos und ein kleiner Videoschnipsel folgen, sobald ich ein paar technische Problemchen mit dem Hochladen geloest habe.) Im Lab arbeiten ca. 60 Mitarbeiter fast rund um die Uhr und sieben Tage die Woche daran, das Schriftgut vor allem der arabischen Welt zu digitalisieren. Erklaertes Ziel ist es, das gesamte digitalisierte Material frei online zugaenglich zu machen, mittels einer auf Java basierenden, hier vor Ort entwickelten Repository-Software, die demnaechst ebenfalls unter einer freien Lizenz zur Verfuegung gestellt werden soll. Auf organisatorischer Ebene war ich ueberrascht davon, dass MBP ueberhaupt mehr als ein gemeinsamer Markenname ist. Soeben lieferte beispielsweis ein indischer Projektteilnehmer die Bilddateien von einigen hundert Buechern in arabischer Schrift, damit diese mittels der hier verwendeten und (gemeinsam mit einem Anbieter proprietaerer Software) permanent weiterentwickelten OCR-Spezialsoftware zuende bearbeitet werden koennen.

Rami Rouchdi betont wie arbeitsintensiv es ist, jeweils die rechtlichen Rahmenbedingung fuer die Freigabe der Digitalisate zu ermitteln. Einige Probleme sind in der Bibliothekswelt eben ueberall anzutreffen, ob nun an der Spree oder am Nil. Beim technischen Scanvorgang wird grosser Wert auf die Qualitaet im Detail gelegt; hier sieht man auch den groessten Unterschied zu Googles Scanprojekt.

Was die technischen Details selbst betrifft war ich ueberrascht, wie weitgehend identisch die Vorgehensweise hier mit dem des Goettinger Digitalisierungszentrums (GDZ) ist, das zu besuchen ich zufaelligerweise erst vor ein paar Wochen die Gelegenheit hatte. So wird beispielsweise auch hier wenn moeglich auf Graustufen- oder gar Farbscan verzichtet, sondern in schwarz/weiss gescannt, das Digitalisat nachtraeglich sehr effektiv gesaeubert und fuer die Bilddarstellung mit automatisch generierten Grauwerten augenfreundlich gemacht. Anders als in Goettingen wird neben den ueblichen zweischichtigen PDFs mit Bild und punktgenau darunterliegendem Text im Workflow der Bibliotheca parallel jeweils auch eine DjVu-Ausgabe erzeugt. Dieses Format bietet eine unuebertroffen hohe Kompressionsrate bei der (verlustbehafteten) Grafikspeicherung.

Bevor dieser Beitrag hier lengthy wird schliesse ich. Das Video, das noch kommt, wird (wenn es denn, In sh’allah, mit dem Upload funktioniert) den DIN A 0-Scanner der Marke „Cruse“ in Aktion zeigen. Wie der Tonspur des Videos zu entnehmen sein wird ist das Ding so laut wie ein Staubsauger, da das zu digitalisierende Material, meist Landkarten, nicht mit einer Glasplatte fixiert sondern auf eine perforierte Stahlplatte festgesaugt wird. Wer haette das gedacht? Der Cruse ist uebrigens nicht nur ein Schauobjekt fuer leicht zu beeindruckende Praktikanten, sondern wird mehrmals in der Woche eingesetzt.

Oh, und noch etwas, genau passend zum Thema: Richard Akermans Konferenz-Blogging von der ECDL 2006 gestern und heute ist sehr lesenswert!

Autor: Lambert Heller

Librarian 2.0, interested in knowledge management, publishing and communities on the web. Likes Open Access / Open Data. Hannover, Germany.

Ein Kommentar

  1. Hallo Lambert,

    danke für den tollen Bericht. Da bleibt mir nur zu hoffen, dass die Bewerbung von Alexandria zur Wikimania 2007 erfolgreich wird, damit ich einen gute Möglichkeit habe mir das dort auch bald anzuschauen 😉

    Ich freu mich schon auf die Videos.