netbib weblog

Der kurioese Bibliotheksbote worinnen zu finden sind allerley newe Zeitungen

Datenqualität bei google-Digitalisaten

Dieser Bericht des Kollegen Bernd Martin Rohde lief zwar schon über die Inetbib-Liste, aber ist sicher auch für andere KollegInnen interessant… Schönen Dank!

Fall 1:

Im Alten Alphabetischen Katalog der ZB Bern findet sich folgende Titelaufnahme (Image, Katalog benötigt JAVA im Browser):
http://digibiblio.unibe.ch/Chopin/Engine/DirektSprung/DirectView.asp?KatalogID=1&RecordNum=0&ImgNum=275657

Die Firma, die den Auftrag hatte, diesen zugegebenermassen sehr eigenwilligen Katalog zu rekatalogisieren, hat, quasi im Sinne das Beste daraus zu machen, folgenden Satz erstellt:

LDR -----nam--22-----2u-4500 
008 080530nuuuu----xx------------00----ger-- 
019 |a MedeaB400: 00275657 |5 rekat-ubbe 
040 |a SzZuIDS BS/BE B400 
100 |a Fluri, Adolf |d 1865-1930 
245 |a <<Ein>> sonderbarer Schulmeister u. A. |c Adolf Fluri 
260 |a [S.l.] |c [s.a.] 
300 |a 1 Bd. 
500 |a Sonderdruck 
852 |b B400 |c 400O3 |h ZB H var 3515 |p BM1610311 |4 Bern UB ZB |5 Magazin (O3) 
SYS 004511096

Das ist nicht schlecht, für das, was der Firma als Quelle vorlag, aber leider haben da eben frühere Berufskollegen/innen im Haus bei der Erstellung der Karte sagen wir mal ’sehr spartanisch‘ katalogisiert. Tatsächlich handelt es sich um ein Separata aus den Blättern für bernische Geschichte, Kunst und Heimatkunde, mit drei Beiträgen des Autors, von denen der erste auf der Karte konkret genannt ist und auf die anderen beiden mit „u.A.“ ‚hingewiesen‘ wird – nur durch Autopsie befriedigend herauszufinden. Insofern ist der Eintrag im Zettelkatalog völlig unzureichend und der daraus entstandene Satz im IDS Basel/Bern ist es leider auch – wobei letzterer ja von mir jetzt bearbeitet werden kann und er danach doch deutlich anders aussehen wird.

Was findet man bei Google Books: http://books.google.ch/books?id=5LfoSAAACAAJ

Google Books krallt sich einfach ohne weitere Kontrolle Datensätze aus unseren Katalogen. Darunter befindet sich dann eben auch einiges, was eigentlich erst einer Nachbearbeitung bedarf (siehe auch das Katalogisierungsniveau 2 im Leader, das einen Hinweis darauf geben könnte…), das aber womöglich dann nicht bei Google Books nachgeführt wird(?).

Fall 2:

Den muss ich quasi persönlich nehmen.

LDR -----nam--22-----4u-4500 
008 040303r20042001sz-------m----00----ger-- 
040 |a SzZuIDS BS/BE B400 
072 |a gg 
100 |a Rohde, Bernd Martin 
245 |a Landkartendrucke vor 1850 |b die Altkartendatenbank und die Einbeziehung ausgewählter baden-württembergischer Bibliotheken |c von Bernd Martin Rohde 
250 |a Unveränd. Neudr. 
260 |a [Bern] |b [s.n.] |c 2004 
300 |a 92 Bl. |b Ill. 
534 |c Stuttgart : [s.n.], 2001 
502 |a Diplomarbeit, FH Stuttgart - Hochschule für Bibliotheks- und Informationswesen, 2001 
906 |a Hochschulschrift = Thèse/Mémoire 
852 |b B400 |c 400M2 |h ZB RAB 5869 |p BM0668657 |4 Bern UB ZB |5 Magazin (U2) 
SYS 003172773

(Anm.: Es handelt sich um einen Ausdruck aus einer pdf-Neugenerierung aus dem Jahre 2004, die ansonsten komplett identisch mit der Originalausgabe von 2001 ist – die 2001er Ausgabe findet sich in dem einen oder anderen Verbundkatalog in Deutschland).

Man beachte, dass die gedruckte Ausgabe im Kollationsvermerk „92 Bl.“ stehen hat – ergibt sich dadurch, wenn aus einem Textverarbeitungsprogramm einseitig ausgedruckt und das dann zusammengebunden wird. Ich habe die Datei in pdf umgewandelt und auf meine private Website gestellt. Als elektronisches Dokument habe ich natürlich nicht die einseitig bedruckte Druckausgabe simuliert, daher sind es dann hier tatsächlich 92 S. Es wäre ja doch eine Idiotie, ein pdf-Dokument ins WWW zu stellen, bei dem jede zweite Seite blank wäre und das dann künstlich auf die doppelte Seitenanzahl aufgebläht wäre.

Das findet man bei Google Books: http://books.google.ch/books?id=6mXhHAAACAAJ&dq

Dort steht in der bibliographischen Beschreibung: „184 S.“ Hier hat Google sich zwar an einem wohl an sich korrekten Datensatz aus einem Bibliothekskatalog gelabt, jedoch fand bei der Übernahme eine wunderliche Abänderung von „92 Bl.“ auf „184 S.“ statt! Dies führt aber eben leider auch zu einer Verfälschung.
Die Quelle ist ja übrigens unten angeben: BLB Karlsruhe (bzw. SWB). Und sucht man den Datensatz dort im Katalog auf, steht denn auch tatsächlich dort „92 Bl.“! Google Books sollte uns doch bitte mit solchen hirnrissigen Verschlimmbesserungen von bibliographischen Angaben verschonen!

Fazit: Google Books sammelt haufenweise Datensätze, deren Qualität entweder aus der Vorlage her fragwürdig ist – weil rekatalogisiert und noch nicht nachbearbeitet -, oder, was das grössere Übel darstellt, nimmt an korrekt vorliegenden Datensätzen bei der Übernahme Verschlimmbesserungen vor, die die Angaben verfälschen.

Es wurde schon angenommen, dass die Übernahme von bibliographischen Daten aus Bibliothekskatalogen durch Google zu einer Qualitätssteigerung führen wird. Ich zweifle das doch sehr an! Es scheint Google Books nur darum zu gehen, hauptsächlich eine Art parallelen WorldCat aufzubauen, bei dem a) von möglichst vielen Werken Digitalisate vorliegen und b) der möglichst das Angebot von Konkurrenten ausschalten soll (vielleicht nicht nur Amazon, sondern auch WorldCat?). Dass man das über Masse statt Klasse erreichen will, zeigen schon die Digitalisate, bei denen die Finger der Bearbeitenden zu sehen sind. Die bibliographischen Beschreibungen bei Google Books werden in der Masse meineserachtens genauso ein Gewurschtel bleiben, wie man aus meinen Beispielen von Übernahmen aus Bibliothekskatalogen sehen kann.

Mehr noch: Google Books bietet mit „Zitat exportieren“ die Übernahme dieser Datensätze in Literaturverwaltungsprogramme an. Von dort können sie dann bequem (kann unter Umständen heissen, ohne eine weitere Kontrolle auf ihre Richtigkeit durch den Übernehmenden) in das Literaturverzeichnis von Hochschulschriften, wie Bachelor-, Masterarbeiten, Dissertationen und Habilitationen gelangen. Auch wenn diese Leute dann nicht wie manche Politiker (oder ähnliches…) auf das korrekte Zitieren verzichten, so verschandeln sie sich womöglich durch die ach so bequeme Übernahme von durch Google Books korrumpierten Datensätzen ihr Literaturverzeichnis. Im Fall 2 beispielsweise wäre man geneigt, den Angaben dort zu vertrauen, da als ursprüngliche Quelle ein Bibliothekskatalog angeben ist, merkt möglicherweise jedoch nicht, dass Google Books von sich aus eine Verfälschung vorgenommen hat.

Man könnte es etwas drastisch auch so formulieren: Eigentlich sollten unsere Bibliotheken/Verbünde Google dafür verklagen, dass durch Google Books verfälschte Datensätze als ihre ausgewiesen werden!

Bernd Martin Rohde

Autor: Edlef Stabenau

Ich bin Bibliothekar

Ein Kommentar

  1. Google Books wegen falscher Metadaten kritisieren? Da gibt es ja echt viel zu kritisieren, aber das ist doch Korinthenkackerei. Vor allem, wenn man sich die Beispiele hier anschaut, die spezieller nicht sein könnten. Ich glaube kaum, daß irgendjemand die Exportieren-Funktion für diese Dinger jemals benutzt hat, noch irgendwann einmal benutzen wird!
    Überhaupt: Wer Google Books Metadaten benutzt, ist doch selbst Schuld. Bei allen größeren Projekten, wie auch z.B. archive.org, taugen die Metadaten meist nix. Das wird wohl auch so schnell nicht besser werden. Finde ich aber auch nicht so schlimm. Die sollen in erster Linie Bücher scannen und verfügbar machen. Und dafür reichen die Metadaten meist. Außer bei periodisch erscheinenden Veröffentlichungen. Da muß man oft obskure Suchwege einschlagen. Darum sollten die sich mal lieber kümmern.
    Und was die schönen Hände und andere ‚Fehler‘ angeht, die man öfter mal sieht. Das ist Kunst: http://theartofgooglebooks.tumblr.com. 😉