netbib weblog

Der kurioese Bibliotheksbote worinnen zu finden sind allerley newe Zeitungen

Library of Congress gibt 25 Mio. bibliographische Datensätze frei

Die Library of Congress hat am 16. Mai 25 Mio. digitale Katalogsätze zum Download unter loc.gov/cds/products/marcDist.php frei gegeben. Siehe hierzu auch die Pressemitteilung.

Was freigegeben genau bedeutet müsste noch genauer durch eine Spezifizierung der Lizenz deutlich gemacht werden. Siehe hierzu auch diesen Tweet: https://twitter.com/fhuysmans/status/864824997960966147 Die MARC-Daten liegen ab dem Jahr 1968 bis zum Jahr 2014 kostenfrei vor, weitere sind derzeit nur gegen Entgelt zu bekommen.

Aus bibliothekarischer Sicht ist natürlich auch interessant, wie sich diese erste Freigabe von Daten entwickeln wird. Wird es eine einmalige Aktivität der LoC bleiben, oder werden weitere Freigaben von aktuellen Daten folgen? Wie werden sich die kommerziellen MARC Distribution Services weiter entwickeln? Diese Daten wären für vielerlei Nachnutzung wichtig, z.B. für den Einsatz in Bibliographien. Gut denkbar sind aber auch Approvalplanservices, die auf den Daten aufsetzen. Derzeit sind Fachreferenten ja noch auf die Durchsicht der gedruckten ABPR angewiesen. Außerdem wird man auch für Fachinformationsdienste spezifische Nutzungen entwickeln können, wie z.B. durch Nachnutzung von fachspezifischen Datenbereichen etc.

Die Library of Congress erhofft sich die weite Nachnutzung ihrer Daten auch durch die Durchführung von Hacking-Workshops. Diese auch in Deutschland durch Coding Da Vinci bekannten Workshops sind sicherlich eine interessante Möglichkeit zum Communitybuilding.

Wer sich die knapp 9 GB an bibliographischen Daten heruntergeladen hat und damit arbeiten möchte, kann sich ein von der UB Tübingen entwickeltes Tool herunterladen, das auf GitHub bereitliegt. Damit kann man die Datenmengen fachlich schnell durchsuchen und auch Records herauszuschreiben. Bei der fachlichen Suche setzt das Tool an den LoC Subecct Headings an. Der Durchsatz ist sehr gut, er liegt nach ersten Tests bei knapp unter 10 Mio. Records pro Minute.