netbib weblog

Der kurioese Bibliotheksbote worinnen zu finden sind allerley newe Zeitungen

Taxonomie entlaufen! – Zehntausend Schlagworte für die letzten beiden Jahrgänge die New York Times als OPML-Datei

[Kleine Korrektur, 19.10.07: Ich hatte mich geirrt, es gibt keine Beschränkung auf die letzten beiden Jahrgänge. LH]

Wer sich über die Freischaltung der NYT-Inhalte gefreut hat, wird ein dazugehöriges alphabetisches Sachregister auch nicht von der Hand weisen — zumal, wenn sich die darin enthaltenen Schlagworte als RSS-Feeds abonnieren lassen.

Aber der Reihe nach:

Dave Winer berichtete gestern in seinem Weblog über einen interessanten Zufallsfund, den er beim Durchstöbern des HTML-Quellcodes eines NYT-Artikels gemacht hatte: Er war auf die frei zugängliche Taxonomie gestoÃ?en, mit der die NYT intern ihre Beiträge erschlieÃ?t. Mit einem kleinen Hack generierte er daraus zunächst eine stündlich automatisch aktualisierte Schlagwortliste.

Und er räsonniert ein wenig über den Wert einer gemeinschaftlich genutzten und gepflegten Schlagwortnormdatei für die Ã?ffentlichkeit der Weblogs, denen bisher ein sortierender Bibliothekar fehle (Steven Cohen hat bereits stellvertretend für die gesamte Profession widersprochen! 😉 ):

The metadata is generated by librarians, and we don’t as yet have our own librarians in the blogosphere (though some might disagree). And it’s possible that after a release of the taxonomy that something like Wikipedia may happen, with the public taking over maintenence of the taxonomy.

Durch lose gekoppelte Zusammenarbeit mit den Kommentatoren seines Beitrags wurde rasch noch mehr daraus. Jakob hatte neulich den Fachbegriff dafür genannt: Crowd sourcing! (Ã?brigens: Wer das technische Zeug nicht mag kann die beiden kommenden Absätze einfach überspringen.)

Die OPML-Expertin und O’Reilly-Autorin Amy Bellinger hat auf einer NYT-Website eine OPML-Datei entdeckt, die ca. 10.000 Schlagwort enthält — wohlbemerkt nicht hierarchisch angeordnet, sondern als flache alphabetische Liste. Um diese Liste besser handhabbar zu machen hat Winer zunächst auch aus dieser Liste eine einfache HTML-Ausgabe (Vorsicht, ist natürlich eine recht groÃ?e Datei!) erzeugt.

Grazr-Entwickler Adam Green hat darauf wiederum in seinem Weblog eine bereinigte Variante der OPML-Datei in browsbarer Form veröffentlicht. Jeder Schlagwort-Feed enthält die Titel, die Teaser sowie die Links zur kompletten Online-Version der letzten Artikel über das jeweilige Thema.

Einfach mal ausprobieren: Beispielsweise das L anklicken, die Liste bis Library of Congress herunterscrollen, und, siehe da, erscheint die hier soeben besprochene Nachricht über die neuen LoC-Digitalisierungsprojekte.

AbschlieÃ?end noch ein paar Assoziationen und weitergehende Ã?berlegungen.

Passend, obgleich nicht explizit darauf bezugnehmend, finde ich die Ã?berlegung in dem Blog von Cathy Perkins, daÃ? der RSS-Feed quasi als Nachfolger des Presseausschnittdienstes, als einer traditionellen Kreuzung von Zeitung und Bibliotheksdiensten, betrachtet werden kann.

David Weinberger erwähnt in seinem neuen Buch Everything is Miscellaneous, daÃ? die New York Times intern auch eine professionell gepflegte Facettenklassifikation einsetzt.

Ich finde, auch die jetzt eher zufällig ans Tageslicht gelangte „kleine“ NYT-Taxonomie hat ihren Reiz — wenngleich sie offenbar nur Artikel der letzten ca. zwei Jahre erschlieÃ?t. Vor allem frage ich mich, welche weiteren Hacks rund um diese OPML-Datei und andere befreite (oder entlaufene?) Klassifikationsdaten folgen werden. Vor allem die von Dave Winer angesprochene Idee, daÃ? eine solche Taxonomie von Web-Benutzern gemeinschaftlich benutzt und gepflegt werden könnte, halte ich für bestechend. Dafür gibt es durchaus schon einige konzeptionelle Ã?berlegungen, vgl. Jakob VoÃ?.

Autor: Lambert Heller

Librarian 2.0, interested in knowledge management, publishing and communities on the web. Likes Open Access / Open Data. Hannover, Germany.

Ein Kommentar

  1. Pingback: Jakoblog