Ich erbitte Kommentare und Erfahrungen mit dem folgenden: Wenig bekannt ist, dass es ein PDF-Format gibt, bei dem hinter dem als Image dargebotenen Text ein such- und kopierbarer E-Text liegt, der mit einer OCR-Erkennung erstellt wurde (entweder mit PaperCapture von Acrobat – siehe Test im Archiv der RWTH – oder besser mit einer OCR-Software wie ABBY Finereader). Die Nutzung dieser Möglichkeit erscheint mir eine pragmatische Lösung für das Datei-zu-Druck-Authentizitäts-Problem zu bieten. Wenn man Wert darauf legt, dass ein Dokument exakt so wie die gedruckte oder maschinenschriftliche Vorlage zitiert werden kann, ist diese Möglichkeit einfacher zu realisieren als die – bei Hochschulschriftenservern unübliche, bei Digitalisierungsprojekten selten angewandte – Präsentation mittels einer Navigation, die es erlaubt, zwischen Faksimile und (schmutzigem) E-Text hin- und herzuschalten (Beispiel). UPDATE Siehe auch im Wiki (engl.).
Ähnliche Beiträge:
- RefTracker Reftracker ist mal wieder ein Programm, das speziell für AuskunftsbibliothekarInnen...
- Einfach den Autor anmailen? Es war einmal in INETBIB der Tipp zu lesen, man...
- Ingenieure von morgen Der Student kommt an den Auskunftsplatz: “Der Kopierer hat ein...
- PDFs als “pain in the ass” ? Der Einsatz von PDF-Dokumenten nimmt im Internet zu. Doch falsch...
- PDFs bearbeiten Interessante Manipulationsmöglichkeiten von PDF-Dateien bietet das gewöhnungsbedürftige Programm pdf995, befindet...
29.3.2005 um 23:45 Uhr
das djvu-dateiformat bietet ebenfalls eine solche möglichkeit (und weist dank wavelet-komprimierung bei typischen buchseiten eine wesentlich höhere qualität als pdf bei gleicher dateigröße auf).
http://en.wikipedia.org/wiki/Djvu
dies ist das format, das das \”million book project\” des internet archive verwendet. die ocr-qualität ist gut, soweit ich bisher gesehen habe. allerdings finden sich auch bücher, bei denen (wohl aufgrund der schlechten scanqualität) die ocr-ebene weggelassen wurde.
http://www.archive.org/details/millionbooks
30.3.2005 um 11:50 Uhr
Ich jage gescannte (kurze) Texte auch ab und an durch Adobe Paper Capture. Allerdings ist die Nachbearbeitung zu aufwändig und so lasse ich das. Ist aber trotzdem eine nette Möglichkeit für unsere Benutzer, ein Zitat aus z.B. einem Aufsatz in ihr Dokument zu übernehmen – auch wenn sie da noch kritisch drübergucken müssen.