Home > Technik > Mehrschichtige PDFs

Mehrschichtige PDFs

29. März 2005 von kg

Ich erbitte Kommentare und Erfahrungen mit dem folgenden: Wenig bekannt ist, dass es ein PDF-Format gibt, bei dem hinter dem als Image dargebotenen Text ein such- und kopierbarer E-Text liegt, der mit einer OCR-Erkennung erstellt wurde (entweder mit PaperCapture von Acrobat – siehe Test im Archiv der RWTH – oder besser mit einer OCR-Software wie ABBY Finereader). Die Nutzung dieser Möglichkeit erscheint mir eine pragmatische Lösung für das Datei-zu-Druck-Authentizitäts-Problem zu bieten. Wenn man Wert darauf legt, dass ein Dokument exakt so wie die gedruckte oder maschinenschriftliche Vorlage zitiert werden kann, ist diese Möglichkeit einfacher zu realisieren als die – bei Hochschulschriftenservern unübliche, bei Digitalisierungsprojekten selten angewandte – Präsentation mittels einer Navigation, die es erlaubt, zwischen Faksimile und (schmutzigem) E-Text hin- und herzuschalten (Beispiel). UPDATE Siehe auch im Wiki (engl.).

Ähnliche Beiträge

Technik

  1. HaeB
    29. März 2005, 23:45 | #1

    das djvu-dateiformat bietet ebenfalls eine solche möglichkeit (und weist dank wavelet-komprimierung bei typischen buchseiten eine wesentlich höhere qualität als pdf bei gleicher dateigröße auf).

    http://en.wikipedia.org/wiki/Djvu

    dies ist das format, das das \”million book project\” des internet archive verwendet. die ocr-qualität ist gut, soweit ich bisher gesehen habe. allerdings finden sich auch bücher, bei denen (wohl aufgrund der schlechten scanqualität) die ocr-ebene weggelassen wurde.

    http://www.archive.org/details/millionbooks

  2. 30. März 2005, 11:50 | #2

    Ich jage gescannte (kurze) Texte auch ab und an durch Adobe Paper Capture. Allerdings ist die Nachbearbeitung zu aufwändig und so lasse ich das. Ist aber trotzdem eine nette Möglichkeit für unsere Benutzer, ein Zitat aus z.B. einem Aufsatz in ihr Dokument zu übernehmen – auch wenn sie da noch kritisch drübergucken müssen.

Kommentare sind geschlossen
Creative Commons License blogoscoop Dieser Inhalt ist unter einer Creative Commons-Lizenz lizenziert.>