Wie kann in Millionen sehr kurzer OCR-Texte schnell und fehlertolerant gesucht werden?

Pietzsch, Eberhard

Englische Übersetzung des Titels: How Can Millions of Very Short OCR Texts be searched?

Vorschau

PDF, Deutsch
Download (612kB) | Nutzungsbedingungen

Zitieren von Dokumenten: Bitte verwenden Sie für Zitate nicht die URL in der Adresszeile Ihres Webbrowsers, sondern entweder die angegebene DOI, URN oder die persistente URL, deren langfristige Verfügbarkeit wir garantieren. [mehr ...]

DOI: 10.11588/heidok.00001787
URN: urn:nbn:de:bsz:16-heidok-17873
URL: http://www.ub.uni-heidelberg.de/archiv/1787

Abstract

In diesem Aufsatz wird ein Verfahren und seine Implementierung vorgestellt, wie in großen Mengen sehr kurzer OCR-Texte schnell und fehlertolerant recherchiert werden kann. Solche OCR-Texte entstehen beispielsweise bei der Digitalisierung älterer Bibliothekskataloge, die als Imagekataloge über Internet zugänglich gemacht werden, und bei denen die Images einer OCR-Texterkennung unterzogen werden. Das Verfahren soll dazu dienen, das Potential solcher Imagekataloge unter Verzicht auf manuelle Eingriffe voll auszuschöpfen. Einfache Implementierung und kurze Antwortzeiten sind wichtige Entwurfsziele.

Dokumententyp:	Preprint
Erstellungsdatum:	12 Jan. 2001 13:55
Erscheinungsjahr:	2001
Institute/Einrichtungen:	Zentrale und Sonstige Einrichtungen > Universitätsbibliothek (UB)
DDC-Sachgruppe:	000 Allgemeines, Wissenschaft, Informatik
Normierte Schlagwörter:	Information Retrieval, Freitextsuche, Optische Zeichenerkennung
Freie Schlagwörter:	sehr kurze Textevery short texts
Zusätzliche Informationen:	Erschienen in ABI-Technik 21, Heft 3/2001, S. 206-218