Wie kann in Millionen sehr kurzer OCR-Texte schnell und fehlertolerant gesucht werden?

Pietzsch, Eberhard

English Title: How Can Millions of Very Short OCR Texts be searched?

Preview

PDF, German
Download (612kB) | Terms of use

Citation of documents: Please do not cite the URL that is displayed in your browser location input, instead use the DOI, URN or the persistent URL below, as we can guarantee their long-time accessibility.

DOI: 10.11588/heidok.00001787
URN: urn:nbn:de:bsz:16-heidok-17873
URL: http://www.ub.uni-heidelberg.de/archiv/1787

Abstract

In diesem Aufsatz wird ein Verfahren und seine Implementierung vorgestellt, wie in großen Mengen sehr kurzer OCR-Texte schnell und fehlertolerant recherchiert werden kann. Solche OCR-Texte entstehen beispielsweise bei der Digitalisierung älterer Bibliothekskataloge, die als Imagekataloge über Internet zugänglich gemacht werden, und bei denen die Images einer OCR-Texterkennung unterzogen werden. Das Verfahren soll dazu dienen, das Potential solcher Imagekataloge unter Verzicht auf manuelle Eingriffe voll auszuschöpfen. Einfache Implementierung und kurze Antwortzeiten sind wichtige Entwurfsziele.

Document type:	Preprint
Date Deposited:	12 Jan 2001 13:55
Date:	2001
Faculties / Institutes:	Service facilities > Universitätsbibliothek (UB)
DDC-classification:	000 Generalities, Science
Controlled Keywords:	Information Retrieval, Freitextsuche, Optische Zeichenerkennung
Uncontrolled Keywords:	sehr kurze Textevery short texts
Additional Information:	Erschienen in ABI-Technik 21, Heft 3/2001, S. 206-218