Directly to content
  1. Publishing |
  2. Search |
  3. Browse |
  4. Recent items rss |
  5. Open Access |
  6. Jur. Issues |
  7. DeutschClear Cookie - decide language by browser settings

Compound Models for Vision-Based Pedestrian Recognition

Enzweiler, Markus

German Title: Zusammengesetzte Modelle zur bildbasierten Fußgängererkennung

[thumbnail of enzweiler_phd_print.pdf]
Preview
PDF, English
Download (8MB) | Terms of use

Citation of documents: Please do not cite the URL that is displayed in your browser location input, instead use the DOI, URN or the persistent URL below, as we can guarantee their long-time accessibility.

Abstract

This thesis addresses the problem of recognizing pedestrians in video images acquired from a moving camera in real-world cluttered environments. Instead of focusing on the development of novel feature primitives or pattern classifiers, we follow an orthogonal direction and develop feature- and classifier-independent compound techniques which integrate complementary information from multiple image-based sources with the objective of improved pedestrian classification performance. After establishing a performance baseline in terms of a thorough experimental study on monocular pedestrian recognition, we investigate the use of multiple cues on module-level. A motion-based focus of attention stage is proposed based on a learned probabilistic pedestrian-specific model of motion features. The model is used to generate pedestrian localization hypotheses for subsequent shape- and texture-based classification modules. In the remainder of this work, we focus on the integration of complementary information directly into the pattern classification step. We present a combination of shape and texture information by means of pose-specific generative shape and texture models. The generative models are integrated with discriminative classification models by utilizing synthesized virtual pedestrian training samples from the former to enhance the classification performance of the latter. Both models are linked using Active Learning to guide the training process towards informative samples. A multi-level mixture-of-experts classification framework is proposed which involves local pose-specific expert classifiers operating on multiple image modalities and features. In terms of image modalities, we consider gray-level intensity, depth cues derived from dense stereo vision and motion cues arising from dense optical flow. We furthermore employ shape-based, gradient-based and texture-based features. The mixture-of-experts formulation compares favorably to joint space approaches, in view of performance and practical feasibility. Finally, we extend this mixture-of-experts framework in terms of multi-cue partial occlusion handling and the estimation of pedestrian body orientation. Our occlusion model involves examining occlusion boundaries which manifest in discontinuities in depth and motion space. Occlusion-dependent weights which relate to the visibility of certain body parts focus the decision on unoccluded body components. We further apply the pose-specific nature of our mixture-of-experts framework towards estimating the density of pedestrian body orientation from single images, again integrating shape and texture information. Throughout this work, particular emphasis is laid on thorough performance evaluation both regarding methodology and competitive real-world datasets. Several datasets used in this thesis are made publicly available for benchmarking purposes. Our results indicate significant performance boosts over state-of-the-art for all aspects considered in this thesis, i.e. pedestrian recognition, partial occlusion handling and body orientation estimation. The pedestrian recognition performance in particular is considerably advanced; false detections at constant detection rates are reduced by significantly more than an order of magnitude.

Translation of abstract (German)

Diese Arbeit beschäftigt sich mit bildgestützter Fußgängererkennung in realen, dynamischen Umgebungen mittels einer bewegten Kamera. Der Arbeitsschwerpunkt liegt nicht au Fußgängererkennung der Entwicklung neuer Merkmalstypen zur Klassifikation, sondern auf merkmals- und klassifikatorunabhängigen zusammengesetzten Ansätzen. Diese kombinieren komplementäre Informationen aus mehreren bildbasierten Informationsquellen mit dem Ziel einer verbesserten Fußgängererkennungsleistung. Im Anschluss an die Etablierung einer Basiserkennungsleistung mit Hilfe einer ausführlichen Experimentalstudie im Bereich der monokularen Fußgängererkennung wird der Nutzen mehrerer Merkmale auf Modulebene untersucht. Hierbei wird ein bewegungsbasiertes Konzept zur Aufmerksamkeitssteuerung vorgestellt, welches auf einem wahrscheinlichkeitsbasierten, gelernten Fußgängerbewegungsmodell aufbaut. Dieses Modell dient zur Adaption der Suchbereiche nachgeschalteter form- und texturbasierter Klassifikationsmodule. Im weiteren Verlauf dieser Arbeit liegt der Schwerpunkt auf der Integration komplementärer Informationen in den eigentlichen Mustererkennungsschritt. In diesem Sinne werden ansichtsspezifische generative Form- und Texturmodelle vorgestellt. Die Kombination dieser generativen Modelle mit diskriminativen Klassifikatoren erfolgt durch die Nutzung generativ erzeugter virtueller Trainingsbeispiele, um die Erkennungleistung der diskriminativen Modelle zu verbessern. Beide Modellarten sind durch Aktives Lernen verbunden, um den Trainingsprozess auf die wichtigsten und informativsten Trainingsbeispiele zu fokussieren. Des Weiteren wird ein Mixture-of-Experts-System zur Klassifikation vorgeschlagen, welches auf lokalen ansichtsspezifischen Klassifikationsexperten basiert. Diese Experten nutzen mehrere Bildmodalitäten und -merkmale. Als Modalitäten werden Grauwertintensität, Tiefeninformation aus dichtem Stereosehen und Bewegungsinformation aus dichtem optischen Fluss betrachtet. Als Merkmale dienen sowohl formbasierte, gradientenbasierte als auch texturbasierte Merkmale. Gegenüber Methoden, die auf einem gemeinsamen Merkmalsraum beruhen, zeichnet sich das Mixture-of-Experts-Modell durch bessere Erkennungsleistung und bessere praktische Umsetzbarkeit aus. Zu guter Letzt behandelt diese Arbeit die Erweiterung des Mixture-of-Experts-Modells im Hinblick auf die Behandlung von Teilverdeckungen und die Schätzung der Körperorientierung der Fußgänger. Das entwickelte Verdeckungsmodell beruht auf der Untersuchung von Diskontinuitäten im Tiefen- und Bewegungsraum, welche durch Teilverdeckungen hervorgerufen werden. Abhängig von den Verdeckungen werden Gewichtungsfaktoren für einzelne Körperteile bestimmt, um die Gesamtentscheidung hauptsächlich auf sichtbare Körperteile zu stützen. Das ansichtsspezifische Mixture-of-Experts-Modell wird ebenfalls zur Schätzung der Dichtefunktion der Körperorientierung eines Fußgängers benutzt, auch hier unter Berücksichtigung von Form- und Texturinformation. Im Rahmen dieser Arbeit wird besonderer Nachdruck auf ausführliche Systemevaluation gelegt, sowohl im Hinblick auf Evaluationsmethodik als auch unter Zuhilfenahme umfangreicher und anwendungsnaher Datensätze. Mehrere Datensätze werden öffentlich zu Vergleichszwecken zur Verfügung gestellt. Es konnten signifikante Verbesserungen in allen Teilbereichen dieser Arbeit, d.h. Fußgängererkennung, Behandlung von Teilverdeckungen und Schätzung der Körperorientierung, verglichen mit dem heutigen Stand der Technik erreicht werden. Dies gilt insbesondere für die Fußgängererkennungsleistung; Falscherkennungen wurden bei gleicher Erkennungsrate um deutlich mehr als eine Größenordnung reduziert.

Document type: Dissertation
Supervisor: Schnörr, Prof. Dr. Christoph
Date of thesis defense: 10 May 2011
Date Deposited: 15 Jun 2011 11:58
Date: 2011
Faculties / Institutes: Service facilities > Institut f. Technische Informatik (ZITI)
DDC-classification: 510 Mathematics
Controlled Keywords: Bildverarbeitung, Mustererkennung, Klassifikation
Uncontrolled Keywords: Fußgängererkennung , Intelligente FahrzeugeImage Processing , Pattern Recognition , Pedestrian Recognition , Intelligent Vehicles , Classification
About | FAQ | Contact | Imprint |
OA-LogoDINI certificate 2013Logo der Open-Archives-Initiative