Inference on Highly-Connected Discrete Graphical Models with Applications to Visual Object Recognition

Kappes, Jörg Hendrik

German Title: Inferenz auf dicht vernetzten Graphischen Modellen und ihre Anwendung in der visuellen Objekterkennung

Preview

PDF, English
Download (14MB) | Terms of use

Citation of documents: Please do not cite the URL that is displayed in your browser location input, instead use the DOI, URN or the persistent URL below, as we can guarantee their long-time accessibility.

DOI: 10.11588/heidok.00011872
URN: urn:nbn:de:bsz:16-opus-118727

Abstract

Das Erkennen und Finden von Objekten in Bildern ist eines der wichtigsten Teilprobleme in modernen Bildverarbeitungssystemen. Während die Detektion von starren Objekten aus beliebigen Blickwinkeln vor einigen Jahren noch als schwierig galt, verfolgt die momentane Forschung das Ziel, verformbare, artikulierte Objekte zu erkennen und zu detektieren. Bedingt durch die hohe Varianz innerhalb der Objektklasse, Verdeckungen und Hintergrund mit ähnlichem Aussehen, ist dies jedoch sehr schwer. Des Weiteren wird die Klassifikation der Objekte dadurch erschwert, dass die Beschreibung von ganzheitlichen Modellen häufig in dem dazugehörigen Merkmalsraum keine Cluster bildet. Daher hat sich in den letzten Jahren die Beschreibung von Objekten weg von einem ganzheitlichen hin zu auf Teilen basierenden Modellen verschoben. Dabei wird ein Objekt aus einer Menge von individuellen Teilen zusammen mit Informationen über deren Abhängigkeiten beschrieben. In diesem Zusammenhang stellen wir ein vielseitig anwendbares und erweiterbares Modell zur auf Teilen basierenden Objekterkennung vor. Die Theorie über probabilistische graphische Modelle ermöglicht es, aus manuell notierten Trainingsdaten alle Modellparameter in einer mathematisch fundierten Weise zu lernen. Ein besonderer Augenmerk liegt des Weiteren auf der Berechnung der optimalen Pose eines Objektes in einem Bild. Im probabilistischem Sinne ist dies die Objektbeschreibung mit der maximalen a posteriori Wahrscheinlichkeit (MAP). Das Finden dieser wird auch als das MAP-Problem bezeichnet. Sowohl das Lernen der Modellparameter als auch das Finden der optimalen Objektpose bedingen das Lösen von kombinatorischen Optimierungsproblemen, die in der Regel NP-schwer sind. Beschränkt man sich auf effizient berechenbare Modelle, können viele wichtige Abhängigkeiten zwischen den einzelnen Teilen nicht mehr beschrieben werden. Daher geht die Tendenz in der Modellierung zu generellen Modellen, welche weitaus komplexere Optimierungsprobleme mit sich bringen. In dieser Arbeit schlagen wir zwei neue Methoden zur Lösung des MAP-Problems für generelle diskrete Modelle vor. Unser erster Ansatz transformiert das MAP-Problem in ein Kürzeste-Wege-Problem, welches mittels einer A*-Suche unter Verwendung einer zulässigen Heuristik gelöst wird. Die zulässige Heuristik basiert auf einer azyklisch strukturierter Abschätzung des urspr"unglichen Problems. Da diese Methode für Modelle mit sehr vielen Modellteilen nicht mehr anwendbar ist, betrachten wir alternative Möglichkeiten. Hierzu transformieren wir das kombinatorische Problem unter Zuhilfenahme von exponentiellen Familien in ein lineares Programm. Dies ist jedoch, bedingt durch die große Anzahl von affinen Nebenbedingungen, in dieser Form praktisch nicht lösbar. Daher schlagen wir eine neuartige Zerlegung des MAP Problems in Teilprobleme mit einer k-fan Struktur vor. Alle diese Teilprobleme sind trotz ihrer zyklischen Struktur mit unserer A*-Methode effizient lösbar. Mittels der Lagrange-Methode und dieser Zerlegung erhalten wir bessere Relaxationen als mit der Standardrelaxation über dem lokalen Polytope. In Experimenten auf künstlichen und realen Daten wurden diese Verfahren mit Standardverfahren aus dem Bereich der Bildverarbeitung und kommerzieller Software zum Lösen von lineare und ganzzahlige Optimierungsproblemen verglichen. Abgesehen von Modellen mit sehr vielen Teilen zeigte der A*-Ansatz die besten Ergebnisse im Bezug auf Optimalität und Laufzeit. Auch die auf k-fan Zerlegungen basierenden Methode zeigte viel versprechende Ergebnisse bezüglich der Optimalität, konvergierte jedoch im Allgemeinen sehr langsam.

Translation of abstract (English)

Object detection is one of the key components of modern computer vision systems. While the detection of a specific rigid object under changing viewpoints was considered hard just a few years ago, current research strives to detect and recognize classes of non-rigid, articulated objects. Hampered by the omnipresent problems due to clutter and occlusion, the focus has shifted from holistic approaches for object detection to representations of individual object parts linked by structural information, along with richer contextual descriptions of object configurations. Along this line of research, we present a practicable and expandable probabilistic framework for parts-based object class representation, using probabilistic graphical models, enabling the detection of rigid and articulated object classes in arbitrary views. We investigate computational learning of this representation from labelled training images and infer globally optimal solutions to the contextual maximum a posteriori (MAP) detection problem for object recognition. Both, learning the model parameters and inferring the optimal solution of such models, define combinatorial optimization problems that in general are NP-hard. Restrictions to feasible subclasses of models yield problems that can be solved efficiently. However, due to this limitation of modeling, not all relevant dependencies can be represented accurately. Thus, research has turned towards more general models that are associated with more complex optimization problems. In this thesis, we propose novel methods for solving the MAP problem for models encountered in our object detection applications. Our first ansatz transforms the MAP problem into a shortest path problem, which is solved by an A*-search with an admissible tree-based heuristic. As the A*-method does not scale well to large problems, we investigate convex relaxations of the inference problems using the theory of exponential families. Since solving the corresponding convex problem is still computationally infeasible due to an enormous number of affine constraints, we present a novel dual decomposition approach to MAP problems for highly connected discrete graphical models. We show that decompositions into cyclic, k-fan structured subproblems significantly tighten the Lagrangian relaxation compared to the standard local polytope relaxation. Furthermore, efficient integer programming for solving the subproblems with our A*-approach remains computationally feasible. We evaluate the proposed algorithms on synthetic and real world data and compare their performance to standard methods from the field of computer vision as well as to commercial standard solvers for linear and mixed integer programs. With the exception of larger problem instances our A*-approach outperforms all other methods in terms of run time and accuracy. Moreover, the dual decomposition methods show potential in terms of accuracy, but suffers from slower convergence.

Document type:	Dissertation
Supervisor:	Schnörr, Prof. Dr. Christoph
Date of thesis defense:	18 April 2011
Date Deposited:	03 May 2011 11:54
Date:	2011
Faculties / Institutes:	The Faculty of Mathematics and Computer Science > Department of Computer Science
DDC-classification:	004 Data processing Computer science
Controlled Keywords:	Markov-Feld, Statistische Schlussweise, Maschinelles Sehen, Kombinatorische Optimierung, Graphisches Modell
Uncontrolled Keywords:	Objekt ErkennungObject Detection