Directly to content
  1. Publishing |
  2. Search |
  3. Browse |
  4. Recent items rss |
  5. Open Access |
  6. Jur. Issues |
  7. DeutschClear Cookie - decide language by browser settings

Exploring Aspects of Image Segmentation: Diversity, Global Reasoning, and Panoptic Formulation

Kirillov, Akirillov

[img]
Preview
PDF, English
Download (6MB) | Terms of use

Citation of documents: Please do not cite the URL that is displayed in your browser location input, instead use the DOI, URN or the persistent URL below, as we can guarantee their long-time accessibility.

Abstract

Image segmentation is the task of partitioning an image intomeaningful regions. It is a fundamental part of the visual scene understanding problem with many real-world applications, such as photo-editing, robotics, navigation, autonomous driving and bio-imaging. It has been extensively studied for several decades and has transformed into a set of problems which define meaningfulness of regions differently. The set includes two high-level tasks: semantic segmentation (each region assigned with a semantic label) and instance segmentation (each region representing object instance). Due to their practical importance, both tasks attract a lot of research attention. In this work we explore several aspects of these tasks and propose novel approaches and new paradigms.

While most research efforts are directed at developing models that produce a single best segmentation, we consider the task of producing multiple diverse solutions given a single input image. This allows to hedge against the intrinsic ambiguity of segmentation task. We propose a new global model with multiple solutions for a trained segmentation model. This new model generalizes previously proposed approaches for the task. We present several approximate and exact inference techniques that suit a wide spectrum of possible applications and demonstrate superior performance comparing to previous methods.

Then, we present a new bottom-up paradigm for the instance segmentation task. The new scheme is substantially different from the previous approaches that produce each instance independently. Our approach named InstanceCut reasons globally about the optimal partitioning of an image into instances based on local clues. We use two types of local pixel-level clues extracted by efficient fully convolutional networks: (i) an instance-agnostic semantic segmentation and (ii) instance boundaries. Despite the conceptual simplicity of our approach, it demonstrates promising performance.

Finally, we put forward a novel Panoptic Segmentation task. It unifies semantic and instance segmentation tasks. The proposed task requires generating a coherent scene segmentation that is rich and complete, an important step towards real-world vision systems. While early work in computer vision addressed related image/scene parsing tasks, these are not currently popular, possibly due to lack of appropriate metrics or associated recognition challenges. To address this, we first offer a novel panoptic quality metric that captures performance for all classes (stuff and things) in an interpretable and unified manner. Using this metric, we perform a rigorous study of both human and machine performance for panoptic segmentation on three existing datasets, revealing interesting insights about the task. The aim of our work is to revive the interest of the community in a more unified view of image segmentation.

Translation of abstract (German)

In der Bildsegmentierung besteht die Aufgabe darin, ein Bild in inhaltlich sinnvolle Regionen einzuteilen. Damit ist sie für die Bildverarbeitung von hoher Bedeutung und findet in zahlreichen Bereichen, beispielsweise bei der Fotoaufbereitung, in der Robotik, in der Navigation, beim autonomen Fahren sowie in der Biologie, Anwendung. Im Laufe der seit einigen Jahrzehnten stattfindenden Forschung zur Bildsegmentierung haben sich verschiedene Problemformulierungen herauskristallisiert, die sich darin unterscheiden, wie Regionen inhaltlich definiert sind. Zwei dieser Aufgaben sind semantische Segmentierung (jede Region erhält eine semantische Bezeichnung) und Instanzsegmentierung (jede Region stellt eine Objektinstanz dar). Aufgrund ihrer praktischen Bedeutung haben beide Problemstellungen in der Forschung bereits viel Aufmerksamkeit erhalten. In der vorliegenden Arbeit stellen wir einige ihrer Aspekte vor und schlagen neue Herangehensweisen und Ansätze vor.

Im Gegensatz zum weit verbreiteten Forschungsansatz, Modelle zu entwickeln, die eine einzige bestmögliche Segmentierung liefern, betrachten wir die Aufgabe, zu einem gegebenen Eingangsbild mehrere verschiedenartige Lösungen zu generieren. Dadurch ist es möglich, die immanente Mehrdeutigkeit des Segmentierungsproblems zu berücksichtigen. Wir führen ein neues globales Modell ein, welches für ein trainiertes Segmentierungsmodell mehrere Lösungen liefert. Es verallgemeinert bereits bestehende Ansätze für das genannte Problem. Wir stellen mehrere näherungsweise und exakte Inferenztechniken vor, die für eine große Spanne möglicher Anwendungen genutzt werden können, und zeigen, dass sie bisherigen Methoden überlegen sind.

Außerdem stellen wir einen neuen Bottom-Up-Ansatz für die Instanzsegmentierung vor. Dieser unterscheidet sich wesentlich von bisherigen Herangehensweisen, welche jede Instanz einzeln erzeugen. Unser InstanceCut genannter Ansatz sucht anhand lokaler Merkmale global nach einer optimalen Partitionierung des Bildes in Instanzen. Dafür nutzen wir zwei Typen lokaler pixelbasierter Merkmale, die mit Hilfe von Fully Convolutional Networks extrahiert werden: (i) eine Instanz-unabhängige semantische Segmentierung und (ii) Instanzübergänge. Obwohl diese Herangehensweise konzeptionell einfach ist, liefert sie vielversprechende Ergebnisse.

Abschließend führen wir das neuartige panoptische Segmentierungsproblem ein. Es vereint semantische und Instanzsegmentierung. Für das vorgeschlagene Problem ist es erforderlich, eine schlüssige Szenensegmentierung zu generieren, die vollständig und reichhaltig ist -- ein wichtiger Schritt in Richtung praktisch anwendbarer Bildverarbeitungssysteme. Obwohl frühere Arbeiten auf dem Gebiet der Bildverarbeitung bereits ähnliche Bildanalyseaufgaben betrachtet haben, sind diese momentan kaum verbreitet, was möglicherweise am Fehlen geeigneter Metriken oder damit verbundener Bilderkennungs-Wettbewerbe liegt. Um dem zu begegnen, schlagen wir zunächst ein neuartiges panoptisches Qualitätsmaß vor, welches auf einheitliche und nachvollziehbare Weise die Performance für alle Klassen (Bereiche sowie Objekte) bewertet. Diese Metrik ermöglicht uns einen fundierten Vergleich menschlicher und maschineller Kompetenz in der panoptischen Segmentierung auf drei bestehenden Datensätzen, wodurch interessante Erkenntnisse über dieses Problem offengelegt werden. Ziel dieser Arbeit ist es, das Interesse der Forschungsgemeinde an einer vereinheitlichten Sicht auf die Bildsegmentierung wiederzubeleben.

Item Type: Dissertation
Supervisor: Rother, Prof. Dr. Carsten
Date of thesis defense: 17 December 2018
Date Deposited: 18 Dec 2018 13:21
Date: 2018
Faculties / Institutes: The Faculty of Mathematics and Computer Science > Department of Computer Science
Subjects: 004 Data processing Computer science
About | FAQ | Contact | Imprint |
OA-LogoDINI certificate 2013Logo der Open-Archives-Initiative