Directly to content
  1. Publishing |
  2. Search |
  3. Browse |
  4. Recent items rss |
  5. Open Access |
  6. Jur. Issues |
  7. DeutschClear Cookie - decide language by browser settings

Solving Computer Vision Problems through Self-Supervision and Generative Image Synthesis

Mustikovela, Siva Karthik

[thumbnail of thesis_siva.pdf]
Preview
PDF, English
Download (30MB) | Terms of use

Citation of documents: Please do not cite the URL that is displayed in your browser location input, instead use the DOI, URN or the persistent URL below, as we can guarantee their long-time accessibility.

Abstract

Computer-Vision-Modelle erfordern große Mengen an gelabelten Daten für das Training, was fehleranfällig, zeitaufwändig und notoriously schwer zu beschaffen ist. Es ist besonders schwierig, Labels für feinkörnige geometriebasierte Aufgaben wie die Schätzung der Objektperspektive und die Geometrieschätzung zu erhalten. Das Beschaffen von groß angelegten Labels für die Objekterkennung in sich verändernden Betriebsdomänen ist ebenfalls zeitaufwändig. Synthetische Daten sind eine Alternative, weisen jedoch eine erhebliche Domänenlücke im Vergleich zu echten Weltbildern auf, was dazu führt, dass Modelle auf echten Bildern unterdurchschnittlich abschneiden. Andererseits ist es relativ einfach, große Mengen ungelabelter Bilder einer Objektkategorie aus dem Internet zu gewinnen. Wir versuchen zu beantworten, ob solche ungelabelten Sammlungen von Bildern aus freier Wildbahn erfolgreich genutzt werden können, um Computer-Vision-Modelle ausschließlich über Selbstüberwachung zu trainieren. Wir schlagen Methoden vor, um die Schätzung der Objektperspektive, die Objekterkennung, die steuerbare Bildgenerierung und die Zerlegung ausschließlich durch Selbstüberwachung unter Verwendung ungelabelter Bilder in einem Analyse-durch-Synthese-Paradigma zu erlernen. Für die Schätzung der Objektperspektive nutzen wir ein perspektivbewusstes Bildsynthese-Netzwerk als Form der Selbstüberwachung, um unser Perspektivschätzungsnetzwerk zu trainieren, indem wir beide Modelle durch Zykluskonsistenz koppeln. Unsere Methode ist wettbewerbsfähig im Vergleich zu vollständig überwachten Methoden für Objekte wie Gesichter, Autos, Busse und Züge. Für die selbstüberwachte Objekterkennung nutzen wir ein generatives Modell, das die Kontrolle über den 3D-Standort und die Ausrichtung des synthetisierten Objekts bietet, mit dem wir auch den Begrenzungsrahmen des Objekts erhalten. Das synthetisierte Bild und der Begrenzungsrahmen werden zur Schulung des Objekterkenners verwendet. Die Genauigkeit der Objekterkennung zeigt, dass wir vorhandene Baselines erheblich übertreffen und andere auf synthetischen Daten basierende Erkennungsmethoden überbieten. Schließlich schlagen wir eine Methode vor, um die geometrisch gesteuerte Bildgenerierung und Zerlegung unter Verwendung klassenspezifischer ungleichartiger realer Weltbilder und 3D-CADModelle zu erlernen. Wir modellieren gemeinsam den Vorwärtsprozess der Bildgenerierung und den inversen Prozess der Bildzerlegung. Wir können äußerst realistische Bilder mit feinkörniger Kontrolle über Form, Erscheinungsbild und Reflexionen generieren. Unsere Ergebnisse deuten darauf hin, dass Computer-Vision-Aufgaben durch Selbstüberwachung erlernt werden können und eine Leistung erreichen können, die der von überwachten Methoden oder auf synthetischen Daten basierenden Methoden ähnelt.

Document type: Dissertation
Supervisor: Rother, Prof. Dr. Carsten
Place of Publication: Heidelberg
Date of thesis defense: 7 May 2024
Date Deposited: 14 May 2024 08:22
Date: 2024
Faculties / Institutes: The Faculty of Mathematics and Computer Science > Dean's Office of The Faculty of Mathematics and Computer Science
DDC-classification: 600 Technology (Applied sciences)
Controlled Keywords: Computer Vision
About | FAQ | Contact | Imprint |
OA-LogoDINI certificate 2013Logo der Open-Archives-Initiative