TY - GEN AV - public UR - https://archiv.ub.uni-heidelberg.de/volltextserver/34806/ Y1 - 2024/// TI - Solving Computer Vision Problems through Self-Supervision and Generative Image Synthesis CY - Heidelberg ID - heidok34806 N2 - Computer-Vision-Modelle erfordern große Mengen an gelabelten Daten fu?r das Training, was fehleranfällig, zeitaufwändig und notoriously schwer zu beschaffen ist. Es ist besonders schwierig, Labels fu?r feinkörnige geometriebasierte Aufgaben wie die Schätzung der Objektperspektive und die Geometrieschätzung zu erhalten. Das Beschaffen von groß angelegten Labels fu?r die Objekterkennung in sich verändernden Betriebsdomänen ist ebenfalls zeitaufwändig. Synthetische Daten sind eine Alternative, weisen jedoch eine erhebliche Domänenlu?cke im Vergleich zu echten Weltbildern auf, was dazu fu?hrt, dass Modelle auf echten Bildern unterdurchschnittlich abschneiden. Andererseits ist es relativ einfach, große Mengen ungelabelter Bilder einer Objektkategorie aus dem Internet zu gewinnen. Wir versuchen zu beantworten, ob solche ungelabelten Sammlungen von Bildern aus freier Wildbahn erfolgreich genutzt werden können, um Computer-Vision-Modelle ausschließlich u?ber Selbstu?berwachung zu trainieren. Wir schlagen Methoden vor, um die Schätzung der Objektperspektive, die Objekterkennung, die steuerbare Bildgenerierung und die Zerlegung ausschließlich durch Selbstu?berwachung unter Verwendung ungelabelter Bilder in einem Analyse-durch-Synthese-Paradigma zu erlernen. Fu?r die Schätzung der Objektperspektive nutzen wir ein perspektivbewusstes Bildsynthese-Netzwerk als Form der Selbstu?berwachung, um unser Perspektivschätzungsnetzwerk zu trainieren, indem wir beide Modelle durch Zykluskonsistenz koppeln. Unsere Methode ist wettbewerbsfähig im Vergleich zu vollständig u?berwachten Methoden fu?r Objekte wie Gesichter, Autos, Busse und Zu?ge. Fu?r die selbstu?berwachte Objekterkennung nutzen wir ein generatives Modell, das die Kontrolle u?ber den 3D-Standort und die Ausrichtung des synthetisierten Objekts bietet, mit dem wir auch den Begrenzungsrahmen des Objekts erhalten. Das synthetisierte Bild und der Begrenzungsrahmen werden zur Schulung des Objekterkenners verwendet. Die Genauigkeit der Objekterkennung zeigt, dass wir vorhandene Baselines erheblich u?bertreffen und andere auf synthetischen Daten basierende Erkennungsmethoden u?berbieten. Schließlich schlagen wir eine Methode vor, um die geometrisch gesteuerte Bildgenerierung und Zerlegung unter Verwendung klassenspezifischer ungleichartiger realer Weltbilder und 3D-CADModelle zu erlernen. Wir modellieren gemeinsam den Vorwärtsprozess der Bildgenerierung und den inversen Prozess der Bildzerlegung. Wir können äußerst realistische Bilder mit feinkörniger Kontrolle u?ber Form, Erscheinungsbild und Reflexionen generieren. Unsere Ergebnisse deuten darauf hin, dass Computer-Vision-Aufgaben durch Selbstu?berwachung erlernt werden können und eine Leistung erreichen können, die der von u?berwachten Methoden oder auf synthetischen Daten basierenden Methoden ähnelt. A1 - Mustikovela, Siva Karthik ER -