Resource-Efficient and Robust Inference of Deep and Bayesian Neural Networks on Embedded and Analog Computing Platforms

Klein, Bernhard

[thumbnail of Dissertation-Bernhard-Klein-2025.pdf]

Preview

PDF, English - main document
Download (25MB) | Lizenz: Rights reserved - Free Access

Citation of documents: Please do not cite the URL that is displayed in your browser location input, instead use the DOI, URN or the persistent URL below, as we can guarantee their long-time accessibility.

DOI: 10.11588/heidok.00037853
URN: urn:nbn:de:bsz:16-heidok-378539

Abstract

While modern machine learning has transformed numerous application domains, its growing computational demands increasingly constrain scalability and efficiency, particularly on embedded and resource-constrained platforms. In practical deployments, neural networks must not only operate efficiently but also provide reliable predictions when faced with distributional changes or previously unseen data. Bayesian neural networks offer a principled framework for quantifying uncertainty, but their higher computational demands further compound these challenges.

This work advances resource-efficient and robust inference for both conventional and Bayesian neural networks through the joint pursuit of algorithmic and hardware efficiency. The former reduces computational cost through model compression and approximate Bayesian inference, while the latter optimizes mapping to digital accelerators and explores novel analog hardware platforms, bridging algorithmic optimization and physical realization.

The first contribution introduces the Galen framework, which performs automatic, layer-specific compression guided by sensitivity analysis and hardware-in-the-loop feedback, jointly optimizing quantization and pruning to balance accuracy and efficiency on embedded devices. As analog accelerators offer additional efficiency gains at the cost of noise, their modeling exposes device imperfections, while a layer-wise analysis reveals how networks learn to tolerate such effects during training. This work extends noisy training to nonstationary conditions, thereby enhancing robustness and stability in analog hardware.

A complementary line of work advances probabilistic inference. Building on insights into Bayesian-neural-network design and training, this work develops analytic and ensemble-based approximations that replace costly sampling, integrates them into a compiler stack, and optimizes them for probabilistic inference on embedded hardware. Finally, probabilistic photonic computing introduces a novel paradigm in which controlled analog noise serves as an intrinsic entropy source, enabling ultrafast and energy-efficient probabilistic inference directly in hardware.

Together, these studies demonstrate how efficiency and reliability can be advanced jointly through the co-design of algorithms, compilers, and hardware, laying the foundation for the next generation of trustworthy and energy-efficient machine-learning systems.

Translation of abstract (German)

Moderne Verfahren des maschinellen Lernens haben zahlreiche Anwendungsfelder grundlegend verändert. Mit dem stetig wachsenden Rechenbedarf stoßen sie jedoch zunehmend an Grenzen hinsichtlich Skalierbarkeit und Effizienz – insbesondere auf eingebetteten und ressourcenbeschränkten Plattformen. Bei der Anwendung in realen Systemen müssen neuronale Netze nicht nur effizient arbeiten, sondern auch unter sich verändernden Datenverteilungen oder bei bislang unbekannten Datenpunkten verlässliche Vorhersagen liefern. Bayessche neuronale Netze bieten hierfür einen konsistenten theoretischen Rahmen zur Quantifizierung von Unsicherheiten, ihr zusätzlicher Rechenaufwand verstärkt diese Herausforderungen jedoch weiter.

Diese Arbeit verfolgt das Ziel einer ressourceneffizienten und robusten Inferenz sowohl für konventionelle als auch für bayessche neuronale Netze durch die gemeinsame Optimierung von Algorithmen und Hardware. Die algorithmische Effizienz wird durch Modellkompression und approximative bayessche Verfahren verbessert, während die Hardwareeffizienz sowohl die Abbildung auf digitale Beschleuniger als auch die Erforschung neuartiger analoger Plattformen umfasst und damit eine Brücke zwischen algorithmischer Optimierung und hardwareseitiger Realisierung schlägt.

Den ersten Beitrag stellt das Galen-Framework dar, das eine automatische, feinaufgelöste Kompression auf Grundlage von Sensitivitätsanalysen und Hardware-in-the-Loop-Rückkopplung durchführt. Quantisierung und Pruning werden dabei gemeinsam optimiert, um Genauigkeit und Effizienz auf eingebetteten Systemen in Einklang zu bringen. Da analoge Beschleuniger zusätzliche Effizienzgewinne auf Kosten von Rechenrauschen bieten, werden ihre Nichtidealitäten modelliert. Eine Analyse auf Ebene der Netzwerkschichten zeigt, wie neuronale Netze lernen, solche Störungen während des Trainings zu tolerieren. Darauf aufbauend erweitert diese Arbeit das Training mit Rauschinjektion auf nichtstationäre Bedingungen, wodurch Robustheit und Stabilität in analogen Beschleunigern gesteigert werden.

Ein weiterer Schwerpunkt liegt auf der probabilistischen Inferenz. Aufbauend auf Erkenntnissen zum Entwurf und Training bayesscher neuronaler Netze werden effiziente analytische und ensemblebasierte Approximationen entwickelt, die aufwändiges Sampling ersetzen und in einer Compiler-Infrastruktur mit optimierten probabilistischen Operatoren für eingebettete Hardware umgesetzt sind. Schließlich wird mit dem probabilistischen photonischen Rechnen ein neuartiges Paradigma eingeführt, bei dem kontrolliertes analoges Rauschen als intrinsische Entropiequelle dient und ultraschnelle, energieeffiziente probabilistische Inferenz direkt in photonischer Hardware ermöglicht.

Zusammenfassend zeigt diese Arbeit, dass Effizienz und Zuverlässigkeit gemeinsam gesteigert werden können, wenn Algorithmen, Compiler und Hardware als integriertes System konzipiert werden. Damit wird das Fundament für die nächste Generation vertrauenswürdiger und energieeffizienter Systeme des maschinellen Lernens gelegt.

Document type:	Dissertation
Supervisor:	Fröning, Prof. Dr. Holger
Place of Publication:	Heidelberg
Date of thesis defense:	16 December 2025
Date Deposited:	02 Jan 2026 16:08
Date:	2026
Faculties / Institutes:	Service facilities > Institut f. Technische Informatik (ZITI) The Faculty of Mathematics and Computer Science > Dean's Office of The Faculty of Mathematics and Computer Science
DDC-classification:	004 Data processing Computer science
Controlled Keywords:	Künstliche Intelligenz, Effizienz, Wahrscheinlichkeit
Uncontrolled Keywords:	Bayesian neural networks Analog AI Accelerators Neural network compression Probabilistic photonic computing