Preview |
PDF, English
Download (6MB) | Terms of use |
Abstract
In recent years, artificial intelligence (AI) has made a significant impact on prostate cancer diagnosis using magnetic resonance imaging (MRI), particularly through diagnostic systems based on deep learning approaches. Among these, convolutional neural networks trained for semantic segmentation of clinically significant lesions have gained attention due to their clinical value and inherent interpretability. Used as assistive tools, such systems have already been shown not only to increase diagnostic accuracy, but also to reduce both inter-rater variability and diagnostic time. Despite these advances, standalone AI models for prostate cancer diagnosis still underperform compared to expert radiologists. The reason for radiologists' superiority may lie in their clinical training to account for physiological and modality-specific image alterations using domain knowledge and cognitive reasoning, aspects that are currently overlooked in state-of-the-art computer-aided diagnosis systems. To address this performance gap, this thesis advances prostate MRI interpretation by incorporating two real-world, yet often overlooked, challenges into AI model development: (1) frequent soft tissue deformations caused by physiological processes and (2) misalignment between multi-modal images. Both are forms of spatial variation to which segmentation networks are potentially sensitive. For each challenge, targeted, domain-informed strategies are proposed. These data-centric solutions are implemented as on-the-fly data augmentations during training, acting as inductive biases to improve model robustness against clinically relevant sources of image alterations. Although biomechanical models based on finite element methods hold strong potential for increasing prostate and lesion shape variability during training by simulating realistic soft tissue deformations, their practical utility is limited due to computational complexity and the need for specialized modeling expertise. To make such deformations suitable for scalable online data augmentation, a lightweight model was developed by introducing simplified biomechanical assumptions. Incorporating these deformations into model training improved both patient-level diagnostic accuracy and lesion-level detection rates. Furthermore, the benefit of using anatomically realistic transformations was demonstrated in contrast to random elastic deformations, which are prone to distort image features and compromise the fidelity of ground truth labels for benign and malignant conditions. Another clinical challenge addressed is the alignment errors between MRI imaging modalities. While radiologists can cognitively compensate for such inconsistencies, computer-aided diagnosis systems rely on aligned ground truth representations across all image modalities. However, the literature lacks consensus on whether image co-registration is beneficial for model training. Furthermore, when registration is applied, its effect on model performance is rarely reported. To systematically investigate this, multiple registration strategies were evaluated alongside a novel approach: misalignment augmentation. Instead of aiming for perfect anatomical alignment, this method introduces synthetic alignment errors during training to make network predictions invariant to such errors. Both registration and misalignment augmentation independently improved performance. Moreover, combining the two approaches led to a synergistic effect, further improving performance due to their complementary behavior and yielding a statistically significant improvement that brought diagnostic performance on par with expert radiologists. Further results also highlighted that common surrogate registration metrics (e.g. Dice coefficient) do not necessarily correlate with clinical task performance, emphasising the importance of evaluating strategies based on their impact on clinically relevant questions. The insights gained from the proposed data-centric strategies demonstrated their effectiveness, as reflected in the significant performance improvements observed on independent test sets. These findings underscore that incorporating domain knowledge into neural network training via data augmentation as an inductive bias can yield substantial benefits beyond those of generic state-of-the-art training pipelines. While the increasing availability of large-scale training data and the rise of generalist foundation models may reduce the reliance on such targeted solutions for routine applications, the inherent complexity of medical imaging suggests that domain-specific strategies will likely remain essential for enabling neural networks to address nuanced, clinically complex scenarios. This thesis makes a significant contribution to the field by demonstrating how clinically grounded, data-centric strategies can narrow the performance gap between automated systems and expert radiologists.
Translation of abstract (German)
Künstliche Intelligenz (KI) hat in den letzten Jahren einen signifikanten Einfluss auf die Diagnose von Prostatakrebs mittels Magnetresonanztomographie (MRT) gehabt. Diagnostische Systeme auf Basis tiefer neuronaler Faltungsnetze, insbesondere solche, die auf die semantische Segmentierung klinisch signifikanter Läsionen trainiert wurden, sind aufgrund ihres klinischen Nutzens und ihrer inhärenten Interpretierbarkeit beliebt geworden. Als diagnostische Unterstützung eingesetzt, haben diese Systeme nicht nur die diagnostische Genauigkeit erhöht, sondern auch die Variabilität zwischen Beurteilenden sowie die Diagnosedauer reduziert. Trotz dieser Fortschritte bleiben KI-Systeme zur eigenständigen Prostatakrebsdiagnose hinter der Leistung erfahrener Radiolog:innen zurück. Der Grund dafür liegt möglicherweise in der klinischen Ausbildung der Radiolog:innen. Aufgrund ihres Fachwissens und kognitiven Denkens, können sie physiologische und bildmodalitätsspezifische Bildveränderungen berücksichtigen. Aspekte, die bislang in modernen rechnergestützten Diagnosesystemen wenig berücksichtigt wurden. Um diese Lücke zu überbrücken, verbessert diese Dissertation die Interpretation von Prostata MRTs durch Einbeziehung zwei realer, jedoch häufig übersehener Herausforderungen in der Entwicklung von KI-Modellen: (1) häufige Weichteildeformationen durch physiologische Prozesse und (2) Fehlausrichtungen zwischen multimodalen Bildern. Beide stellen Formen räumlicher Variationen dar, auf die Segmentierungsnetzwerke potenziell empfindlich reagieren. Für jede dieser Herausforderungen werden gezielte, domänenspezifische Strategien entwickelt. Diese datenzentrierten Lösungen werden als Echtzeit-Datenaugmentierungen während des Trainings implementiert und dienen als induktive Bias, um die Robustheit des Modells gegenüber klinisch relevanten Bildveränderungen zu erhöhen. Obwohl biomechanische Modelle basiert auf Finite-Elemente-Methoden großes Potenzial zur Erhöhung der anatomischen Variabilität von Prostata und Läsionen durch die Simulation realistischer Weichteildeformationen bieten, ist ihr praktischer Nutzen aufgrund der hohen Rechenkomplexität und des Bedarfs an spezialisierter Modellierungsexpertise begrenzt. Um solche Deformationen für eine skalierbare Echtzeit-Datenerweiterung nutzbar zu machen, wurde ein leichtgewichtiges Modell entwickelt, das auf vereinfachten biomechanischen Annahmen basiert. Die Integration dieser Deformationen in das Modelltraining verbesserte sowohl die diagnostische Genauigkeit auf Patientenebene als auch die Erkennungsraten auf Läsionsebene. Darüber hinaus zeigte sich der Nutzen anatomisch realistischer Transformationen im Vergleich zu zufälligen elastischen Deformationen, die dazu neigen, Bildmerkmale zu verzerren und die Genauigkeit der manuellen Referenzannotationen für benigne und maligne Befunde zu beeinträchtigen. Eine weitere klinische Herausforderung sind Fehlregistrierungen zwischen verschiedenen MRT-Bildmodalitäten. Während Radiolog:innen solche Inkonsistenzen kognitiv ausgleichen können, sind computergestützte Diagnosesysteme auf exakt ausgerichtete manuelle Referenzannotationen über alle Bildmodalitäten hinweg angewiesen. In der Fachliteratur besteht jedoch kein Konsens darüber, ob Bild-Koregistrierung tatsächlich vorteilhaft für das Modelltraining ist. Zudem wird deren Auswirkung auf die Modellleistung kaum berichtet. Um dies systematisch zu untersuchen, wurden mehrere Registrierungsstrategien entlang mit einem neuartigen Ansatz evaluiert: die Fehlregistrierung-Augmentierung. Anstatt eine perfekte anatomische Ausrichtung anzustreben, führt diese Methode während des Trainings synthetische Ausrichtungsfehler zwischen den MRT-Bildmodalitäten gezielt ein, um die Netzwerkvorhersagen gegenüber solchen Fehlern robust zu machen. Sowohl die Registrierung als auch die Fehlregistrierung-Augmentierung verbesserten jeweils unabhängig die diagnostische Leistung. Darüber hinaus führte die Kombination beider Ansätze zu einem synergetischen Effekt, der durch ihr komplementäres Verhalten zu einer signifikanten Leistungsverbesserung führte und die diagnostische Leistung auf das Niveau erfahrener Radiolog:innen brachte. Weitere Ergebnisse verdeutlichen zudem, dass herrkömmliche Ersatz-Registrierungsmetriken (z.B. Dice-Koeffizient) nicht unbedingt mit der klinischen Aufgabenleistung korrelieren, was die Bedeutung der Evaluierung von Strategien anhand ihrer Auswirkungen auf klinisch relevante Fragestellungen betont. Die Erkenntnisse aus den vorgeschlagenen datenzentrierten Strategien zeigten ihre Wirksamkeit, was sich in den signifikanten Leistungsverbesserungen auf unabhängigen Testdatensätzen widerspiegelte. Diese Ergebnisse unterstreichen, dass die Einbeziehung von Domänenwissen in das Training neuronaler Netze durch Datenaugmentation als induktive Bias erhebliche Vorteile gegenüber herkömmlichen, modernen Trainingspipelines bieten kann. Zwar könnten die zunehmende Verfügbarkeit umfangreicher Trainingsdaten und der Aufstieg generalistischer Foundation-Modelle die Abhängigkeit von solch zielgerichteten Lösungen in Routineanwendungen verringern, doch die inhärente Komplexität der medizinischen Bildgebung lässt vermuten, dass domänenspezifische Strategien weiterhin essentiell bleiben, um neuronale Netze in die Lage zu versetzen, differenzierte und klinisch komplexe Szenarien zu bewältigen. Diese Arbeit leistet einen wichtigen Beitrag zum Fachgebiet, indem sie zeigt, wie klinisch fundierte, datenzentrierte Strategien die Leistungslücke zwischen automatisierten Systemen und erfahrenen Radiolog:innen verringern können.
| Document type: | Dissertation |
|---|---|
| Supervisor: | Maier-Hein, Prof. Dr. rer. nat. Klaus Hermann |
| Place of Publication: | Heidelberg |
| Date of thesis defense: | 16 February 2026 |
| Date Deposited: | 23 Mar 2026 07:16 |
| Date: | 2026 |
| Faculties / Institutes: | Medizinische Fakultät Heidelberg > Dekanat der Medizinischen Fakultät Heidelberg Service facilities > German Cancer Research Center (DKFZ) |
| DDC-classification: | 004 Data processing Computer science 610 Medical sciences Medicine 620 Engineering and allied operations |
| Controlled Keywords: | Medizinische Informatik, Data Science, Neuronales Netz, Semantische Segmentierung, Objekterkennung, Kernspintomografie, Prostatakrebs, Prostata |







