Preview |
PDF, English
- main document
Download (46MB) | Lizenz: ![]() |
Abstract
Recently, it has been identified that complications following surgery contribute to the third leading cause of death globally. One of the significant challenges surgeons face is the visual discrimination of tissue types. Automatic surgical scene segmentation with hyperspectral imaging (HSI) could offer valuable assistance in this regard. However, the current state-of-the-art in this field has primarily focused on conventional RGB videos with limited spectral information, mostly from minimally invasive surgery, while HSI data and data obtained during open surgery have received little attention. Moreover, work in this area is constrained by small datasets, studies with only a few subjects or a limited number of tissue types. While deep learning-based scene segmentation is promising, it does not come without its own challenges. The generalizability of the models toward unknown data distributions, the robustness to variations in the surgical scene and the efficiency of the training process remain open questions. Consequently, the goal of this thesis is to overcome the problems in this field.
Firstly, we analyze the high-dimensional spectral information to gain a deeper understanding of the spectral characteristics and variability of different groups for various tissue types. Leveraging a tissue atlas of unprecedented size, which is comprised of 9057 images from 46 subjects annotated with 20 classes, we demonstrate that fully automatic tissue discrimination using a deep neural network is feasible with high accuracy of 95.4 % (standard deviation (SD) 3.6 %). We employ the principles of linear mixed model analysis to reveal that the most significant source of variability in spectral data is the tissue under observation rather than specific acquisition conditions. While recognizing the need within the HSI community for large open datasets, we make a portion of our data publicly available.
Secondly, it is necessary to train numerous networks during development to tackle a segmentation task. However, networks trained on HSI data are slow due to the large number of spectral channels which leads to data loading bottlenecks resulting in long training runs, low utilization of the graphics processing unit (GPU) and delayed inference. To address this, we are conducting a benchmark between various strategies to speed up the data loading including the introduction of a new concept to optimize the transferfrom the random-access memory (RAM) to the GPU. By combining all strategies, we achieve a speedup of up to 3.6 and nearly saturated GPU utilization.
Thirdly, equipped with an optimized training pipeline, we are tackling the task of robust surgical scene segmentation. Given the predominance of RGB data, we compare the benefit of HSI data to RGB data and to processed HSI data (e.g., tissue parameters like perfusion). The community has not converged to the optimal input representation of HSI data for a neural network which is why we explore the best input representation considering the spatial granularity of the input data (pixels vs. superpixels vs. patches vs. images). Through a comprehensive validation study involving 506 images from 20 subjects fully semantically annotated with 19 classes, we discover that HSI data outperforms RGB and processed HSI data across all spatial granularities. Moreover, the advantage of HSI increases with decreased spatial granularity. Our image HSI model consistently ranks first in our study achieving an average dice similarity coefficient (DSC) of 0.90 (SD 0.04). This segmentation score is on par with the inter-rater variability with an average DSC of 0.89 (SD 0.07).
Fourthly, even though machine learning models have proven to be powerful, they are also known to face generalization issues if applied to out-of-distribution (OOD) data. Therefore, we are conducting a generalizability assessment for the subject (variations induced by individuals), context (variations due to geometrical changes in the neighborhood) and species (variations when moving from one species to another) domain shifts. We find that the subject domain has only a minor impact on both the spectra and the imagelevel. On the other hand, contextual changes significantly deteriorate the segmentation performance with a drop of the DSC up to 0.48 (SD 0.38) revealing the struggles of neural networks with geometrical OOD data. To address this important bottleneck, we propose a simple, network-independent organ transplantation augmentation achieving a DSC of up to 0.91 (SD 0.10) bringing the segmentation performance on par with in-distribution data. This result is backed up through a validation study involving 600 fully semantically annotated images from 33 subjects and a comparison with other topology-aware augmentations where our proposed augmentation always ranks first. For the species domain, we utilize a large human dataset, comprising 777 images from 230 subjects fully semantically annotated with 16 classes, to demonstrate that segmentation on human data is more challenging than on porcine data and that the inclusion of porcine data in the training process offers no direct benefit.
In conclusion, we are the first to present fully semantic scene segmentation networks operating on HSI data that can differentiate between 19 classes occurring during open surgery, can be trained efficiently and are robust against contextual domain shifts. Our results are substantiated by extensive validation studies with several large datasets, some of which are publicly available as part of our open data efforts. Thereby, we made a valuable contribution to the broader goal of improving surgical interventions by leveraging the potential of HSI data with the power of machine learning algorithms. The code for all the experiments of this thesis as well as pretrained models are available at github.com/IMSY-DKFZ/htc.
Translation of abstract (German)
Komplikationen, die nach chirurgischen Eingriffen auftreten, tragen zur dritthäufigsten Todesursache weltweit bei. Eine der größten Herausforderungen der Chirurgen ist dabei die visuelle Unterscheidung von Gewebetypen. Die automatische Segmentierung chirurgischer Bilder mittels hyperspektraler Bildgebung (HSI) könnte sich hier als Schlüsseltechnologie erweisen. Der aktuelle Stand der Technik konzentriert sich jedoch auf RGB-Videos, welche nur über begrenzte Spektralinformationen verfügen und zudem meist aus minimalinvasiven Eingriffen stammen. Dahingegen bekommen HSI-Daten und Daten aus offenen Eingriffen bisher nur wenig Beachtung. Zudem sind diese Arbeitendurch die Verwendung von kleinen Datensätzen, eine geringe Probandenzahl oder eine begrenzte Anzahl von Gewebetypen charakterisiert. Die Segmentierung mit Hilfe von neuronalen Netzwerken ist vielversprechend, bringt jedoch eigene Herausforderungen mit sich. So sind die Generalisierbarkeit der Modelle bezüglich unbekannten Datenverteilungen, die Robustheit gegenüber Variationen in den Bildern und die Effizienz desTrainingsprozesses offene Probleme. Ziel dieser Arbeit ist es, diese Probleme zu lösen.
Wir analysieren die hochdimensionalen Spektralinformationen, um ein tieferes Verständnis der spektralen Eigenschaften und der Variabilität verschiedener Gruppen bezüglich der Gewebetypen zu bekommen. Mit Hilfe eines großen Datensatzes bestehend aus 9057 Bildern (annotiert mit 20 Klassen) von 46 Individuen, zeigen wir, dass eine vollautomatische Gewebeklassifizierung mit Hilfe eines neuronalen Netzwerkes eine Genauigkeit von 95.4 % (Standardabweichung (SD) 3.6 %) erreicht. Wir nutzen ein lineares gemischtes Modell, um aufzuzeigen, dass die wichtigste Quelle der Variabilität in den Spektraldaten auf das Gewebe und nicht auf die Aufnahmebedingungen zurückzuführen ist. Um den steigenden Bedarf an öffentlichen HSI-Datensätzen gerecht zu werden, machen wir einen Teil unserer Daten öffentlich zugänglich.
Für die Entwicklung eines Segmentierungsalgorithmus ist es notwendig, zahlreiche Netzwerke zu trainieren. Dabei sind Netzwerke, die auf HSI-Daten trainiert werden, aufgrund der hohen Spektraldichte ineffizient, da es zu Engpässen beim Laden der Daten kommt. Dies macht sich in langen Trainingszeiten, einer geringen Auslastung der Hardware sowie langen Prediktionszeiten bemerkbar. Um diese Engpässe zu beheben, vergleichen wir verschiedene Strategien zur Beschleunigung des Ladens der Daten und stellen dabei auch ein neues Konzept zur Optimierung des Transfers vom Arbeitsspeicher zur Gra-fikkarte (GPU) vor. Durch die Kombination aller Strategien erreichen wir eine 3.6-fache Beschleunigung der Trainingszeiten und eine nahezu gesättigte GPU-Auslastung.
Wir nutzen unsere optimierte Trainingspipeline, um eine robuste Segmentierung chirurgischer Szenen zu ermöglichen. Angesichts der Dominanz von RGB-Daten vergleichen wir den Nutzen von HSI-Daten mit RGB-Daten sowie mit verarbeiteten HSI-Daten (z. B. Gewebeparameter wie Perfusion). Da es noch unklar ist, wie HSI-Daten optimal von neuronalen Netzwerken verarbeitet werden können, untersuchen wir verschiedene Eingabedarstellungen unter Berücksichtigung der räumlichen Granularität (Pixel vs. Superpixel vs. Patches vs. Bilder). Im Rahmen einer umfassenden Validierungsstudie mit 506 Bildern (vollständig semantisch annotiert mit 19 Klassen) von 20 Individuen stellen wir fest, dassHSI-Daten RGB- und verarbeiteten HSI-Daten in allen räumlichen Granularitäten überlegen sind. Dabei vergrößert sich der Vorteil von HSI mit abnehmenden Kontext. Unser Netzwerk, welches auf HSI-Bildern trainiert wurde, belegt in unserer Studie durchweg den ersten Platz und erreicht einen durchschnittlichen Dice Ähnlichkeitskoeffizienten (DSC) von 0.90 (SD 0.04). Dies liegt im Bereich der Variabilität zwischen verschiedenen Annotatoren mit einem durchschnittlichen DSC von 0.89 (SD 0.07).
Obwohl neuronale Netzwerke sich im Allgemeinen als leistungsfähig erwiesen haben, sind sie nicht dafür bekannt, gut auf Daten aus unbekannten Verteilungen zu generalisieren. Daher analysieren wir die Einsatzfähigkeit unserer Netzwerke bezüglich drei verschiedener Bereiche: Variationen durch Individuen, Variationen durch geometrische Veränderungen und Variationen, die sich durch den Wechsel zwischen Spezien ergeben. Verschiedene Individuen haben dabei nur einen geringen Einfluss auf die Ergebnisse. Andererseits verschlechtert sich die Segmentierung erheblich, wenn Netzwerke mit geometrischen Änderungen konfrontiert werden (Abfall des DSC auf bis zu 0.48 (SD 0.38)). Wir lösen dieses Problem jedoch mit Hilfe einer einfachen und netzwerkunabhängigen Augmentierung, welche den DSC zurück auf 0.91 (SD 0.10) bringt. Dieses Ergebnis wird durch eine Validierungsstudie mit 600 vollständig semantisch annotierten Bildern von 33 Individuen untermauert. Dabei landet unsere Augmentierung im Vergleich mit anderen geometrischen Augmentierungen stets an erster Stelle. Den Wechsel der Spezien analysieren wir mit Hilfe eines großen menschlichen Datensatzes bestehend aus 777 Bildern von 230 Individuen (vollständig semantisch annotiert mit 16 Klassen). Dabei zeigen wir, dass die Segmentierung menschlicher Daten schwieriger ist und dass die Einbeziehung von Tierdaten im Training keinen direkten Vorteil bietet.
Zusammenfassend lässt sich sagen, dass unsere Segmentierungsnetzwerke erfolgreich mit HSI-Daten aus offenen Operationen umgehen und zwischen 19 Klassen unterscheiden können. Dabei lassen sich die Netzwerke effizient trainieren und sind robust gegenüber geometrischen Veränderungen. Unsere Ergebnisse werden dabei durch umfangreiche Validierungsstudien mit mehreren großen Datensätzen untermauert. Einige Datensätze haben wir auch der Öffentlichkeit zugänglich gemacht. Durch unsere Studien leisten wir einen wertvollen Beitrag zu dem allgemeinen Ziel, chirurgische Eingriffe zu verbessern, indem wir das Potenzial von HSI-Daten mit der Leistungsfähigkeit von neuronalen Netzwerken verbinden. Der Code für alle Experimente dieser Arbeit sowie die vortrainierten Modelle sind unter github.com/IMSY-DKFZ/htc frei verfügbar.
Document type: | Dissertation |
---|---|
Supervisor: | Maier-Hein, Prof. Dr. Lena |
Place of Publication: | Heidelberg |
Date of thesis defense: | 2 July 2024 |
Date Deposited: | 10 Jul 2024 09:53 |
Date: | 2024 |
Faculties / Institutes: | The Faculty of Mathematics and Computer Science > Department of Computer Science Service facilities > German Cancer Research Center (DKFZ) |
DDC-classification: | 004 Data processing Computer science 600 Technology (Applied sciences) |
Controlled Keywords: | Deep learning, Maschinelles Lernen, Künstliche Intelligenz, Bildgebendes Verfahren, Bildanalyse, Medizintechnik |
Uncontrolled Keywords: | hyperspectral imaging, hyperspectral tissue classification, organ segmentation, surgical scene segmentation, surgical data science, open surgery, deep learning, machine learning, domain generalization, geometrical domain shifts |