Directly to content
  1. Publishing |
  2. Search |
  3. Browse |
  4. Recent items rss |
  5. Open Access |
  6. Jur. Issues |
  7. DeutschClear Cookie - decide language by browser settings

Enhancing Biomarker Discovery in Tumor Hypoxia for Head and Neck Squamous Cell Carcinoma: Advancing Spatial Omics Data Accessibility through Convolutional Autoencoders

Bitto, Verena

[thumbnail of VerenaBitto_Thesis_final.pdf]
Preview
PDF, English - main document
Download (14MB) | Terms of use

Citation of documents: Please do not cite the URL that is displayed in your browser location input, instead use the DOI, URN or the persistent URL below, as we can guarantee their long-time accessibility.

Abstract

Spatial omics data shows potential to reveal novel insights into the underlying mechanisms of cancer. Yet the high-dimensional and highly correlated feature space imposes challenges on analysis. In this thesis, the implementation of convolutional autoencoders to extract explainable features for biomarker discovery is examined, exemplified on tumor hypoxia.

Mass spectrometry imaging and spatial transcriptomics experiments were performed on consecutive tissue slices of head and neck squamous cell carcinoma tumor models. To advance accessibility of these spatial omics modalities, data was reduced by convolutional autoencoders and the resulting latent space features were ranked for association with tumor hypoxia through random forest feature importance measures. With the help of a newly proposed recovery method, the contribution of original features to a latent feature was derived, thereby retaining biological relevant information. The derived genes and peptides were compared against the ranked genes and peptides of a random forest only model. The feature sets of the autoencoder approaches achieved consistently higher scores when evaluated using the structural similarity index measure. In contrast, the features of the random forest only models contained many more noisy hypoxia associations caused by the multicollinearity of features.

Several promising unimodal and multimodal biomarker candidates of mass spectrometry imaging and spatial transcriptomics data for tumor hypoxia were identified. Multimodal biomarkers were identified through correlation analysis of aligned serial tissue slices from both spatial omics modalities in four samples. For a more elaborate integration, it was outlined how the molecular information of multiple spatial omics modalities may be combined without error-prone alignment of consecutive tissue slices. Instead, the spatial omics modalities may be learned directly from the readily available microscopy images using convolutional neural networks. Then, the learned molecular information may be predicted from microscopy images of other spatial omics modalities. Preliminary results demonstrated that the learning of the latent space features of autoencoders yielded more accurate predictions than when learning was performed on the raw and sparse spatial omics features. However, it necessitates further investigation whether also hypoxia-associated features can be acquired accurately from microscopy images.

Overall, the findings show that convolutional autoencoders accompanied by random forest models retain more biological relevant information for biomarker discovery than without prior feature extraction. Considering the increasing amount of available (spatial) omics data, deep learning feature extraction will become evermore important. This thesis contributes to the overall understanding of autoencoders by showcasing how specific characteristics in spatial omics data reflect in the latent space and how they can be addressed through hyperparameter configurations.

Translation of abstract (German)

Räumlich aufgelöste Omics-Daten könnten einen wichtigen Beitrag dazu leisten, bisher unbekannte Mechanismen von Krebs zu erforschen. Allerdings ist die Analyse von diesen hochdimensionalen und zugleich stark korrelierenden Daten schwierig. Diese Arbeit untersucht, inwiefern Convolutional Autoencoder erklärbare Features extrahieren können, die zur Identifikation neuer Biomarker für Tumor Hypoxie genutzt werden können. Erklärbar bedeutet in diesem Zusammenhang, dass eine Verknüpfung mit den ursprünglichen Features ermöglicht werden soll, um den molekularen Kontext zu erhalten.

Für diese Arbeit wurden Mass Spectrometry Imaging und Spatial Transcriptomics Experimente auf konsekutiven Tumorschnitten mehrerer Kopf-Hals-Karzinom-Modelle durchgeführt. Diese räumlich aufgelösten Omics-Daten wurden mittels Convolutional Autoencoder kodiert und die resultierenden latenten Features wurden auf Assoziationen mit Hypoxie überprüft. Die Relevanz der Assoziationen wurden mittels Feature Importance Metriken von Random Forest Modellen bestimmt. Eine von mir neu entwickelte Methode erlaubt dabei, den Beitrag aller ursprünglichen Features auf ein latentes Feature abzuschätzen. Die dadurch identifizierten Gene und Peptide wurden mit jenen verglichen, die aus reinen Random Forest Modellen abgeleitet werden können. Die Features, die durch den Autoencoder gewonnen wurden, wiesen dabei eine konsistent höhere Ähnlichkeit zueinander auf (gemäß dem Index für strukturelle Ähnlichkeit), als die Features aus den alleinigen Random Forest Modellen. Die Features der Random Forest only Modelle führten dabei zugleich zu deutlich mehr falsch-positiven Assoziationen zu Hypoxie, was vermutlich auf die Multikollinearität der Features zurückzuführen ist.

Mehrere unimodale und multimodale Biomarker-Kandidaten für Hypoxie wurden aus Mass Spectrometry Imaging und Spatial Transcriptomics Daten abgeleitet. Die multimodalen Biomarker-Kandidaten wurden mittels Korrelationsanalyse von alignierten konsekutiven Tumorschnitten identifiziert. Im letzten Teil dieser Arbeit wurde untersucht, ob Deep Learning Modelle für die Integration der Omics-Daten, als Alternative zu der fehleranfälligen Co-Registrierung von konsekutiven Schnitten, genutzt werden können. Ziel hierbei ist, molekulare Informationen auf Basis von Mikroskopbilder zu erlernen und auf Mikroskopbildern anderer (Omics-)Experimente anzuwenden. Im Rahmen dieser Arbeit wurde gezeigt, dass das Erlernen von Peptidinformationen aus Mikroskopbildern grundsätzlich möglich ist, insbesondere dann, wenn anstelle der Rohdaten, die extrahierten Features des Autoencoders verwendet wurden. Allerdings sind weitere Untersuchungen notwendig um herauszufinden, inwiefern sich auch Peptide, die mit Hypoxie assoziiert sind, durch vorhandene Strukturen in Mikroskopbilder erlernen lassen.

Die Ergebnisse dieser Thesis zeigen, dass Convolutional Autoencoder in Kombination mit Random Forest Modellen zuverlässigere biologische Informationen extrahieren können als ohne vorausgegangene Reduktion der Daten. Berücksichtigt man, dass die Anzahl und Menge an Omics-Daten weiter steigen wird, so ist es naheliegend, dass Methoden zur Feature Extraktion weiter an Relevanz gewinnen werden. Diese Arbeit trägt zum allgemeinen Verständnis von Autoencodern bei, indem gezeigt wird, wie sich bestimmte Datencharakteristiken auf die latenten Features auswirken können, beziehungsweise, wie Hyperparameter konfiguriert werden müssen um erklärbare Features zu extrahieren.

Document type: Dissertation
Supervisor: Maier-Hein, Prof. Dr. Klaus H.
Place of Publication: Heidelberg
Date of thesis defense: 3 June 2024
Date Deposited: 05 Jun 2024 09:40
Date: 2024
Faculties / Institutes: The Faculty of Mathematics and Computer Science > Department of Computer Science
Service facilities > German Cancer Research Center (DKFZ)
DDC-classification: 004 Data processing Computer science
570 Life sciences
Controlled Keywords: Explainable Artificial Intelligence, Neuronales Netz, Omics-Technologie, MALDI-MS, Biomarker, Hypoxie
Uncontrolled Keywords: Autoencoder, Random Forest, Biomarker Discovery, Mass Spectrometry Imaging, Spatial Transcriptomics
About | FAQ | Contact | Imprint |
OA-LogoDINI certificate 2013Logo der Open-Archives-Initiative