Directly to content
  1. Publishing |
  2. Search |
  3. Browse |
  4. Recent items rss |
  5. Open Access |
  6. Jur. Issues |
  7. DeutschClear Cookie - decide language by browser settings

Current Challenges in the Application of Algorithms in Multi-institutional Clinical Settings

Kades, Klaus

German Title: Aktuelle Herausforderungen bei der Anwendung von Algorithmen in multizentrischen klinischen Umgebungen

[thumbnail of Dissertation_Klaus_Kades.pdf]
Preview
PDF, English - main document
Download (9MB) | Terms of use

Citation of documents: Please do not cite the URL that is displayed in your browser location input, instead use the DOI, URN or the persistent URL below, as we can guarantee their long-time accessibility.

Abstract

The Coronavirus disease pandemic has highlighted the importance of artificial intelligence in multi-institutional clinical settings. Particularly in situations where the healthcare system is overloaded, and a lot of data is generated, artificial intelligence has great potential to provide automated solutions and to unlock the untapped potential of acquired data. This includes the areas of care, logistics, and diagnosis. For example, automated decision support applications could tremendously help physicians in their daily clinical routine. Especially in radiology and oncology, the exponential growth of imaging data, triggered by a rising number of patients, leads to a permanent overload of the healthcare system, making the use of artificial intelligence inevitable. However, the efficient and advantageous application of artificial intelligence in multi-institutional clinical settings faces several challenges, such as accountability and regulation hurdles, implementation challenges, and fairness considerations. This work focuses on the implementation challenges, which include the following questions: How to ensure well-curated and standardized data, how do algorithms from other domains perform on multi-institutional medical datasets, and how to train more robust and generalizable models? Also, questions of how to interpret results and whether there exist correlations between the performance of the models and the characteristics of the underlying data are part of the work. Therefore, besides presenting a technical solution for manual data annotation and tagging for medical images, a real-world federated learning implementation for image segmentation is introduced. Experiments on a multi-institutional prostate magnetic resonance imaging dataset showcase that models trained by federated learning can achieve similar performance to training on pooled data. Furthermore, Natural Language Processing algorithms with the tasks of semantic textual similarity, text classification, and text summarization are applied to multi-institutional, structured and free-text, oncology reports. The results show that performance gains are achieved by customizing state-of-the-art algorithms to the peculiarities of the medical datasets, such as the occurrence of medications, numbers, or dates. In addition, performance influences are observed depending on the characteristics of the data, such as lexical complexity. The generated results, human baselines, and retrospective human evaluations demonstrate that artificial intelligence algorithms have great potential for use in clinical settings. However, due to the difficulty of processing domain-specific data, there still exists a performance gap between the algorithms and the medical experts. In the future, it is therefore essential to improve the interoperability and standardization of data, as well as to continue working on algorithms to perform well on medical, possibly, domain-shifted data from multiple clinical centers.

Translation of abstract (German)

Die Coronavirus-Pandemie hat die Bedeutung von künstlicher Intelligenz in multizentrischen klinischen Settings besonders deutlich gemacht. Vor allem in Situationen, in denen das Gesundheitssystem überlastet ist und gleichzeitig viele Daten generiert werden, kann künstliche Intelligenz automatisierte Lösungen anbieten, um das hohe Potenzial erfasster Daten besser zu nutzen. Dies trifft insbesondere in den Bereichen Pflege, Logistik und Diagnose zu. So könnten beispielsweise automatisierte Anwendungen Ärzte in ihrer täglichen klinischen Routine bei Entscheidungen enorm unterstützen. Gerade in der Radiologie und Onkologie führt das exponentielle Wachstum der auszuwertenden Bilddaten, unter anderem ausgelöst durch eine steigende Zahl von Patienten, zu einer permanenten Überlastung des Gesundheitssystems, was den Einsatz von künstlicher Intelligenz unumgänglich macht. Die effiziente und vorteilbringende Anwendung von künstlicher Intelligenz in klinischen Settings mit mehreren Institutionen steht jedoch vor verschiedenen Herausforderungen, wie zum Beispiel Hürden bei Verantwortlichkeiten und Regulierungen, Implementierungsproblemen und Fairnessüberlegungen. Diese Arbeit konzentriert sich auf die Herausforderungen bei der Implementierung, zu denen die folgenden Fragestellungen gehören: Wie können gut kuratierte und standardisierte Daten erstellt werden? Wie schneiden Algorithmen aus anderen Domänen angewandt auf medizinische Datensätze verschiedener Institutionen ab? Und wie können robuste und generalisierte Modelle trainiert werden? Weiterhin wird diskutiert, wie die Ergebnisse zu interpretieren sind und ob es Korrelationen zwischen der Performance der Modelle und den Eigenschaften der zugrunde liegenden Daten gibt. Daher wird in dieser Arbeit nicht nur eine technische Lösung für die manuelle Datenannotation und das Tagging von medizinischen Bildern vorgestellt, sondern auch eine praxisbezogene Implementierung von föderiertem Lernen für die Bildsegmentierung präsentiert. Experimente auf einem Prostata-Datensatz verschiedener Institutionen zeigen, dass Modelle, die durch föderiertes Lernen trainiert werden, ähnliche Ergebnisse erzielen können wie durch das Training auf zusammengeführten Daten. Darüber hinaus werden Algorithmen der natürlichen Sprachverarbeitung auf strukturierte und Freitext-Onkologie Befunde mehrerer Institutionen angewendet. Hierbei werden vor allem die Themenbereiche der semantischen Ähnlichkeit zwischen Texten, sowie der Klassifizierung und der Zusammenfassung von Texten behandelt. Die Ergebnisse zeigen, dass die state-of-the-art Algorithmen eine verbesserte Performance erreichen können, indem diese an die Besonderheiten der medizinischen Datensätze anpasst werden. Dies betrifft zum Beispiel das Vorkommen von Medikamenten, Zahlen oder Daten in medizinischen Texten. Darüber hinaus werden Leistungsunterschiede in Abhängigkeit von den Eigenschaften der Daten wie der lexikalischen Komplexität beobachtet. Die generierten Ergebnisse, die Baselines der Annotatoren und die retrospektiven Bewertungen von Annotatoren zeigen, dass Algorithmen der künstlichen Intelligenz großes Potenzial für den Einsatz im klinischen Umfeld haben. Allerdings besteht aufgrund der erschwerten Verarbeitung domänenspezifischer Daten immer noch eine Lücke zwischen der Performance von Algorithmen und medizinischen Experten. In Zukunft ist es demnach wichtig, die Interoperabilität und die Standardisierung von Daten zu verbessern und weiterhin an Algorithmen zu arbeiten, die auf medizinischen, möglicherweise multizentrischen Daten aus mehreren Kliniken gut funktionieren.

Document type: Dissertation
Supervisor: Maier-Hein, Prof. Dr. Klaus
Place of Publication: Heidelberg
Date of thesis defense: 19 April 2023
Date Deposited: 15 May 2023 12:52
Date: 2023
Faculties / Institutes: The Faculty of Mathematics and Computer Science > Department of Computer Science
DDC-classification: 000 Generalities, Science
004 Data processing Computer science
Uncontrolled Keywords: Natural Language Processing, Cloud Development, Medical Image Computing, Federated Learning
About | FAQ | Contact | Imprint |
OA-LogoDINI certificate 2013Logo der Open-Archives-Initiative