eprintid: 32986 rev_number: 15 eprint_status: archive userid: 7263 dir: disk0/00/03/29/86 datestamp: 2023-03-10 09:36:11 lastmod: 2023-04-03 14:25:46 status_changed: 2023-03-10 09:36:11 type: doctoralThesis metadata_visibility: show creators_name: Reinke, Annika title: Eliminating flaws in biomedical image analysis validation title_de: Eliminierung von Fehlern bei der Validierung biomedizinischer Algorithmen subjects: ddc-000 divisions: i-110300 adv_faculty: af-11 cterms_swd: Challenges cterms_swd: Validation cterms_swd: Image Analysis abstract: The field of automatic biomedical image analysis substantially benefits from the rise of Artificial Intelligence (AI). Proper validation of those AI algorithms is, however, frequently neglected in favor of a strong focus on the development and exploration of new models. This research practice can, however, be risky since it may propagate poorly validated algorithms that could cause adverse outcomes for patients. Thus, a thorough and high-quality validation is crucial for any algorithm to potentially be used in clinical practice. This particularly holds true for biomedical image analysis competitions, so-called challenges, which have emerged as the state-of-the-art technique for comparative assessment of AI algorithms and determining which is the most effective in solving a certain research question. Challenges have strong implications. While challenge winners typically receive large monetary awards and are highly cited, the algorithm also stands a better chance of being translated into clinical practice. Given the tremendous importance of challenges, it is surprising that hardly any attention has so far been given to quality control. The objective of the work presented in this thesis was to analyze common practice in challenges, to systematically reveal flaws in both challenges and general image analysis validation, to propose solutions to eliminate those issues and to improve general validation practice. Contributions related to the analysis of flaws and strategies for improvement are presented for four areas: challenge design, validation metrics, rankings, as well as reporting and result analysis. First, we demonstrate that challenges are highly heterogeneous yet not standardized, making it difficult to assess their overall quality. We further show that the research community is concerned about critical quality issues of challenges. The community eagerly asked for more quality control and best practice recommendations. Moreover, we evidence how effortlessly both challenge participants and organizers could, in theory, manipulate challenges by taking advantage of potential security holes in the challenge design. To compensate for this issue, we introduce a structured challenge submission system to collect comprehensive information about the challenge design, which can then be critically reviewed by independent referees. We further demonstrate that validation metrics, the key measures in the assessment of AI algorithms, come with critical limitations that are often not taken into account during validation. In fact, researchers typically favor the use of common metrics without being aware of the numerous pitfalls pertaining to their use. An exhaustive list of metric-related pitfalls in the context of image-level classification, semantic segmentation, instance segmentation, and object detection tasks is provided in this thesis. To promote the selection of validation metrics based on their suitability to the underlying research problem rather than popularity, we propose a problem-driven metric recommendation framework that empowers researchers to make educated decisions while being made aware of the pitfalls to avoid. Since challenge rankings are an integral part of competitions, we place particular emphasis on analyzing the stability and robustness of rankings against changes in the ranking computation method. We demonstrate that rankings are typically unstable, meaning that an algorithm could win a challenge simply due to the nature of a ranking calculation scheme and not due to actually being the best fit for solving a particular research task. To enable uncertainty-based ranking analysis, we present an open-source toolkit that includes several analysis and advanced visualization techniques for challenges and general benchmarking experiments. Finally, the transparency of validation studies is one of the core elements of high-quality research and should thus be carefully considered. However, our analysis of the transparency and reproducibility of both challenge design and participating algorithms shows that this is often not the case, substantially decreasing the interpretability of challenge results. To facilitate and enhance challenge transparency, we present a guideline for challenge reporting. In addition, we introduce the concept of challenge registration, i.e. publishing the complete challenge design before execution. This concept is already successfully applied in clinical trials and increases the transparency and reliability of a challenge, as it makes substantial changes in the design traceable. Finally, we show that challenge results can be used for a dedicated strength-weakness analysis of participating algorithms, from which future algorithm development could heavily benefit in addressing unsolved issues. In summary, this thesis uncovers several critical flaws in biomedical image analysis challenges and algorithm validation. In response, it also introduces several measures that have already proven their practice-changing impact and substantially increased the overall quality of challenges, especially for the well-known Medical Image Computing and Computer Assisted Interventions (MICCAI) and IEEE International Symposium on Biomedical Imaging (ISBI) conferences. The suggested advancements in challenge design promise to give rise to competitions with a higher level of reliability, interpretability, and trust. The overall findings and suggested improvements are not specific to challenges alone, but also generalize to the entire field of algorithm validation. The presented thesis thus paves the way for high-quality and thorough validation of AI algorithms, which is crucial to avoiding translating inefficient or clinically useless algorithms into clinical practice. abstract_translated_text: Automatisierte biomedizinische Bildanalyseverfahren können erheblich von Künstlicher Intelligenz (KI) profitieren. Die Validierung solcher Algorithmen wird oft von Wissenschaftler:innen unterschätzt, die sich primär mit der Entwicklung und Erforschung neuer Modelle und Algorithmen beschäftigen. Diese Forschungspraxis kann durchaus riskant sein, wenn sie schlecht validierte Algorithmen propagiert, die für Patienten nachteilige Folgen haben könnten. Daher ist eine gründliche und qualitativ hochwertige Validierung von entscheidender Bedeutung für jeden Algorithmus, der potenziell in der klinischen Praxis eingesetzt werden soll. Dies gilt insbesondere für Wettbewerbe in der biomedizinischen Bildanalyse, sogenannte Challenges, welche als Standard-Methodik zur vergleichenden Analyse von KI-Algorithmen und zur Ermittlung des effektivsten Algorithmus für die Lösung einer bestimmten Forschungsfrage fungieren. Challenges haben starke Implikationen. Die Gewinner einer Challenge erhalten typischerweise hohe Preisgelder und werden häufig zitiert. Zudem ist die Wahrscheinlichkeit höher, dass der entsprechende Algorithmus in die klinische Praxis überführt wird. Angesichts der Relevanz von Challenges ist es überraschend, dass ihrer Qualitätskontrolle bisher kaum Aufmerksamkeit geschenkt wurde. Ziel dieser Arbeit war es, die gängige Praxis von Challenges zu analysieren, systematisch Schwachstellen in Challenges und der allgemeinen Validierung von biomedizinischen Bildanalysealgorithmen aufzudecken und Lösungen zur Beseitigung dieser Probleme sowie zur Verbesserung der generellen Validierungspraxis vorzuschlagen. In dieser Arbeit werden Beiträge zur Analyse von Fehlern und Verbesserungsstrategien für vier Bereiche vorgestellt: Design von Challenges, Validierungsmetriken, Ranglisten sowie Berichterstattung und Ergebnisanalyse. Wir demonstrieren zunächst die Heterogenität und fehlende Standardisierung von Challenges, welche eine Bewertung ihrer Gesamtqualität erschwert. Wir zeigen außerdem, dass die Forschungsgemeinschaft über kritische Qualitätsprobleme von Challenges besorgt ist. Die Forschungsgemeinschaft verlangt mehrheitlich mehr Qualitätskontrolle und Empfehlungen zu guter wissenschaftlicher Praxis. Darüber hinaus zeigen wir experimentell, dass es sowohl für Challenge-Teilnehmer:innen als auch -Organisator:innen theoretisch möglich wäre, Challenges durch die Ausnutzung potentieller Sicherheitslücken im Design zu manipulieren. Um dieses Problem zu kompensieren, führen wir ein strukturiertes Onlinesystem zur Einreichung von Challenges ein, um umfassende Informationen über den Aufbau einer Challenge zu sammeln, welche darüber hinaus von unabhängigen Gutachtern kritisch geprüft werden können. Ferner weisen wir nach, dass Validierungsmetriken, die wichtigsten Maßstäbe für die Bewertung von KI-Algorithmen, mit kritischen Einschränkungen verbunden sind, die bei der Validierung oft nicht berücksichtigt werden. Tatsächlich bevorzugen Forscher:innen in der Regel gängige Metriken, ohne sich der zahlreichen Probleme bewusst zu sein, die mit ihrer Verwendung verbunden sein können. Diese Arbeit beinhaltet einen umfassenden Überblick über Fallstricke in Bezug auf Metriken im Kontext von Klassifizierungsproblemen, der semantischen und Instanzsegmentierung sowie der Objekterkennung. Um zu vermeiden, dass Validierungsmetriken nur aufgrund ihrer Popularität ausgewählt werden, präsentieren wir ein problemorientiertes Empfehlungssystem für Metriken, welches es Forscher:innen ermöglicht, fundierte Entscheidungen zu treffen, während sie gleichzeitig auf zu vermeidende Fallstricke aufmerksam gemacht werden. Da Challenge-Ranglisten ein integraler Bestandteil von Wettbewerben sind, legen wir besonderen Wert auf die Analyse der Stabilität und Robustheit von Ranglisten gegenüber Änderungen in deren Berechnungsmethode. Wir zeigen, dass Ranglisten in der Regel instabil sind, was bedeutet, dass ein Algorithmus eine Challenge nur aufgrund der Beschaffenheit der Berechnungsmethode der Rangliste gewinnen könnte, und nicht aufgrund seiner Eignung für eine bestimmte Forschungsfrage. Um eine auf Unsicherheit basierende Analyse von Ranglisten zu ermöglichen, stellen wir ein Open-Source-Toolkit vor, das verschiedene Analyse- und fortgeschrittene Visualisierungstechniken für Challenges und allgemeine Benchmarking-Experimente enthält. Schließlich befassen wir uns mit der Transparenz von Validierungsstudien, welche eines der Kernelemente qualitativ hochwertiger Forschung darstellt und kritisch geprüft werden sollte. Unsere Analyse der Transparenz und Reproduzierbarkeit sowohl des Challenge-Designs als auch der teilnehmenden Algorithmen zeigt jedoch, dass dies häufig nicht der Fall ist, wodurch die Interpretierbarkeit von Challenge-Ergebnissen erheblich einschränkt wird. Um die Transparenz von Challenges zu verbessern, stellen wir eine Leitlinie zur Beschreibung und Dokumentation von Challenges vor. Darüber hinaus präsentieren wir das Konzept der Challenge-Registrierung, bei dem das vollständige Challenge-Design bereits vor deren Durchführung veröffentlicht wird. Dieses Konzept wird bereits erfolgreich in klinischen Studien angewandt und erhöht die Transparenz und Zuverlässigkeit einer Challenge, da es gravierende Änderungen des Designs rückverfolgbar macht. Schließlich demonstrieren wir, dass die Ergebnisse von Challenges für eine dedizierte Stärken-Schwächen-Analyse der teilnehmenden Algorithmen verwendet werden können. Von einer solchen Analyse kann künftige Algorithmenentwicklung stark profitieren, um bislang ungelöste Probleme zu adressieren. Zusammenfassend deckt diese Arbeit mehrere kritische Mängel auf dem Gebiet von Challenges und der Validierung biomedizinischer Bildanalyseverfahren auf. Die präsentierten Mängel werden um entsprechende Lösungsansätze ergänzt, welche bereits in der Praxis umgesetzt werden und die Gesamtqualität von Challenges erheblich verbessert haben, vor allem im Rahmen der bekannten Konferenzen Medical Image Computing and Computer Assisted Interventions (MICCAI) und IEEE International Symposium on Biomedical Imaging (ISBI). Die vorgeschlagenen Verbesserungen versprechen Challenges mit einem höheren Maß an Zuverlässigkeit, Interpretierbarkeit und Vertrauen. Die allgemeinen Erkenntnisse und Verbesserungsvorschläge sind nicht spezifisch für Challenges, sondern lassen sich auch auf das gesamte Gebiet der Algorithmenvalidierung übertragen. Die vorliegende Arbeit bereitet damit den Weg für die hochwertige und gründliche Validierung von KI-Algorithmen, was entscheidend dazu beiträgt, die Übertragung ineffizienter oder klinisch nutzloser Algorithmen in die klinische Praxis zu verhindern. abstract_translated_lang: ger date: 2023 id_scheme: DOI id_number: 10.11588/heidok.00032986 ppn_swb: 184107652X own_urn: urn:nbn:de:bsz:16-heidok-329860 date_accepted: 2023-03-03 advisor: HASH(0x561a628bf6b8) language: eng bibsort: REINKEANNIELIMINATIN202303 full_text_status: public place_of_pub: Heidelberg citation: Reinke, Annika (2023) Eliminating flaws in biomedical image analysis validation. [Dissertation] document_url: https://archiv.ub.uni-heidelberg.de/volltextserver/32986/1/phd_thesis_reinke_bib.pdf