<> <http://www.w3.org/2000/01/rdf-schema#comment> "The repository administrator has not yet configured an RDF license."^^<http://www.w3.org/2001/XMLSchema#string> .
<> <http://xmlns.com/foaf/0.1/primaryTopic> <https://archiv.ub.uni-heidelberg.de/volltextserver/id/eprint/33967> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/eprint/33967> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://purl.org/ontology/bibo/Article> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/eprint/33967> <http://purl.org/dc/terms/title> "Comprehensive Evaluation of Machine Learning Experiments:\r\nAlgorithm Comparison, Algorithm Performance and Inferential Reproducibility"^^<http://www.w3.org/2001/XMLSchema#string> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/eprint/33967> <http://purl.org/ontology/bibo/abstract> "This doctoral thesis addresses critical methodological aspects within machine learning experimentation, focusing on enhancing the evaluation and analysis of algorithm performance. The established \"train-dev-test paradigm\" commonly guides machine learning practitioners, involving nested optimization processes to optimize model parameters and meta-parameters and benchmarking against test data. However, this paradigm overlooks crucial aspects, such as algorithm variability and the intricate relationship between algorithm performance and meta-parameters. This work introduces a comprehensive framework that employs statistical techniques to bridge these gaps, advancing the methodological standards in empirical machine learning research.\r\nThe foundational premise of this thesis lies in differentiating between algorithms and classifiers, recognizing that an algorithm may yield multiple classifiers due to inherent stochasticity or design choices. Consequently, algorithm performance becomes inherently probabilistic and cannot be captured by a single metric. The contributions of this work are structured around three core themes:\r\n\r\nAlgorithm Comparison: A fundamental aim of empirical machine learning research is algorithm comparison. To this end, the thesis proposes utilizing Linear Mixed Effects Models (LMEMs) for analyzing evaluation data. LMEMs offer distinct advantages by accommodating complex data structures beyond the typical independent and identically distributed (iid) assumption. Thus LMEMs enable a holistic analysis of algorithm instances and facilitate the construction of nuanced conditional models of expected risk, supporting algorithm comparisons based on diverse data properties.\r\n\r\nAlgorithm Performance Analysis: Contemporary evaluation practices often treat algorithms and classifiers as black boxes, hindering insights into their performance and parameter dependencies. Leveraging LMEMs, specifically implementing Variance Component Analysis, the thesis introduces methods from psychometrics to quantify algorithm performance homogeneity (reliability) and assess the influence of meta-parameters on performance. The flexibility of LMEMs allows a granular analysis of this relationship and extends these techniques to analyze data annotation processes linked to algorithm performance.\r\n\r\nInferential Reproducibility: Building upon the preceding chapters, this section showcases a unified approach to analyze machine learning experiments comprehensively. By leveraging the full range of generated model instances, the analysis provides a nuanced understanding of competing algorithms. The outcomes offer implementation guidelines for algorithmic modifications and consolidate incongruent findings across diverse datasets, contributing to a coherent empirical perspective on algorithmic effects.\r\n\r\nThis work underscores the significance of addressing algorithmic variability, meta-parameter impact, and the probabilistic nature of algorithm performance. This thesis aims to enhance machine learning experiments' transparency, reproducibility, and interpretability by introducing robust statistical methodologies facilitating extensive empirical analysis. It extends beyond conventional guidelines, offering a principled approach to advance the understanding and evaluation of algorithms in the evolving landscape of machine learning and data science."^^<http://www.w3.org/2001/XMLSchema#string> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/eprint/33967> <http://purl.org/dc/terms/date> "2023" .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251360> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://purl.org/ontology/bibo/Document> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/eprint/33967> <http://www.w3.org/2002/07/owl#sameAs> <https://doi.org/10.11588/heidok.00033967> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/eprint/33967> <http://purl.org/dc/terms/creator> <https://archiv.ub.uni-heidelberg.de/volltextserver/id/person/ext-d01658f51ed2214b2fac48802f29effd> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/eprint/33967> <http://purl.org/ontology/bibo/authorList> <https://archiv.ub.uni-heidelberg.de/volltextserver/id/eprint/33967#authors> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/eprint/33967#authors> <http://www.w3.org/1999/02/22-rdf-syntax-ns#_1> <https://archiv.ub.uni-heidelberg.de/volltextserver/id/person/ext-d01658f51ed2214b2fac48802f29effd> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/person/ext-d01658f51ed2214b2fac48802f29effd> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://xmlns.com/foaf/0.1/Person> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/person/ext-d01658f51ed2214b2fac48802f29effd> <http://xmlns.com/foaf/0.1/givenName> "Michael"^^<http://www.w3.org/2001/XMLSchema#string> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/person/ext-d01658f51ed2214b2fac48802f29effd> <http://xmlns.com/foaf/0.1/familyName> "Hagmann"^^<http://www.w3.org/2001/XMLSchema#string> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/person/ext-d01658f51ed2214b2fac48802f29effd> <http://xmlns.com/foaf/0.1/name> "Michael Hagmann"^^<http://www.w3.org/2001/XMLSchema#string> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/eprint/33967> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://eprints.org/ontology/EPrint> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/eprint/33967> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://eprints.org/ontology/DoctoralThesisEPrint> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/eprint/33967> <http://purl.org/dc/terms/isPartOf> <https://archiv.ub.uni-heidelberg.de/volltextserver/id/repository> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/eprint/33967> <http://eprints.org/ontology/hasDocument> <https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251360> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251360> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://eprints.org/ontology/Document> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251360> <http://www.w3.org/2000/01/rdf-schema#label> "Comprehensive Evaluation of Machine Learning Experiments:\r\nAlgorithm Comparison, Algorithm Performance and Inferential Reproducibility (PDF)"^^<http://www.w3.org/2001/XMLSchema#string> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251360> <http://eprints.org/ontology/hasFile> <https://archiv.ub.uni-heidelberg.de/volltextserver/33967/1/michael_hagman_phd.pdf> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251360> <http://purl.org/dc/terms/hasPart> <https://archiv.ub.uni-heidelberg.de/volltextserver/33967/1/michael_hagman_phd.pdf> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/33967/1/michael_hagman_phd.pdf> <http://www.w3.org/2000/01/rdf-schema#label> "michael_hagman_phd.pdf"^^<http://www.w3.org/2001/XMLSchema#string> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/eprint/33967> <http://eprints.org/ontology/hasDocument> <https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251361> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251361> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://eprints.org/ontology/Document> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251361> <http://www.w3.org/2000/01/rdf-schema#label> "Comprehensive Evaluation of Machine Learning Experiments:\r\nAlgorithm Comparison, Algorithm Performance and Inferential Reproducibility (Other)"^^<http://www.w3.org/2001/XMLSchema#string> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251361> <http://eprints.org/relation/isVersionOf> <https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251360> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251361> <http://eprints.org/relation/isVolatileVersionOf> <https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251360> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251361> <http://eprints.org/relation/isIndexCodesVersionOf> <https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251360> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251361> <http://eprints.org/ontology/hasFile> <https://archiv.ub.uni-heidelberg.de/volltextserver/33967/2/indexcodes.txt> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251361> <http://purl.org/dc/terms/hasPart> <https://archiv.ub.uni-heidelberg.de/volltextserver/33967/2/indexcodes.txt> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/33967/2/indexcodes.txt> <http://www.w3.org/2000/01/rdf-schema#label> "indexcodes.txt"^^<http://www.w3.org/2001/XMLSchema#string> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/eprint/33967> <http://eprints.org/ontology/hasDocument> <https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251362> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251362> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://eprints.org/ontology/Document> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251362> <http://www.w3.org/2000/01/rdf-schema#label> "Comprehensive Evaluation of Machine Learning Experiments:\r\nAlgorithm Comparison, Algorithm Performance and Inferential Reproducibility (Other)"^^<http://www.w3.org/2001/XMLSchema#string> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251362> <http://eprints.org/relation/isVersionOf> <https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251360> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251362> <http://eprints.org/relation/isVolatileVersionOf> <https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251360> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251362> <http://eprints.org/relation/islightboxThumbnailVersionOf> <https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251360> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251362> <http://eprints.org/ontology/hasFile> <https://archiv.ub.uni-heidelberg.de/volltextserver/33967/3/lightbox.jpg> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251362> <http://purl.org/dc/terms/hasPart> <https://archiv.ub.uni-heidelberg.de/volltextserver/33967/3/lightbox.jpg> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/33967/3/lightbox.jpg> <http://www.w3.org/2000/01/rdf-schema#label> "lightbox.jpg"^^<http://www.w3.org/2001/XMLSchema#string> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/eprint/33967> <http://eprints.org/ontology/hasDocument> <https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251363> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251363> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://eprints.org/ontology/Document> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251363> <http://www.w3.org/2000/01/rdf-schema#label> "Comprehensive Evaluation of Machine Learning Experiments:\r\nAlgorithm Comparison, Algorithm Performance and Inferential Reproducibility (Other)"^^<http://www.w3.org/2001/XMLSchema#string> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251363> <http://eprints.org/relation/isVersionOf> <https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251360> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251363> <http://eprints.org/relation/isVolatileVersionOf> <https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251360> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251363> <http://eprints.org/relation/ispreviewThumbnailVersionOf> <https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251360> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251363> <http://eprints.org/ontology/hasFile> <https://archiv.ub.uni-heidelberg.de/volltextserver/33967/4/preview.jpg> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251363> <http://purl.org/dc/terms/hasPart> <https://archiv.ub.uni-heidelberg.de/volltextserver/33967/4/preview.jpg> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/33967/4/preview.jpg> <http://www.w3.org/2000/01/rdf-schema#label> "preview.jpg"^^<http://www.w3.org/2001/XMLSchema#string> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/eprint/33967> <http://eprints.org/ontology/hasDocument> <https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251364> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251364> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://eprints.org/ontology/Document> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251364> <http://www.w3.org/2000/01/rdf-schema#label> "Comprehensive Evaluation of Machine Learning Experiments:\r\nAlgorithm Comparison, Algorithm Performance and Inferential Reproducibility (Other)"^^<http://www.w3.org/2001/XMLSchema#string> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251364> <http://eprints.org/relation/isVersionOf> <https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251360> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251364> <http://eprints.org/relation/isVolatileVersionOf> <https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251360> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251364> <http://eprints.org/relation/ismediumThumbnailVersionOf> <https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251360> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251364> <http://eprints.org/ontology/hasFile> <https://archiv.ub.uni-heidelberg.de/volltextserver/33967/5/medium.jpg> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251364> <http://purl.org/dc/terms/hasPart> <https://archiv.ub.uni-heidelberg.de/volltextserver/33967/5/medium.jpg> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/33967/5/medium.jpg> <http://www.w3.org/2000/01/rdf-schema#label> "medium.jpg"^^<http://www.w3.org/2001/XMLSchema#string> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/eprint/33967> <http://eprints.org/ontology/hasDocument> <https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251365> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251365> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://eprints.org/ontology/Document> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251365> <http://www.w3.org/2000/01/rdf-schema#label> "Comprehensive Evaluation of Machine Learning Experiments:\r\nAlgorithm Comparison, Algorithm Performance and Inferential Reproducibility (Other)"^^<http://www.w3.org/2001/XMLSchema#string> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251365> <http://eprints.org/relation/isVersionOf> <https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251360> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251365> <http://eprints.org/relation/isVolatileVersionOf> <https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251360> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251365> <http://eprints.org/relation/issmallThumbnailVersionOf> <https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251360> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251365> <http://eprints.org/ontology/hasFile> <https://archiv.ub.uni-heidelberg.de/volltextserver/33967/6/small.jpg> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/document/251365> <http://purl.org/dc/terms/hasPart> <https://archiv.ub.uni-heidelberg.de/volltextserver/33967/6/small.jpg> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/33967/6/small.jpg> <http://www.w3.org/2000/01/rdf-schema#label> "small.jpg"^^<http://www.w3.org/2001/XMLSchema#string> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/eprint/33967> <http://www.w3.org/2000/01/rdf-schema#seeAlso> <https://archiv.ub.uni-heidelberg.de/volltextserver/33967/> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/33967/> <http://purl.org/dc/elements/1.1/title> "HTML Summary of #33967 \n\nComprehensive Evaluation of Machine Learning Experiments:&#13;\nAlgorithm Comparison, Algorithm Performance and Inferential Reproducibility\n\n" .
<https://archiv.ub.uni-heidelberg.de/volltextserver/33967/> <http://purl.org/dc/elements/1.1/format> "text/html" .
<https://archiv.ub.uni-heidelberg.de/volltextserver/33967/> <http://xmlns.com/foaf/0.1/primaryTopic> <https://archiv.ub.uni-heidelberg.de/volltextserver/id/eprint/33967> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/subject/ddc-000> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://www.w3.org/2004/02/skos/core#Concept> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/subject/ddc-000> <http://www.w3.org/2004/02/skos/core#prefLabel> "000 Allgemeines, Wissenschaft, Informatik"@de .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/subject/ddc-000> <http://www.w3.org/2004/02/skos/core#prefLabel> "000 Generalities, Science"@en .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/eprint/33967> <http://purl.org/dc/terms/subject> <https://archiv.ub.uni-heidelberg.de/volltextserver/id/subject/ddc-000> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/subject/ddc-004> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://www.w3.org/2004/02/skos/core#Concept> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/subject/ddc-004> <http://www.w3.org/2004/02/skos/core#prefLabel> "004 Informatik"@de .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/subject/ddc-004> <http://www.w3.org/2004/02/skos/core#prefLabel> "004 Data processing Computer science"@en .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/eprint/33967> <http://purl.org/dc/terms/subject> <https://archiv.ub.uni-heidelberg.de/volltextserver/id/subject/ddc-004> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/subject/ddc-310> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://www.w3.org/2004/02/skos/core#Concept> .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/subject/ddc-310> <http://www.w3.org/2004/02/skos/core#prefLabel> "310 Statistik"@de .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/subject/ddc-310> <http://www.w3.org/2004/02/skos/core#prefLabel> "310 General statistics"@en .
<https://archiv.ub.uni-heidelberg.de/volltextserver/id/eprint/33967> <http://purl.org/dc/terms/subject> <https://archiv.ub.uni-heidelberg.de/volltextserver/id/subject/ddc-310> .