eprintid: 12294 rev_number: 4 eprint_status: archive userid: 1 dir: disk0/00/01/22/94 datestamp: 2012-01-18 07:44:34 lastmod: 2014-04-03 23:19:29 status_changed: 2012-08-15 09:03:58 type: doctoralThesis metadata_visibility: show creators_name: Lou, Xinghua title: Biomedical Data Analysis with Prior Knowledge : Modeling and Learning title_de: Biomedizinische Datenanalyse mit Vorwissen : Modellierung und Lernen ispublished: pub subjects: ddc-510 divisions: i-708000 adv_faculty: af-11 keywords: Biomedical Data Analysis , Machine Learning , Image Segmentation , Computational Proteomics abstract: Modern research in biology and medicine is experiencing a data explosion in quantity and particularly in complexity. Efficient and accurate processing of these datasets demands state-of-the-art computational methods such as probabilistic graphical models, graph-based image analysis and many inference/optimization algorithms. However, the underlying complexity of biomedical experiments rules out direct out-of-the-box applications of these methods and requires novel formulation and enhancement to make them amendable to specific problems. This thesis explores novel approaches for incorporating prior knowledge into the data analysis workflow that leads to quantitative and meaningful interpretation of the datasets and also allows for sufficient user involvement. As discussed in Chapter 1, depending on the complexity of the prior knowledge, these approaches can be categorized as constrained modeling and learning. The first part of the thesis focuses on constrained modeling where the prior is normally explicitly represented as additional potential terms in the problem formulation. These terms prevent or discourage the downstream optimization of the formulation from yielding solutions that contradict the prior knowledge. In Chapter 2, we present a robust method for estimating and tracking the deuterium incorporation in the time-resolved hydrogen exchange (HX) mass spectrometry (MS) experiments with priors such as sparsity and sequential ordering. In Chapter 3, we introduce how to extend a classic Markov random field (MRF) model with a shape prior for cell nucleus segmentation. The second part of the thesis explores learning which addresses problems where the prior varies between different datasets or is too difficult to express explicitly. In this case, the prior is first abstracted as a parametric model and then its optimum parametrization is estimated from a training set using machine learning techniques. In Chapter 4, we extend the popular Rand Index in a cost-sensitive fashion and the problem-specific costs can be learned from manual scorings. This set of approaches becomes more interesting when the input/output becomes structured such as matrices or graphs. In Chapter 5, we present structured learning for cell tracking, a novel approach that learns optimum parameters automatically from a training set and allows for the use of a richer set of features which in turn affords improved tracking performance. Finally, conclusions and outlook are provided in Chapter 6. abstract_translated_text: Die aktuelle Forschung in Biologie und Medizin erfährt derzeit einen rasanten Anstieg in der Datenmenge und insbesondere in der Datenkomplexität. Eine effiziente und präzise Verarbeitung solcher Datensätze verlangt nach neuesten rechnergestützen Methoden wie probibilistischen grafischen Modellen, graphbasierter Bildanalyse und modernen Inferenz- bzw. Optimierungsalgorithmen. Die Komplexität, die biomedizinischen Experimenten unterliegt, macht jedoch die direkte Anwendung dieser Methoden unmöglich und erfordert neue Formulierungen und Erweiterungen, die an spezifische Probleme anpassbar sind. Die vorliegende Arbeit erforscht neue Ansätze um Terme, die Vorwissen repräsentieren (sog. Prior Terme), in die Datenanalyse einzubinden. Diese lassen eine quantitative Interpretation der Datensätze zu und berücksichtigen eine explizite Nutzereinbindung. Wie in Kapitel 1 besprochen, können diese Ansätze | abhängig von der Komplexität des Vorwissens - als Modellierung mit Zwangsbedingungen oder Lernen kategorisiert werden. Der erste Teil dieser Arbeit konzentriert sich auf die Modellierung mit Zwangsbedingungen, in der das Vorwissen gewöhnlich explizit in Form von zusätzlichen Potenzialtermen in der Problemformulierung repräsentiert wird. Diese Terme erschweren oder hindern die darauffolgende Optimierung daran, Ergebnisse zu liefern, die dem Vorwissen widersprechen. In Kapitel 2 präsentieren wir eine robuste Methode um die Deuterium Einbindung in zeitlich aufgelösten Wasserstoffaustausch-Massenspektrometrie- Experimenten ("hydrogen exchange mass spectrometry"; kurz HXMS) mit Vorwissen über die Daten wie Seltenheit ("Sparsity") und sequentielle Ordnung zu schätzen und nachzuverfolgen. In Kapitel 3 stellen wir vor wie man ein klassisches Markov Random Field (MRF) Modell mit Vorwissen über die äußere Form für Zellkern Segmentierung erweitern kann. Der zweite Teil der Arbeit erforscht Lernverfahren, die Probleme behandeln, bei denen sich die Prior Terme abhängig vom Datensatz verändern oder sie zu schwierig sind, um sie explizit auszudrücken. In diesem Fall wird das Vorwissen zunächst in einem parametrischen Modell abstrahiert und dann die optimale Parametrisierung aus einem Trainingsdatensatz mit Hilfe von maschinellem Lernen geschätzt. In Kapitel 4 erweitern wir den weitverbreiteten Rand Index in Hinblick auf Kostensensitivität. Die problemspezi fischen Kosten können aus manuellen Gewichtungen gelernt werden. Diese Ansätze werden besonders interessant wenn die Ein- und Ausgabe strukturiert ist, z.B. in Matrizen oder Graphen. In Kapitel 5 stellen wir strukturelles Lernen für das Tracking von Zellen vor; ein neuartiger Ansatz, der optimale Parameterwerte automatisch aus einem Trainingsdatensatz lernt und einen erweiterten Merkmalssatz verwendet, der wiederum zu einem verbessertem Tracking führt. Schlussausführung und Ausblick schließlich sind Inhalt von Kapitel 6. abstract_translated_lang: ger date: 2011 date_type: published id_scheme: DOI id_number: 10.11588/heidok.00012294 ppn_swb: 1651257876 own_urn: urn:nbn:de:bsz:16-opus-122945 date_accepted: 2011-07-14 advisor: HASH(0x55fc36d1aba8) language: eng bibsort: LOUXINGHUABIOMEDICAL2011 full_text_status: public citation: Lou, Xinghua (2011) Biomedical Data Analysis with Prior Knowledge : Modeling and Learning. [Dissertation] document_url: https://archiv.ub.uni-heidelberg.de/volltextserver/12294/1/xlou_11_thesis.pdf