Biomedical Data Analysis with Prior Knowledge : Modeling and Learning

Lou, Xinghua

German Title: Biomedizinische Datenanalyse mit Vorwissen : Modellierung und Lernen

Preview

PDF, English
Download (14MB) | Terms of use

Citation of documents: Please do not cite the URL that is displayed in your browser location input, instead use the DOI, URN or the persistent URL below, as we can guarantee their long-time accessibility.

DOI: 10.11588/heidok.00012294
URN: urn:nbn:de:bsz:16-opus-122945

Abstract

Modern research in biology and medicine is experiencing a data explosion in quantity and particularly in complexity. Efficient and accurate processing of these datasets demands state-of-the-art computational methods such as probabilistic graphical models, graph-based image analysis and many inference/optimization algorithms. However, the underlying complexity of biomedical experiments rules out direct out-of-the-box applications of these methods and requires novel formulation and enhancement to make them amendable to specific problems. This thesis explores novel approaches for incorporating prior knowledge into the data analysis workflow that leads to quantitative and meaningful interpretation of the datasets and also allows for sufficient user involvement. As discussed in Chapter 1, depending on the complexity of the prior knowledge, these approaches can be categorized as constrained modeling and learning. The first part of the thesis focuses on constrained modeling where the prior is normally explicitly represented as additional potential terms in the problem formulation. These terms prevent or discourage the downstream optimization of the formulation from yielding solutions that contradict the prior knowledge. In Chapter 2, we present a robust method for estimating and tracking the deuterium incorporation in the time-resolved hydrogen exchange (HX) mass spectrometry (MS) experiments with priors such as sparsity and sequential ordering. In Chapter 3, we introduce how to extend a classic Markov random field (MRF) model with a shape prior for cell nucleus segmentation. The second part of the thesis explores learning which addresses problems where the prior varies between different datasets or is too difficult to express explicitly. In this case, the prior is first abstracted as a parametric model and then its optimum parametrization is estimated from a training set using machine learning techniques. In Chapter 4, we extend the popular Rand Index in a cost-sensitive fashion and the problem-specific costs can be learned from manual scorings. This set of approaches becomes more interesting when the input/output becomes structured such as matrices or graphs. In Chapter 5, we present structured learning for cell tracking, a novel approach that learns optimum parameters automatically from a training set and allows for the use of a richer set of features which in turn affords improved tracking performance. Finally, conclusions and outlook are provided in Chapter 6.

Translation of abstract (German)

Die aktuelle Forschung in Biologie und Medizin erfährt derzeit einen rasanten Anstieg in der Datenmenge und insbesondere in der Datenkomplexität. Eine effiziente und präzise Verarbeitung solcher Datensätze verlangt nach neuesten rechnergestützen Methoden wie probibilistischen grafischen Modellen, graphbasierter Bildanalyse und modernen Inferenz- bzw. Optimierungsalgorithmen. Die Komplexität, die biomedizinischen Experimenten unterliegt, macht jedoch die direkte Anwendung dieser Methoden unmöglich und erfordert neue Formulierungen und Erweiterungen, die an spezifische Probleme anpassbar sind. Die vorliegende Arbeit erforscht neue Ansätze um Terme, die Vorwissen repräsentieren (sog. Prior Terme), in die Datenanalyse einzubinden. Diese lassen eine quantitative Interpretation der Datensätze zu und berücksichtigen eine explizite Nutzereinbindung. Wie in Kapitel 1 besprochen, können diese Ansätze | abhängig von der Komplexität des Vorwissens - als Modellierung mit Zwangsbedingungen oder Lernen kategorisiert werden. Der erste Teil dieser Arbeit konzentriert sich auf die Modellierung mit Zwangsbedingungen, in der das Vorwissen gewöhnlich explizit in Form von zusätzlichen Potenzialtermen in der Problemformulierung repräsentiert wird. Diese Terme erschweren oder hindern die darauffolgende Optimierung daran, Ergebnisse zu liefern, die dem Vorwissen widersprechen. In Kapitel 2 präsentieren wir eine robuste Methode um die Deuterium Einbindung in zeitlich aufgelösten Wasserstoffaustausch-Massenspektrometrie- Experimenten ("hydrogen exchange mass spectrometry"; kurz HXMS) mit Vorwissen über die Daten wie Seltenheit ("Sparsity") und sequentielle Ordnung zu schätzen und nachzuverfolgen. In Kapitel 3 stellen wir vor wie man ein klassisches Markov Random Field (MRF) Modell mit Vorwissen über die äußere Form für Zellkern Segmentierung erweitern kann. Der zweite Teil der Arbeit erforscht Lernverfahren, die Probleme behandeln, bei denen sich die Prior Terme abhängig vom Datensatz verändern oder sie zu schwierig sind, um sie explizit auszudrücken. In diesem Fall wird das Vorwissen zunächst in einem parametrischen Modell abstrahiert und dann die optimale Parametrisierung aus einem Trainingsdatensatz mit Hilfe von maschinellem Lernen geschätzt. In Kapitel 4 erweitern wir den weitverbreiteten Rand Index in Hinblick auf Kostensensitivität. Die problemspezi fischen Kosten können aus manuellen Gewichtungen gelernt werden. Diese Ansätze werden besonders interessant wenn die Ein- und Ausgabe strukturiert ist, z.B. in Matrizen oder Graphen. In Kapitel 5 stellen wir strukturelles Lernen für das Tracking von Zellen vor; ein neuartiger Ansatz, der optimale Parameterwerte automatisch aus einem Trainingsdatensatz lernt und einen erweiterten Merkmalssatz verwendet, der wiederum zu einem verbessertem Tracking führt. Schlussausführung und Ausblick schließlich sind Inhalt von Kapitel 6.

Document type:	Dissertation
Supervisor:	Hamprecht, Prof. Dr. Fred A.
Date of thesis defense:	14 July 2011
Date Deposited:	18 Jan 2012 07:44
Date:	2011
Faculties / Institutes:	Service facilities > Interdisciplinary Center for Scientific Computing
DDC-classification:	510 Mathematics
Uncontrolled Keywords:	Biomedical Data Analysis , Machine Learning , Image Segmentation , Computational Proteomics