Statistical learning based inference and analysis of epigenetic regulatory network topologies in T-helper cells

Kommer, Christoph

Deutsche Übersetzung des Titels: Inferenz und Analyse epigenetischer regulatorischer Netzwerktopologien basierend auf statistischen Lernmethoden in T-Helfer Zellen

Vorschau

PDF, Englisch
Download (52MB) | Nutzungsbedingungen

Zitieren von Dokumenten: Bitte verwenden Sie für Zitate nicht die URL in der Adresszeile Ihres Webbrowsers, sondern entweder die angegebene DOI, URN oder die persistente URL, deren langfristige Verfügbarkeit wir garantieren. [mehr ...]

DOI: 10.11588/heidok.00025489
URN: urn:nbn:de:bsz:16-heidok-254893

Abstract

The reliable statistical inference of epigenetic regulatory networks that govern mammalian cell fates is very challenging. In this thesis we study this question for the differentiation decisions of T-helper (Th) cells, which have recently been shown to adopt a continuum of differentiated states in response to cytokine signals. To infer the underlying regulatory networks we introduce a novel framework for the inference of epigenetic regulatory network topologies based on statistical learning. First, we infer, via a Hidden Markov Model, chromatin states based on histone modification patterns in naïve Th cells and differentiated Th1, Th2 and mixed Th1/2 states; these states are controlled by external cytokine stimuli and the gene dose of the Th1 master transcription factor Tbet (Tbx21). We then introduce a linear multivariate correlation measure for mapping enhancers to their target genes, which is parametrized on a training set of known enhancers. This analysis is refined further by the application of partial correlations to distinguish direct from indirect effects. Applying this approach to our data, we recover known enhancers and obtain a genomewide enhancer-gene mapping. We also extend this to the correlation of repressive regulatory elements with gene expression. Next, we focus on the enhancers that regulate differentially expressed Th1 and Th2 specific transcripts. Building machine learning based predictors, we identify Th1 and Th2 specific enhancer and repressive state classes characterized by their response patterns to cytokine stimuli and Tbet dose. In turn, we use chromatin immunoprecipitation data of transcription factors to define the transcriptional regulatory logic governing the activities of the enhancer classes. Finally, we combine enhancer-target gene maps and enhancer regulatory logic as well as inhibitory elements to infer a bipartite epigenetic network. The network architecture builds on enhancer and repressive state classes as well as on genes and transcription factors leading to a weighted multidigraph. The network topology reveals distinct community structures related to Th1, Th2 and hybrid functionality. We furthermore analyse multiplex networks resulting in condition-specific topologies. From these analyses we obtain unique contributions of distinct network nodes. Utilizing random walks on multidigraphs we extract metastable processes underlying the observed system. In conclusion we present a robust quantitative framework for mapping chromatin states to gene activity, and, by factoring in transcription factor regulation of enhancers, inferring epigenetic regulatory networks. This methodology is applicable to a wide range of systems.

Übersetzung des Abstracts (Deutsch)

Die verlässliche statistische Inferenz von epigenetischen regulatorischen Netzwerken, die das Zellschicksal bei Säugetieren bestimmen, ist eine äußerst anspruchsvolle Aufgabe. In dieser Arbeit behandeln wir diese Problemstellung im Rahmen von Differenzierungsentscheidungen von T-Helferzellen (Th Zellen), von denen gezeigt werden konnte, dass sie ein Kontinuum von differenzierten Zuständen in Abhängigkeit verschiedener Zytokinsignale annehmen können. Um die zugrundeliegenden regulatorischen Netzwerke zu bestimmen, führen wir eine neuartige Methode zur Inferenz epigenetisch regulatorischer Netzwerktopologien ein, die auf Methoden des statistischen Lernens basiert. Zunächst bestimmen wir, mithilfe eines Hidden Markov Modells, Chromatinzustände die auf Histonmodifikationsmustern in naïven und differenzierten Th1, Th2 und gemischten Th1/2 Zuständen basieren. Diese Zustände werden durch externe Zytokinstimuli und die Gendosis des Master-Transkriptionsfaktors Tbet (Tbx21) bestimmt. Danach führen wir ein lineares multivariates Korrelationsmaß ein, welches der Zuordnung von Enhancern zu ihren Zielgenen dient. Dieses Maß wird anhand eines Satzes von bekannten Enhancern gelernt. Diese Analyse wird verfeinert durch die Anwendung partieller Korrelationen, um direkte von indirekten Effekten zu unterscheiden. Bei der Anwendung dieser Methode auf unsere Daten bestätigen wir zum einen bekannte Enhancer und erhalten zum anderen eine genomweite Zuordnung zwischen Enhancern und Genen. Dies erweitern wir zudem auf die Korrelation repressiver regulatorischer Elemente mit Genexpressionen. Des Weiteren untersuchen wir Enhancer, die differentiell exprimierte Th1 und Th2 spezifische Transkripte regulieren. Mithilfe von Prädiktoren, die auf Methoden des maschinellen Lernens basieren, identifizieren wir Th1 und Th2 spezifische Enhancer-Klassen und solche repressiver Zustände, die durch ihre Reaktionsmuster auf Zytokinstimuli und auf die Dosis von Tbet charakterisiert werden. Außerdem verwenden wir Chromatin-Immunpräzipitationsdaten von Transkriptionsfaktoren, um die transkriptionelle regulatorische Logik, die die Aktivität der Enhancer-Klassen bestimmt, zu definieren. Schlussendlich kombinieren wir die Zuordnungen von Enhancern zu ihren Zielgenen und sowohl die regulatorische Enhancerlogik als auch die von inhibitorischen Elementen, um ein bipartites epigenetisches Netzwerk zu erhalten. Die Netzwerkarchitektur basiert dabei sowohl auf Enhancer-Klassen und repressiven Zustandsklassen als auch auf Genen und Transkriptionsfaktoren, was zu gewichteten Multi-Digraphen führt. Die Netzwerktopologie offenbart ausgeprägte unterscheidbare Strukturen, die mit einer Funktionalität für Th1, Th2 und Hybrid-Zellen identifiziert werden können. Außerdem analysieren wir Multiplex-Netzwerke, was zu zellspezifischen Topologien führt. Aus diesen Analysen erhalten wir charakteristische Beiträge von einzelnen Knoten des jeweiligen Netzwerks. Mithilfe von Random Walks auf Multi-Digraphen gewinnen wir Informationen über metastabile Prozesse, die den beobachteten Systemen zugrunde liegen. Zusammenfassend präsentieren wir eine robuste quantitative Methode, um Chromatinzustände und Genaktivität einander zuzuweisen und um epigenetische Netzwerke durch die Bestimmung von Transkriptionsfaktorregulierung von Enhancern zu lernen. Diese Vorgehensweise ist auf eine Vielzahl von Systemen anwendbar.

Dokumententyp:	Dissertation
Erstgutachter:	Höfer, Prof. Dr. Thomas
Tag der Prüfung:	10 Oktober 2018
Erstellungsdatum:	31 Okt. 2018 09:55
Erscheinungsjahr:	2018
Institute/Einrichtungen:	Fakultät für Biowissenschaften > Dekanat der Fakultät für Biowissenschaften Zentrale und Sonstige Einrichtungen > Bioquant Zentrale und Sonstige Einrichtungen > Graduiertenschulen > Graduiertenschule Wissenschaftliches Rechnen Zentrale und Sonstige Einrichtungen > Deutsches Krebsforschungszentrum
DDC-Sachgruppe:	004 Informatik 500 Naturwissenschaften und Mathematik 510 Mathematik 530 Physik 570 Biowissenschaften, Biologie
Normierte Schlagwörter:	Netzwerktheorie, Mathematische Modellierung, Maschinelles Lernen, Epigenetik, Enhancer, T-Zelle, Multistabilität, Markov-Prozess, Angewandte Mathematik, Theoretische Systembiologie
Freie Schlagwörter:	network theory, mathematical modelling, statistical learning, machine learning, epigenetics, enhancer, T-helper cell, gene regulatory network, applied mathematics, Markov model, multistability, theoretical systems biology