Analysis of differentiation trees using transcriptome data : application to hematopoiesis

Roels, Frederik

German Title: Analyse von Differenzierungsbäumen mit transcriptome Daten : Anwendung auf Hematopoiese

Preview

PDF, English
Download (9MB) | Terms of use

Citation of documents: Please do not cite the URL that is displayed in your browser location input, instead use the DOI, URN or the persistent URL below, as we can guarantee their long-time accessibility.

DOI: 10.11588/heidok.00011080
URN: urn:nbn:de:bsz:16-opus-110807

Abstract

Cellular differentiation is a complicated and highly important system in all multicellular organisms. The remarkable aspect about differentiation is that the multitude of different and highly specialised cell types are all descendant from one cell, the zygote. Not surprisingly differentiation is a highly regulated process. A complicated interplay of environmental signals and intracellular regulation defines the ultimate mature state of all cell types. In this work a method was developed that can analyse differentiation trees computationally. The development of the method was guided by three questions. Do microarrays contain enough information to retrace steps in differentiation? Can this information be used to validate proposed differentiation paths? Can this information be used to compare differentiation in different contexts? The method starts from microarray data and uses a combination of methods to identify the most likely differentiation tree out of all possibilities. The method has two components, one component identifies the most likely conformation using a scoring system. The other component identifies the most likely root node using a comparison system. The conformation scoring system relies on transcriptional changes in previously defined subnetworks, all possible differentiation conformations are tested in a manner similar to maximum parsimony. Maximum parsimony is used in molecular phylogeny to score possible evolutionary trees, a problem similar to the one tackled in this work. Root node identification is done using a value calculated based on within cell type gene expression correlations, high values indicate the cell is less mature. The method was tested on microarray data from the myeloid lineage of hematopoiesis. The datasets are comprised of expression data taken from four different cell types: Hematopoietic Stem Cells, Common Myeloid Progenitors, Granulocyte Monocyte Progenitors and Megakaryocyte Erythrocyte Progenitors. Data was gathered from healthy donors and patients suffering Chronic Myeloid Leukemia and Multiple Myeloma respectively. The method performed well, in most cases the correct differentiation tree could be identified. This indicates that there is indeed enough information present in microarray data to retrace differentiation. Interesting results where seen for the root node identification component. When analysing the dataset taken from patients with CML, the method predicted known differences in stemness in that particular cancer.

Translation of abstract (German)

Zelluläre Differenzierung ist ein kompliziertes und äusserst wichtiges System in allen multizellularen Organismen. Der bemerkenswerte Aspekt bei der Differenzierung ist, dass die Vielzahl an unterschiedlichen und enorm spezialisierten Zelltypen alle von einer Zelle abstammen, der Zygote. Es überrascht daher nicht, dass Differenzierung ein stark regulierter Prozess ist. Ein kompliziertes Zusammenspiel von umweltbedingten Signalen und intrazellulärer Regulierung definiert den endgültigen, vollentwickelten Zustand von allen Zelltypen. In Rahmen dieser Arbeit wird ein Verfahre entwickelt, mit der Differenzierungsbäume programmatisch analysiert werden können. Die Entwicklung dieser Methode wurde von drei Hauptfragen bestimmt: Enthalten Microarrays genügend Informationen, um die Schritte der Differenzierung nachzuverfolgen? Können diese Informationen verwendet werden, um vorgeschlagene Differenzierungs-Wege zu validieren? Können diese Informationen verwendet werden, um Differenzierung in verschiedenen Kontexten miteinander zu vergleichen? Das im Rahmen dieser Arbeit entwickelte Verfahren verarbeitet Microarray Daten zu einem Differenzierungsbaum, indem es aus allen möglichen den wahrscheinlichsten Differenzierungsbaum ermittelt. Die Transformation der Daten wird im wesentlichen von zwei Komponenten bernommen: Eine Komponente identifiziert die wahrscheinlichste übereinstimmung basierend auf einem Bewertungssystem. Die andere bestimmt den wahrscheinlichsten Wurzelknoten des Differenzierungsbaums durch ein Vergleichssystem. Das Conformation Scoring System bzw. das Bewertungssystem für Übereinstimmungen beruht auf transkriptionellen Änderungen in vorher definierten Subnetzwerken, in denen auf mögliche bereinstimmungen bei der Differenzierung getestet wird, ähnlich wie bei Maximum-Parsimony. Maximum-Parsimony wird im Bereich der molekularen Phylogenie eingesetzt, um die Wahrscheinlichkeit von Stammbäumen zu bewerten, einer Problemstellung, die der in dieser Arbeit besprochenen Problematik sehr ähnlich ist. Die Identifizierung des Wurzelknotens basiert auf einem Wert, der mithilfe der Korrelation von Genexpressionen innerhalb eines Zelltyps berechnet wird. Ein hoher Wert deutet darauf hin, dass die Zelle noch nicht voll entwickelt ist. Das Verfahren wurde mit Microarray Daten von hämatopoetischen Zellen der myeloischen Linien getestet. Die Dateien bestehen aus Expressionsdaten, die von vier verschiedenen Zelltypen stammen: hämatopoetischen Stammzellen, Common Myeloid Progenitors, Granulocyte-Monocyte Progenitors and Megakaryocyte-Erythrocyte Progenitors. Die Daten stammen sowohl von gesunden Spendern als auch von Patienten, die an chronischer myeloischer Leukmie (CML) erkrankt sind. Das Verfahren arbeitete erfolgreich und führte in den meisten Fällen zur Bestimmung des korrekten Differenzierungsbaums. Dies ist ein Indikator dafür, dass Microarray Daten genügend Informationen enthalten, um die Schritte der Differenzierung nachzuverfolgen. Die Komponente zur Identifizierung des Wurzelknotens lieferte besonders interessante Resultate. Bei der Analyse von Datenstzen, die von Patienten mit CML stammen, konnten mithilfe des Verfahrens bekannte Unterschiede in der Stemness dieser Krebsform vorausgesagt werden.

Document type:	Dissertation
Supervisor:	Eils, Prof. Dr. Roland
Date of thesis defense:	22 September 2010
Date Deposited:	29 Sep 2010 09:45
Date:	2010
Faculties / Institutes:	Service facilities > German Cancer Research Center (DKFZ)
DDC-classification:	570 Life sciences
Uncontrolled Keywords:	Differentiation , gene-expression , bioinformatics