Directly to content
  1. Publishing |
  2. Search |
  3. Browse |
  4. Recent items rss |
  5. Open Access |
  6. Jur. Issues |
  7. DeutschClear Cookie - decide language by browser settings

Integrative Data Mining and Meta Analysis of Disease-Specific Large-Scale Genomic,Transcriptomic and Proteomic Data

Bewerunge, Peter

German Title: Integratives Data Mining und Metanalyse von krankheitsspezifischen genomischen, transkriptomischen und proteomischen Hochdurchsatzdaten

[thumbnail of 060911_PeB_Diss.pdf]
Preview
PDF, English
Download (8MB) | Terms of use

Citation of documents: Please do not cite the URL that is displayed in your browser location input, instead use the DOI, URN or the persistent URL below, as we can guarantee their long-time accessibility.

Abstract

During the past decades, large-scale microarray technologies have been applied to the field of genomics, transcriptomics and proteomics. DNA microarrays and mass spectrometry have been used as tools for identifying changes in gene- and protein expression and genomic alterations that can be linked to various stages of tumor development. Although these technologies have generated a deluge of data, bioinformatic algorithms still need to be improved to advance the understanding of many biological fundamental questions. In particular, most bioinformatic strategies are optimized for one of these technologies and only allow for an one dimensional view on the biological question. Within this thesis a bioinformatic tool was developed that combines the multidimensional information that can be obtained when analysing genomic, transcriptomic and proteomic data in an integrative manner. Neuroblastoma is a malignant pediatric tumor of the nervous system. The tumor is characterized by aberration patterns that correlate with patient outcome. aCGH (array comparative genomic hybridization) and DNA-microrarray gene expression analysis were choosen as appropriate methods to analyse the impact of DNA copy number variations on gene expression in 81 neuroblastoma samples. Within this thesis a novel bioinformatic strategy was used which identifies chromosomal aberrations that influence the expression of genes located at the same (cis-effects) and also at different (trans-effects) chromosomal positions in neuroblastoma. Sample specific cis-effects were identified for the paired data by a probe-matching procedure, gene expression discretization and a correlation score in combination with one-dimensional hierarchical clustering. The graphical representation revealed that tumors with an amplification of the oncogene MYCN had a gain of chromosome 17 whereas genes in cis-position were downregulated. Simultaneously, a loss of chromosome 1 and a downregulation of the corresponding genes hint towards a crossrelationship between chromosome 17 and 1. A Bayesian network (BN) as representation of joint probability distributions was adopted to detect neuroblastoma specific cis- and trans-effects. The strength of association between aCGH and gene expression data was represented by markov blankets, which where build up by mutual information. This gave rise to a graphical network that linked DNA copy number changes with genes and also gene-gene interactions. This method found chromosomal aberrations on 11q and 17q to have a major impact on neuroblastoma. A prominent trans-effect was identified by a gain of 17q.23.2 and an upregulation of CPT1B which is located at 22.q13.33. Further, to identify the effects of gene expression changes on the protein expression the bioinformatic tool was expanded to enable an integration of mass spectrometry and DNA-microrarray data of a set of 53 patients after lung transplantation. The tool was applied for early diagnosis of the Bronchiolitis Obliterans Syndrome (BOS) which occurs often in the second year after lung transplantation and leads to a repulsion of the lung transplant. Gene expression profiles were translated into virtual spectra and linked to their potential mass spectrometry peak. The correlation score between the virtual and real spectra did not exhibit significant patterns in relation to BOS. However, the metaanalysis approach resulted in 15 genes that could not be found in the seperate analysis of the two data types such as INSL4, CCL26 and FXYD3. These genes constitute potential biomarkers for the detection of BOS

Translation of abstract (English)

In den letzten Jahrzenten wurden unterschiedliche Mikroarray-Systeme entwickelt und in den Bereichen Genomik, Transkriptomik und Proteomik eingesetzt. Dabei finden sie ihren Einsatz, um Veränderungen der Gen- sowie Proteinexpression und des genomischen Materials insbesondere mit unterschiedlichen Phasen der Tumorentstehung zu verknüpfen. Die große Menge an Daten die dabei anfällt, müssen mittels bioinformatischer Algorithmen ausgewertet werden. Allerdings liegt bei derzeitigen Verfahren die Optimierung und Fokussierung auf eine Mikroarray-System im Vordergrund, was zu einer eindimensionale Betrachtung der biologischen Fragestellung führt. Deshalb war Ziel dieser Arbeit, einen bioinformatischen Algorithmus zu entwickeln, der mehrdimensionale Informationen kombiniert, die sich aus einer integrativen Betrachtungsweise von genomischen, transkriptomischen und proteomischen Daten ergibt. Das Neuroblastom ist ein maligner frühkindlicher Tumor des Nervensystems. Charakteristisch sind die Muster der chromosomalen Veränderungen, die mit der Entstehung und/oder Progression des Tumors korrelieren. aCGH (array Comparative Genomic Hybridization) und DNA-Mikroarray Genexpressionsanalysen wurden ausgewählt, um den Einfluss chromosomaler Veränderungen auf die Genexpression von 81 Neuroblastom- Patienten zu untersuchen. Im Rahmen dieser Arbeit wurde eine neue bioinformatische Strategie entwickelt, die chromosomale Veränderungen identifiziert, die die Expression von Genen sowohl an der gleichen (cis-Effekt) aber auch an anderen chromosomalen Positionen beeinflusst. Tumorspezifische cis-Effekte wurden unter anderem durch eine Korrelationsanalyse in Kombination mit einem eindimensionalen, hierarchischen Verfahren zur Gruppenfindung ermittelt. Die graphische Darstellung zeigte, dass Tumore mit einer Amplifikation des Onkogens MYCN durch einen chromosomalen Zugewinn auf Chromosom 17 charakterisiert sind, während Gene in cis-Position eine geringe Expression aufwiesen. Gleichzeitig ging der Verlust des Chromosom 1 mit einer niedrigen Expression der cis- lokalisierten Gene einher. Um Neuroblastom-spezifische cis- und trans-Effekte über das gesamte Datenset zu identifizieren, wurden Bayessche Netzwerke eingesetzt. Das Maß des Zusammenhangs zwischen der DNA-Kopienanzahl und der Genexpression wurde mit Hilfe von "Markov Blankets" und "Mutual Information" berechnet. Das graphische Netzwerk zeigte die Verbindungen zwischen chromosomalen Veränderungen und der Genexpression wie auch mit Gen-Gen-Interaktionen. Hieraus resultierte, dass Veränderungen auf Chromosom 11q und 17q als ursächliche Faktoren für das Neuroblastom verstanden werden können. Auffällig war der trans-Effekt zwischen dem Zugewinn auf Chromosom 17q23.2 und der hohen Genexpression von CPT1B (22q13.33). Weiterhin wurde der bioinformatische Algorithmus um die Eigenschaft erweitert, eine integrative Analyse von Genexpressions- und massenspektrometrischen Daten durchzuführen. Dies wurde auf einen Datensatz angewendet, der die Entstehung des Bronchiolitis Obliterans Syndroms (BOS) untersuchte. BOS wird häufig im zweiten Jahr nach einer Lungentransplantation diagnostiziert und führt in den meisten Fällen zu einer Abstoßungsreaktion. Die zugrundeliegenden Genexpressionsdaten wurden in virtuelle Spektren überführt und den entsprechenden massenspektrometrischen Kurvenverläufen zugeordnet. Eine Korrelationsanalyse zwischen den virtuellen und realen Massenspektren konnte keine Korrelation erfasssen. Hingegen konnte ein integrativer Meta-Analyseansatz 15 Gene identifizieren, die bei einer separaten Betrachtung der Daten nicht gefunden wurden. Auf diese Weise stellen die Gene potentielle Biomarker für die Früherkennung des BOS dar.

Document type: Dissertation
Supervisor: Eils, Prof. Dr. Roland
Date of thesis defense: 24 July 2009
Date Deposited: 26 Oct 2009 13:32
Date: 2009
Faculties / Institutes: The Faculty of Bio Sciences > Dean's Office of the Faculty of Bio Sciences
DDC-classification: 570 Life sciences
Controlled Keywords: Bioinformatik, Molekulare Bioinformatik
Uncontrolled Keywords: SVM, AI
About | FAQ | Contact | Imprint |
OA-LogoDINI certificate 2013Logo der Open-Archives-Initiative