Integration of Prior Biological Knowledge into Support Vector Machines

Johannes, Marc

German Title: Integration von biologischem Vorwissen in die Support Vector Machine

Preview

PDF, English
Download (4MB) | Terms of use

Citation of documents: Please do not cite the URL that is displayed in your browser location input, instead use the DOI, URN or the persistent URL below, as we can guarantee their long-time accessibility.

DOI: 10.11588/heidok.00012434
URN: urn:nbn:de:bsz:16-opus-124343
URL: http://www.ub.uni-heidelberg.de/archiv/12434

Abstract

Ein Ziel der klinischen Krebsforschung ist es, neue, prognostische Gensignaturen zu finden, die den klinischen Verlauf der Krankheit vorhersagen können. Um neue Gensignaturen oder Biomarker zu identizieren, nutzt man in der Bioinformatik oft Klassikationsmethoden. Allerdings verwenden die üblicherweise eingesetzten Verfahren ausschließlich Genexpressionsdaten und sehen Gene als unabhängig an. Mehrere, vor kurzem veröffentlichte, Studien konnten jedoch zeigen, dass sich die Qualität der Klassikation steigern lässt, wenn man Netzwerkwissen in den Klassikationsprozess einfließen lässt. Neben einem verbesserten Klassikationsergebnis wurde auch gezeigt, dass die ausgewählten Gene besser zu interpretieren sind und dass die Selektion der Gene stabiler wird. Aus diesen Gründen beschäftigt sich die vorliegende Arbeit mit Methoden, die die Vorhersagegenauigkeit verbessern indem sie neben Genexpressionsdaten auch Netzwerkwissen für die Klassikation berücksichtigen. Die Arbeit gibt einen Überblick über bestehende Methoden, die in der Lage sind, Netzwerkwissen in die Klassikation einfließen zu lassen sowie über Datenbanken die solches Wissen speichern. Außerdem beschreibt die Arbeit die Entwicklung einer neuen, netzwerkbasierten Klassikationsmethode, die in der Lage ist, die Konnektivität der Gene zu berücksichtigen. Die 'Support Vector Machine' (SVM) wurde als Grundlage des neuen Algorithmus ausgewählt. Normalerweise ist die SVM nicht in der Lage eine Genselektion durchzuführen, d.h. sie nutzt immer alle Gene um einen bestimmten Endpunkt vorherzusagen. Man kann die SVM allerdings mit dem 'Recursive Feature Elimination' (RFE) Algorithmus kombinieren, um eine Genselektion zu ermöglichen. RFE selektiert Gene anhand ihres Einflusses auf die, von der SVM gefundenen, Hyperebene. Das Sortierkriterium von RFE wurde mit einer modizierten Version von Google's PageRank-Algorithmus verändert. Die abgewandelte Version von PageRank nennt sich GeneRank und errechnet, basierend auf einem Graphen der aus einer Protein-Protein Interaktionsdatenbank erstellt wurde, ein Gewicht für jedes Gen. Dieses Gewicht wurde mit dem Sortierkriterium von RFE kombiniert, um das Netzwerkwissen in die Sortierung der Gene und damit in die Klassifikation zu integrieren. Wegen dieser Neugewichtung wurde der neuentwickelte Algorithmus 'Reweighted Recursive Feature Elimination' (RRFE) genannt. RRFE verfolgt die Annahme, dass Gene, die nur eine geringe Änderung in ihrer Expression aufweisen, die Chance haben sollten einen gesteigerten Einfluss auf die Klassikation zu nehmen, wenn sie stark vernetzt sind. Diese Annahme wurde durch die Kombination von GeneRank und RFE umgesetzt. Dadurch hilft RRFE den zugrundeliegenden, biologischen Vorgang besser zu verstehen. Außerdem trägt RRFE dazu bei, den Anteil an ungenutzen Informationen in den Daten zu verringern und funktionell wichtige Gene zu identifizieren. RRFE wurde auf einem integrierten und vier unabhängigen Brustkrebsdatensätzen getestet. Die Datensätze bestehen zusammen aus fast 800 Patienten. RRFE wurde verwendet, um den ERBB2-Status sowie das Risiko eines Brustkrebsrückfalls vorherzusagen. In den Analysen zeigte sich eine verbesserte Interpretierbarkeit und Stabilität der selektierten Gene. Desweiteren konnte auch die Genauigkeit der Klassikation gegenüber standard- sowie netzwerkbasierten Klassifikatoren gesteigert werden. Neben den theoretischen Grundlagen von RRFE stellt die Arbeit auch ein neues R-Paket vor, welches die Implementierungen von RRFE und weiterer netzwerkbasierter Klassikationsmethoden enthält. Ziel war es, die Nutzung von RRFE und anderen Methoden zu vereinfachen, um Entwicklern die Möglichkeit zu geben, die Güte ihrer neuentwickelten Algorithmen mit bereits bestehenden Verfahren zu vergleichen. Das Software-Paket beinhaltet Funktionen, welche zum Vergleichen von Klassikationsmethoden, dem Erstellen von Grafiken und zur Indentifizierung von Genen, die maßgeblich zur Klassikation beigetragen haben, nötig sind.

Translation of abstract (English)

One of the goals of high-throughput gene expression studies in cancer research is to identify prognostic gene signatures which have the potential to predict the clinical outcome of cancer patients. This is commonly investigated using classification methods. However, standard methods show only limited success since they merely rely on gene expression data and assume genes to be independent. Nevertheless, recent studies have shown that the classification can be improved in terms of accuracy as well as interpretability and reproducibility of prognostic gene signatures by including prior biological knowledge, such as information about known cellular signalling pathways. This work gives an overview on databases storing data that is appropriate for use as prior knowledge as well as existing algorithms capable of using this data. The utility of these methods in practice is demonstrated on a number of examples for predicting the clinical outcome of patients. A new classification method capable of using prior knowledge about feature connectivity was developed. The Support Vector Machine (SVM) in combination with the Recursive Feature Elimination (RFE) algorithm were selected as basis of the new method. This combination allows to select the features that are most important for the classification. However, RFE selects these features merely based on their influence on the hyperplane found by the SVM. The novel algorithm, called Reweighted Recursive Feature Elimination (RRFE), alters this ranking criterion by combining the RFE weight with a second weight coming from GeneRank. GeneRank is a modified version of Google's PageRank algorithm and calculates a score for each gene based on a graph structure build from a protein-protein interaction (PPI) database. The assumption of RRFE is that a gene with a low fold change should have an increased influence on the classifier if it is connected to differentially expressed genes. The combination of GeneRank and RFE gives highly connected genes the chance to influence the classifier and in turn help deciphering the underlying biological process. Thus, RRFE accounts for the fact that many functionally relevant genes might not be detectable with current techniques and hence decrease the amount of unexploited information in the data. RRFE was evaluated on four breast cancer data sets, as well as on an integrated one with almost 800 samples. Different clinical endpoints relevant to breast cancer were predicted, including the ERBB2 status as well as the risk of relapse. RRFE demonstrated its ability to select genes that are correlated with the intrinsic biology of the disease, i.e. the selected genes are significantly associated with cancer-related pathways. This improved interpretability is important since it facilitates the biological understanding. Furthermore, RRFE could improve the stability of gene-signatures and increase the classification performance both compared to standard and pathway-based classification methods. Besides the theoretical foundations of RRFE, a new R-package containing RRFE as well as two other, recently published, pathway-based classification methods is presented. The package contains all methods needed to perform a benchmark of newly developed algorithms, for assessing differences in classification performance and extracting the genes used by the methods to build the decision rules.

Document type:	Dissertation
Supervisor:	Eils, Prof. Dr. Roland
Date of thesis defense:	20 May 2011
Date Deposited:	24 Oct 2011 10:47
Date:	2011
Faculties / Institutes:	The Faculty of Bio Sciences > Dean's Office of the Faculty of Bio Sciences
DDC-classification:	570 Life sciences
Controlled Keywords:	Brustkrebs, Support-Vektor-Maschine, Bioinformatik, Maschinelles Lernen, Molekularbiologie, Epidermaler Wachstumsfaktor-Rezeptor, Signalnetzwerke
Uncontrolled Keywords:	bioinformatics , support vector machine , machine learning , breast cancer , molecular biology