Directly to content
  1. Publishing |
  2. Search |
  3. Browse |
  4. Recent items rss |
  5. Open Access |
  6. Jur. Issues |
  7. DeutschClear Cookie - decide language by browser settings

RNA Interference Data: from a Statistical Analysis to Network Inference

Knapp, Bettina

German Title: RNA Interferenz Daten: von einer Statistischen Auswertung zur Netzwerkinferenz

[thumbnail of ausarbeitung.pdf]
Preview
PDF, English
Download (3MB) | Terms of use

Citation of documents: Please do not cite the URL that is displayed in your browser location input, instead use the DOI, URN or the persistent URL below, as we can guarantee their long-time accessibility.

Abstract

Viruses are the cause of many severe human diseases such as Hepatitis C, Dengue fever, AIDS, Infuenza and even cancer. In consequence of viral diseases several millions of people die every year all over the world. Due to the rapid evolution of viruses their drug development and treatment are especially difficult. The present work aims at getting a better understanding of the ongoing signaling processes of certain diseases. To do this, methods for the analysis and network inference of RNA interference (RNAi) data are presented. Recent biological and technological advances in the fi eld of RNAi enable the knockdown of individual genes in a high-content high-throughput manner. Thereby, a detailed quantifi cation of perturbation e ffects on specifi c phenotypes can be assessed using multiparametric imaging. This in turn allows the identi fication of genes which are involved in certain biological processes such as virus-host factors used in the viral life-cycles. However, hit lists of already published RNAi screens show only a small overlap, even for studies of the same virus. This may be due to insufficient data analysis where the potential of microscopic screening data is not fully tapped since individual cell measurements are not taken into account for data normalization and hit scoring. This thesis shows that for RNAi data studying Hepatitis C and Dengue virus the phenotypic e ffect after a perturbation is highly influenced by each cell's population context. Therefore, novel methodologies are proposed which use the individual cell measurements for the data analysis and statistical scoring. This results in an increased sensitivity and speci ficity in comparison to already existing methods where these factors are disregarded. The method proposed here allows the identifi cation of already existing as well as new hit genes which are signi ficantly involved in the respective viral life-cycles. The spatial and temporal placement of these hits, however, still remains unknown, and the ongoing signaling processes are only poorly understood. To understand the underlying biology from a system wide view it is necessary to infer the signaling cascade of involved factors in detail. One of the challenges of network inference is the exponentially increasing dimensionality with an increasing number of nodes. The method proposed in this thesis is formulated as a linear optimization problem which can be solved efficiently even for large data sets. The model can incorporate data of single or multiple perturbations at the same time. The aim is to defend the network topology which best represents the given data. Based on simulated data for an small artificial five-node example the robustness of the model against noisy or incomplete data is demonstrated. Furthermore, for this small as well as for larger networks with 10 to 52 nodes it is shown that the model achieves superior results than random guessing. In addition, the performance and the computation time of large networks are better than another approach which has been recently published. Moreover, the network inference method presented here has been applied to data measuring the signaling of ErbB proteins. These proteins are associated with the development of many human cancers. The results of the network inference show that already known signaling cascades can be successfully reconstructed from the data. Additionally, newly learned protein-protein interactions indicate that there are several still unknown feedback and feedforward loops. The proteins of these loops may serve as potential targets to control ErbB signaling. The knowledge about these factors is an important step towards the development of new drugs and therefore,this helps to fi ght ErbB related diseases.

Translation of abstract (German)

Viren sind die Ursache von vielen schweren Krankheiten, wie zum Beispiel Hepatitis C, Dengue Fieber, AIDS, Influenza und auch Krebs. Mehrere Millionen Menschen sterben durch die Folgen von viralen Krankheiten jedes Jahr auf der ganzen Welt. Aufgrund der schnellen Weiterentwicklung von Viren ist deren Behandlung und die Entwicklung von Medikamenten besonders schwierig. Durch die vorliegende Arbeit sollen ablaufende Prozesse bei bestimmten Krankheiten besser verstanden werden. Dafür werden Methoden zur Analyse und Netzwerkinferenz von RNA Interferenz (RNAi) Daten vorgestellt. Neueste biologische und technologische Fortschritte auf dem Gebiet der RNA Interferenz ermöglichen das Herrunterregulieren von einzelnen Genen in einem hochaufgelösten Hochdurchsatzverfahren. Dadurch kann mit Hilfe von multiparametrischen Bildgebungsverfahren eine detaillierte Quanti fizierung von Perturbationseff ekte auf bestimmte Phänotypen durchgeführt werden. Dies erlaubt wiederum die Identi fizierung von Genen, die in bestimmte biologische Prozesse involviert sind, wie zum Beispiel Virus-Wirts-Faktoren, die im viralen Lebenszyklus genutzt werden. Hitlisten von bereits publizierten RNAi Studien zeigen jedoch nur eine geringe Übereinstimmung, sogar für Studien die den gleichen Virus untersuchen. Der Grund hierfür kann eine unzureichende Datenanalyse sein, bei der das Potential von Mikroskopie-Daten nicht voll ausgeschöpft wird, da Einzelzellmessungen bei der Normalisierung und beim Hitscoring nicht berücksichtigt werden. Diese Arbeit zeigt, dass für RNAi Daten, die sich mit dem Hepatitis C und Dengue Virus befassen, der phänotypische Eff ekt nach einer Perturbation stark von dem Populationskontext jeder einzelnen Zelle beeinfflusst wird. Deshalb werden neue Methoden vorgestellt, die die Messungen auf einzelnen Zellen für die Analyse und statistische Auswertung berücksichtigen. Dadurch wird eine erhöhte Sensitivität und Spezi zität im Vergleich zu bereits veröff entlichten Methoden, welche diese Faktoren unbeachtet lassen, erreicht. Die hier präsentierte Methode erlaubt die Identifi zierung von bereits existierenden sowie neuen Hit-Genen, welche in den jeweiligen viralen Lebenszyklen signifikant involviert sind. Die räumliche und zeitliche Anordnung dieser Hits bleibt dabei jedoch ungeklärt und die laufenden Signalprozesse sind bislang nur wenig verstanden. Um die zu Grunde liegende Biologie systemübergreifend zu erfassen, ist es notwendig, die Signalkaskaden von involvierten Faktoren im Detail zu rekonstruieren. Eine der Herausforderungen beim Lernen von Netzwerken ist die exponentiell anwachsende Dimensionalität für eine steigende Anzahl an Knoten. Die Methode, die in dieser Arbeit vorgestellt wird, ist als lineares Optimierungsproblem formuliert, das sogar für große Datensätze effizient lösbar ist. Das Modell kann Daten mit einzelnen oder mehreren Perturbationen gleichzeitig berücksichtigen. Ziel ist es, eine Netzwerktopologie zu fi nden, welche die Daten am Besten repräsentiert. Mit Hilfe von simulierten Daten für ein kleines künstliches Fünf-Knoten Beispiel wird die Robustheit des Modells gegenüber verrauschten und unvollständigen Daten aufgezeigt. Desweiteren wird für dieses kleine, sowie für größere Netzwerke mit 10 bis 52 Knoten gezeigt, dass das Modell bessere Ergebnisse als Raten liefert. Darüber hinaus sind die Resultate und die Rechenzeit bei großen Netzen besser als bei einem anderen Verfahren, das kürzlich publiziert wurde. Überdies wurde die hier vorgestellte Netzwerkinferenzmethode auf Daten, die die Signal-Prozessierung von ErbB Proteinen untersuchen, angewandt. Diese Proteine werden mit der Entstehung von vielen humanen Krebsarten assoziiert. Die Ergebnisse der Netzwerkinferenz zeigen, dass bereits bekannte Signal-Kaskaden erfolgreich aus den Daten rekonstruiert werden können. Zusätzlich deuten neu gelernte Protein-Protein Interaktionen darauf hin, dass es noch einige bisher unbekannte "Feedforward"- und "Feedback"- Schleifen gibt. Die gelernten Faktoren in diesen Schleifen können als Ziele dienen um die ErbB-Signalgebung zu kontrollieren. Das Wissen über diese Proteine ist ein wichtiger Schritt zur Entwicklung von Medikamenten und dies trägt somit zur Bekämpfung von Krankheiten, die mit ErbB in Zusammenhang stehen, bei.

Document type: Dissertation
Supervisor: Kaderali, Prof. Dr. Lars
Date of thesis defense: 23 April 2012
Date Deposited: 22 May 2012 15:45
Date: 2011
Faculties / Institutes: The Faculty of Mathematics and Computer Science > Department of Computer Science
DDC-classification: 004 Data processing Computer science
Uncontrolled Keywords: network inference , RNA interference
About | FAQ | Contact | Imprint |
OA-LogoDINI certificate 2013Logo der Open-Archives-Initiative