Computational Analysis of RNAi Screening Data to Identify Host Factors Involved in Viral Infection and to Characterize Protein-Protein Interactions

Suratanee, Apichat

German Title: Computergestützte Analyse von RNAi-Screening Daten zur Identifizierung von Wirts-Faktoren viraler Infektionen und zur Charakterisierung von Protein-Protein-Interaktionen

[thumbnail of SurataneeCompleteThesis.pdf]

Preview

PDF, English
Download (4MB) | Terms of use

Citation of documents: Please do not cite the URL that is displayed in your browser location input, instead use the DOI, URN or the persistent URL below, as we can guarantee their long-time accessibility.

DOI: 10.11588/heidok.00013845
URN: urn:nbn:de:bsz:16-heidok-138452
URL: http://www.ub.uni-heidelberg.de/archiv/13845

Abstract

The study of gene functions in a variety of different treatments, cell lines and organisms has been facilitated by RNA interference (RNAi) technology that tracks the phenotype of cells after silencing of particular genes. In this thesis, I describe two computational approaches developed to analyze the image data from two different RNAi screens. Firstly, I developed an alternative approach to detect host factors (human proteins) that support virus growth and replication of cells infected with the Hepatitis C virus (HCV). To identify the human proteins that are crucial for the efficiency of viral infection, several RNAi experiments of viral-infected cells have been conducted. However, the target lists from different laboratories have shown only little overlap. This inconsistency might be caused not only by experimental discrepancies, but also by not fully explored possibilities of the data analysis. Observing only viral intensity readouts from the experiments might be insufficient. In this project, I describe our computational development as a new alternative approach to improve the reliability for the host factor identification. Our approach is based on characterizing the clustering of infected cells. The idea is that viral infection is spread by cell-cell contacts, or at least advantaged by the vicinity of cells. Therefore, clustering of the HCV infected cells is observed during spreading of the infection. We developed a clustering detection method basing on a distance-based point pattern analysis (K-function) to identify knockdown genes in which the clusters of HCV infected cells were reduced. The approach could significantly separate between positive and negative controls and found good correlations between the clustering score and intensity readouts from the experimental screens. In comparison to another clustering algorithm, the K-function method was superior to Quadrat analysis method. Statistical normalization approaches were exploited to identify protein targets from our clustering-based approach and the experimental screens. Integrating results from our clustering method, intensity readout analysis and secondary screen, we finally identified five promising host factors that are suitable candidate targets for drug therapy. Secondly, a machine learning based approach was developed to characterize protein-protein interactions (PPIs) in a signaling network. The characterization of each PPI is fundamental to our understanding of the complex signaling system of a human cell. Experiments for PPI identification, such as yeast two-hybrid and FRET analysis, are resource-intensive, and, therefore, computational approaches for analysing large-scale RNAi knockdown screens have become an important pursuit of inferring the functional similarities from the phenotypic similarities of the down-regulated proteins. However, these methods did not provide a more detailed characterization of the PPIs. In this project, I developed a new computational approach that is based on a machine learning technique which employs the mitotic phenotypes of an RNAi screen. It enables the identification of the nature of a PPI, i.e., if it is of rather activating or inhibiting nature. We established a systematic classification using Support Vector Machines (SVMs) that was based on the phenotypic descriptors and used it to classify the interactions that activate or inhibit signal transduction. The machines yielded promising results with good performance when integrating different sets of published descriptors and our own developed descriptors calculated from fractions of specific phenotypes, linear classification of phenotypes, and phenotypic distance to distinct proteins. A comprehensive model generated from the machines was used for further predictions. We investigated the nature of pairs of interacting proteins and generated a consistency score that enhanced the precisions of the classification results. We predicted the activating/inhibiting nature for 214 PPIs with high confidence in signaling pathways and enabled to identify a new subgroup of chemokine receptors. These findings might facilitate an enhanced understanding of the cellular mechanisms during inflammation and immunologic responses. In summary, two computational approaches were developed to analyze the image data of the different RNAi screens: 1) a clustering-based approach was used to identify the host factors that are crucial for HCV infection; and 2) a machine learning-based approach with various descriptors was employed to characterize PPI activities. The results from the host factor analysis revealed novel target proteins that are involved in the spread of the HCV. In addition, the results of the characterization of the PPIs lead to a better understanding of the signaling pathways. The two large-scale RNAi data were successfully analyzed by our established approaches to obtain new insights into virus biology and cellular signaling.

Translation of abstract (German)

Die Untersuchung von Genfunktionen in vielen verschiedenen Behandlungsverfahren, Zelllinien und Organismen wurde durch die Technologie der RNA Interferenz (RNAi) ermöglicht, mit der der Phänotyp von Zellen nach Gen-Silencing bestimmter Gene beobachtet werden kann. In der vorliegenden Arbeit beschreibe ich zwei computergestützte Ansätze, die zur Analyse von Bildern zweier unterschiedlicher RNAi Screens entwickelt wurden. Erstens habe ich einen alternativen Ansatz entwickelt um Host-Faktoren (menschliche Proteine) zu detektieren, die das Viruswachstum sowie die Replikation von Zellen fördern, die mit dem Hepatitis C Virus (HCV) infiziert sind. Verschiedene RNAi Experimente von virusinfizierten Zellen wurden durchgeführt, um diejenigen menschlichen Proteine zu identifizieren, die entscheidend für die virale Infektionseffizienz sind. Trefferlisten aus verschiedenen Laboren haben nur geringe Übereinstimmung gezeigt. Diese Unstimmigkeiten sind möglicherweise nicht nur auf experimentelle Unterschiede zurückzuführen, sondern auch auf die Tatsache, dass die Möglichkeiten der Datenanalyse nicht vollständig ausgeschöpft wurden. Die ausschließliche Betrachtung der experimentell erzeugten viralen Intensitätswerte ist vermutlich unzureichend. In diesem Projekt beschreibe ich unsere computergestützte Entwicklung als einen neuen alternativen Ansatz, um die Verlässlichkeit der Host-Faktor Identifikation zu verbessern. Unser Ansatz basiert auf der Charakterisierung des Clusterings infizierter Zellen. Die Idee ist, dass Virusinfektion durch Zell-Zell Kontakt verbreitet wird oder zumindest durch die Nachbarschaft von Zellen begünstigt wird. Daher betrachten wir das Clustering HCV infizierter Zellen während der Infektionsverbreitung. Wir haben eine Clustering-Detektionsmethode entwickelt, um Knockdown-Gene zu identifizieren, in denen die Cluster von HCV infizierten Zellen reduziert waren. Die Methode verwendet eine distanzbasierte Punktmuster-Analyse (K-function). Der Ansatz konnte signifikant zwischen Positiv- und Negativ-Kontrollen unterscheiden und fand eine gute Korrelation zwischen dem Clustering-Score und den Intensitätswerten der experimentellen Screens. Im Vergleich zu einer anderen Clustering-Methode (Quadrat-Analyse) ist die K-function überlegen. Statistische Normalisierungsmethoden wurden angewendet um Ziel-Proteine aus unserem Cluster-basierten Ansatz und experimentellen RNAi Screens zu identifizieren. Durch Integration von Ergebnissen unserer Analyse, der Analyse von Intensitätswerten und einem sekundaren RNAi Screens, haben wir schließlich fünf viel versprechende Host-Faktoren identifiziert, die geeignete Kandidaten für eine medikamentöse Behandlung darstellen. Zweitens wurde ein maschineller Lernansatz entwickelt, um Protein-Protein Interaktionen (PPI) in einem Signalnetzwerk zu charakterisieren. Die Charakterisierung jeder PPI ist elementar für unser Verständnis des komplexen Signalsystems einer menschlichen Zelle. Experimente zur PPI Identifikation, wie z.B. yeast two-hybrid und FRET Analysen, sind Ressourcen-intensiv und daher ist der Rückschluss von phänotypischen Ähnlichkeiten von herunterregulierten Proteinen auf funktionelle Ähnlichkeiten ein wichtiger Aspekt computergestützter Ansätze zur Analyse von umfangreichen RNAi Knockdown Screens. Diese Methoden lieferten jedoch keine detaillierte Charakterisierung der PPIs. In diesem Projekt habe ich einen neuen computergestützten Ansatz entwickelt, der auf einem maschinellen Lernansatz basiert, der die mitotischen Phänotypen eines RNAi Screens verwendet. Der Ansatz ermöglicht die Identifizierung des Wesens einer PPI, d.h. ob sie eher aktivierender oder inhibierender Natur ist. Basierend auf den phänotypischen Deskriptoren haben wir eine systematische Klassifizierung mittels Support Vektor Maschinen (SVMs) etabliert um zu bestimmen, ob ein aktivierendes oder hemmendes Signal propagiert wird. Die SVMs lieferten viel versprechende Ergebnisse mit guter Performanz durch die Integration verschiedener Gruppen von publizierten Deskriptoren und unseren selbst entwickelten Deskriptoren, die aus Fraktionen spezifischer Phänotypen, linearer Klassifikation von Phänotypen und phänotypischen Distanzen zu bestimmten Proteinen berechnet wurden. Ein umfassendes Modell, welches von den SVMs generiert wurde, wurde für weitere Vorhersagen verwendet. Wir haben das Wesen von Paaren von interagierenden Proteinen untersucht und einen Konsistenzwert generiert, der die Präzision der Klassifikationsergebnisse verbesserte. Wir konnten die aktivierende/inhibierende Natur von 214 PPIs in Signaltransduktionswegen mit hoher Sicherheit vorhersagen und identifizierten eine neue Subgruppe von Cheomkinrezeptoren. Diese Ergebnisse tragen möglicherweise zu einem besseren Verständnis zellulärer Mechanismen bei, insbesondere während Entzündungsreaktionen und Immunantworten. Zusammenfassend wurden zwei computergestützte Ansätze zur Analyse der Bilder der unterschiedlichen RNAi Screens entwickelt: 1) Es wurde ein Clusteringansatz verwendet, um Host-Faktoren zu identifizieren, die entscheidend für eine HCV Infektion sind; und 2) wurde ein maschineller Lernansatz mit verschiedenen Deskriptoren angewendet, um PPI Aktivitäten zu charakterisieren. Die Ergebnisse der Host-Faktor Analysen konnten neue Zielproteine aufdecken, die an der Verbreitung von HCV beteiligt sind. Darüber hinaus führen die Ergebnisse zur Charakterisierung der PPI zu einem besseren Verständnis von Signalwegen. Die beiden umfangreichen RNAi Datensätze konnten erfolgreich mit unseren etablierten Ansätzen analysiert werden, um neue Einblicke in die Virusbiologie und zelluläre Signalwege zu erhalten.

Document type:	Dissertation
Supervisor:	Eils, Prof.Dr. Roland
Date of thesis defense:	15 October 2012
Date Deposited:	16 Jan 2012 13:55
Date:	2012
Faculties / Institutes:	Service facilities > Interdisciplinary Center for Scientific Computing
Uncontrolled Keywords:	Bioinformatics, Host factor identification, Protein-Protein interaction, Machine learning, RNAi data