Directly to content
  1. Publishing |
  2. Search |
  3. Browse |
  4. Recent items rss |
  5. Open Access |
  6. Jur. Issues |
  7. DeutschClear Cookie - decide language by browser settings

Natural sequence variation as a tool to dissect gene expression regulation in Drosophila melanogaster

Forneris, Mattia

[thumbnail of Thesis.pdf] PDF, English
Download (26MB) | Terms of use

Citation of documents: Please do not cite the URL that is displayed in your browser location input, instead use the DOI, URN or the persistent URL below, as we can guarantee their long-time accessibility.

Abstract

Genetic variation is a major cause of differences between individuals and it represents a powerful tool to study gene regulation. By interfering with cis- Regulatory Modules (CRMs), variants can unravel CRM function. On the other hand, predicting the effect of variants on phenotype by the DNA sequence has proven to be challenging. In this thesis, I use Drosophila embryonic development as a model system to study diversity in gene regulation at the transcriptional level. CRMs can be characterized using multiple genome-wide techniques such as DNase hypersensitivity. However, despite having comprehensive CRM maps, it is still difficult to predict what are the genes regulated by each CRM. Functional methods, such as mutagenesis, are effective but poorly scalable. To address this issue, I developed an eQTL method (called DHS-eQTL) that makes use of naturally occurring genetic variation, to associate CRMs with the genes they regulate. The results reveal 2,967 DHS-eQTLs and indicate a high extent of CRM sharing between genes. We validated the results with in silico and in vitro approaches and I discuss upcoming in vivo experiments. We observed long-range enhancer regulation suggesting that commonly used methods to associate genes and enhancers underestimate their distance. Also, the DHS-eQTLs show that promoter-proximal CRMs have widespread distal activity. The separation between populations causes an increase in genetic differences by drift and adaptation to different environments. We investigated gene expression differences between Drosophila populations from five continents by performing RNA-Seq on 80 inbred fly lines. We performed multiple quality-control tests to ensure that the gene expression dataset is of high quality. Gene expression profiles show detectable diversity among the fly lines from different continents and confirm what has been observed at the genetic level. In particular, the African population is the most separated, while the American, European and Australian ones show less diversity. In addition, we identified 903 gene and 2,021 exon eQTLs. Genetic variants can interfere with Transcription Factor Binding Sites (TFBS) and this might, in turn, lead to changes in chromatin accessibility. We applied LS-GKM (an SVM method that uses gapped k-mers) to learn sequence features of tissue-specific accessible chromatin and predict the impact of natural sequence variation on accessibility. We train LS-GKM on six tissue-specific training sets: neuroectodermal, mesodermal and double negative CRMs divided in promoter-proximal and promoter-distal. The method unbiasedly recovers tissue-specific TFBS and shows good performance despite the small training sets. Finally, we score variants from groups of inbred Drosophila lines. Interestingly, rare variants have a higher impact on accessibility.

Translation of abstract (German)

Genetische Variation ist eine der Hauptursachen für die Unterschiede, die zwischen Individuen bestehen, und stellt ein wirksames Mittel zur Untersuchung der Genregulation dar. Variationen, die cis-regulatorische Module (CRMs) beeinflussen, können helfen deren Funktion zu entschlüsseln. Allerdings ist die Prognose der Auswirkungen genetischer Variationen auf den Phänotypen anhand der DNA-Sequenz immer noch schwierig. In der vorliegenden Arbeit nutze ich die Embryonalentwicklung der Fruchtfliege Drosophila als Modellsystem, um mithilfe der genetischen Diversität die Genregulation auf transkriptioneller Ebene zu untersuchen. CRMs können durch verschiedene genomweite Methoden, wie beispielsweise der „DNase hypersensitivity“, beschrieben werden. Obwohl so umfassende CRM-Karten erstellt werden konnten, ist die Zuordnung der Gene zu den CRMs, durch die sie reguliert werden, weiterhin schwierig. Funktionale Methoden, wie die Metagenese, sind effektiv, können aber nur unzureichend auf das gesamte Genom angewandt werden. Um auf dieses Problem einzugehen, habe ich eine eQTL Methodik entwickelt (genannt DHS-eQTL), welche sich der natürlich vorkommenden genetischen Variation bedient, um CRMs den von ihnen regulierten Genen zuzuordnen. 2.967 DHS-eQTLs wurden identifiziert und ich konnte zeigen, dass CRMs häufig mehrere Gene regulieren. Die Ergebnisse wurden mit in silico und in vitro Methoden validiert und ich diskutiere anstehende in vivo Experimente. Unsere Beobachtungen zeigen des Weiteren, dass Enhancer ihre Zielgene häufig über größere genomische Distanzen hinweg regulieren, und legen damit nahe, dass gemeinhin verwendete Methoden für die Zuordnung von Genen und Enhancern deren Distanz unterschätzen. Darüberhinaus zeigen die DHS-eQTLs, dass Promoter-proximale CRMs umfassende distale Aktivität aufweisen. Die räumliche Trennung von Populationen führt zu einer Zunahme der genetischen Unterschiede zwischen diesen, verursacht durch Drift und Adaption an die verschiedenen Umweltfaktoren. Wir haben die Genexpressionsunterschiede zwischen Drosophila Populationen von fünf Kontinenten untersucht. Dazu wurde RNA-seq an 80 Inzuchtfliegenlinien durchgeführt. Die hohe Qualität der resultierenden Datensätze wurde durch verschiedene Qualitätskontrollen sichergestellt. Die Genexpressionsprofile zeigen eine nachweisbare Diversität zwischen den Fliegenlinien der verschiedenen Kontinente und bestätigen damit was bereits auf genetischer Ebene beobachtet wurde: Die afrikanische Population grenzt sich am stärksten ab, während die amerikanische, europäische und australische weniger Diversität aufweisen. Darüberhinaus konnten wir 903 Gen- und 2.021 Exon-eQTLs identifizieren. Der genetischen Variation liegen Änderungen in der DNA-Sequenz zugrunde und diese Änderungen können Transkriptionsfaktorbindestellen (TFBS) stören. Diese wiederum können zu einer Veränderung des Chromatins führen (offen/geschlossen oder „accessible/inaccessible“). Wir haben LS-GKM angewendet (eine SVM Methode, die „gapped k-mers“ verwendet), um die Sequenzeigenschaften von gewebespezifischer „chromatin accessibility“ zu lernen und den Einfluss von natürlichen Sequenzvariationen auf diese Zugänglichkeit zu Chromatin vorherzusagen. Dafür haben wir LS-GKM mit sechs gewebespezifischen Datensets trainiert: neuroektodermale, mesodermale und doppelt-negative CRMs, jeweils unterteilt in Promoter-proximale und Promoter-distale Sequenzen. Trotz dieses kleinen Trainingssets erbringt die Methode gute Leistungen und findet in unvoreingenommener Weise gewebespezifische TFBS. Abschließend bewerten wir Varianten von verschieden Gruppen inzüchtiger Drosophila-Linien. Interessanterweise zeigt sich dabei, dass seltene Varianten einen größeren Einfluss auf die Chromatin Zugänglichkeit haben.

Document type: Dissertation
Supervisor: Stegle, Dr. Oliver
Place of Publication: Heidelberg
Date of thesis defense: 9 October 2019
Date Deposited: 04 Dec 2019 14:02
Date: 2020
Faculties / Institutes: The Faculty of Bio Sciences > Dean's Office of the Faculty of Bio Sciences
DDC-classification: 570 Life sciences
About | FAQ | Contact | Imprint |
OA-LogoDINI certificate 2013Logo der Open-Archives-Initiative