Directly to content
  1. Publishing |
  2. Search |
  3. Browse |
  4. Recent items rss |
  5. Open Access |
  6. Jur. Issues |
  7. DeutschClear Cookie - decide language by browser settings

Modeling epigenetic heterogeneity across time and genome in single-cell multi-omics experiments

Max, Frank

German Title: Modelle für epigenetische Heterogenität in multimodalen Einzelzell Experimenten

[thumbnail of Max_Frank_Thesis.pdf]
Preview
PDF, English - main document
Download (66MB) | Lizenz: Creative Commons LizenzvertragModeling epigenetic heterogeneity across time and genome in single-cell multi-omics experiments by Max, Frank underlies the terms of Creative Commons Attribution-NonCommercial-ShareAlike 4.0

Citation of documents: Please do not cite the URL that is displayed in your browser location input, instead use the DOI, URN or the persistent URL below, as we can guarantee their long-time accessibility.

Abstract

The genomic sequence of an organism is nearly identical in all its cells and over its lifetime. Epigenomic marks, however, such as DNA methylation and chromatin accessibility, are subject to drastic changes across different tissues and throughout organism development. Recent advancements, notably the development of multi-omics single-cell technologies, allow for simultaneous interrogation of DNA methylation, chromatin accessibility, and transcriptomes within individual cells. This offers unique opportunities to gain insight into mechanisms by which the epigenome shapes gene expression and influences cell fate. However, analyzing these datasets poses major challenges: Typically, smaller numbers of cells can be assayed per experiment than conventional single-cell RNAseq with lower coverage due to small amounts of input material. This means that classical statistical methods are underpowered to detect subtle changes in DNA methylation and chromatin accessibility. Furthermore, current tests can only detect differences between discrete and pre-defined cell populations, whereas single-cell approaches allow for studying continuous processes in organismal lineage development.

To address this, I propose computational methods for decomposing single-cell epigenetic heterogeneity across developmental time and genomic loci. This thesis introduces new concepts, leveraging pseudotemporal ordering of cells to conduct statistical inferences upon epigenetic changes. At the core of these developments is GPmeth, a Gaussian process framework designed to model highly sparse single-cell methylation and accessibility information by enforcing smooth variation across pseudotime and genomic coordinates and thus effectively sharing information between cells and genomic positions. Importantly, this model does not rely on averaging methylation signals across fixed genomic windows but can identify differentially methylated/accessible regions in a data-driven way. Testing GPmeth against other models without dynamic aggregation of methylation data revealed increased sensitivity to detect even subtle epigenetic changes.

Application of GPmeth to scNMT-seq data from mouse embryonic stem cells undergoing gastrulation revealed over 3000 enhancer elements that exhibited dynamic changes in chromatin accessibility or DNA methylation rates during germ layer formation. The detailed spatiotemporal model allowed for a precise definition of differentially methylated regions, validated by transcription factor binding motif analysis. Furthermore, the clustering of temporal epigenetic patterns identified lineage-specific enhancers in an unsupervised manner.

I expect GPmeth to be a valuable tool for studying time-resolved epigenetic regulation in several emerging multimodal single-cell datasets.

Translation of abstract (German)

Die Genomsequenz eines Organismus ist in allen seinen Zellen und über sein gesamtes Leben hinweg nahezu identisch. Epigenomische Marker wie DNA-Methylierung und die Zugänglichkeit von Chromatin variiren jedoch drastisch zwischen verschiedenen Geweben und während der Entwicklung des Organismus. Jüngste Fortschritte, insbesondere die Entwicklung von Multi-Omics-Einzelzelltechnologien, ermöglichen die gleichzeitige Messung von DNA-Methylierung, Chromatin-Zugänglichkeit und Genexpression innerhalb einzelner Zellen. Dies bietet neue Möglichkeiten, Einblicke in die Mechanismen zu gewinnen, durch die das Epigenom die Genexpression prägt und das die Entwicklung von Zellen beeinflusst. Die Analyse dieser Datensätze stellt jedoch große Herausforderungen dar: Verglichen mit herkömmlichem Einzelzell-RNAseq, kann typischerweise pro Experiment eine geringere Anzahl von Zellen mit geringerer Abdeckung untersucht werden. Dies bedeutet, dass klassische statistische Methoden zum Testen von DNA-Methylierungs- und Chromatin-Zugänglichkeitsunterschieden nicht ausreichen, um subtile Veränderungen zu erkennen. Dazu kommt, dass aktuelle Tests nur Unterschiede zwischen diskreten und vordefinierten Zellpopulationen testen, während Einzelzellansätze die Untersuchung kontinuierlicher Prozesse der Entwicklung der Abstammungslinie von Organismen ermöglichen.

Deshalb führe ich hier rechnerische Methoden zur Zerlegung der epigenetischen Heterogenität einzelner Zellen über die Entwicklungszeit und die genomischen Loci ein. Diese Arbeit stellt neue Konzepte vor, die die pseudotemporale Ordnung von Zellen nutzen, um statistische Rückschlüsse auf epigenetische Veränderungen zu ziehen. Im Mittelpunkt dieser Entwicklungen steht GPmeth, ein Gaußsches ProzessFramework, das darauf ausgelegt ist, äußerst spärliche Einzelzell-Methylierungs- und Chromatin Zugänglichkeitsinformationen zu modellieren, indem eine kontinuierliche Variation über Pseudozeit und Genomkoordinaten hinweg erzwungen wird, und so, Informationen effektiv über Zellen und Genompositionen hinweg ausgetauscht werden. Wichtig ist, dass dieses Modell keine festgesetzten Genomfenster vorraussetzt, sondern differenziell methylierte/zugängliche Regionen auf datengesteuerte Weise identifizieren kann. Im Vergleich zu anderen Modellen ohne dynamische Aggregation von Methylierungsdaten, hat GPmeth erhöhte Sensitivität zur Identifikation subtiler epigenetischer Veränderungen.

Die Anwendung von GPmeth auf scNMT-seq-Daten aus embryonalen Stammzellen von Mäusen während des Gastrulationsprozesses, ergab über 3000 Enhancer-Elemente, die dynamische Veränderungen in der Zugänglichkeit von Chromatin oder den DNAMethylierungsraten zeigten. Das detaillierte räumlich-zeitliche Modell ermöglichte eine präzise Definition unterschiedlich methylierter Regionen, validiert durch die Analyse von Transkriptionsfaktor-Bindungsmotiven. Darüber hinaus identifizierte die Clusteranalyse der Modell-Resultate bekannte Abstammungsspezifische Enhancer.

Ich erwarte, dass GPmeth ein wertvolles Werkzeug zur Untersuchung der zeitaufgelösten epigenetischen Regulation in mehreren neu entstehenden multimodalen Einzelzelldatensätzen sein wird.

Document type: Dissertation
Supervisor: Stegle, Dr. Oliver
Place of Publication: Heidelberg
Date of thesis defense: 8 May 2024
Date Deposited: 28 May 2024 14:05
Date: 2024
Faculties / Institutes: The Faculty of Bio Sciences > Dean's Office of the Faculty of Bio Sciences
Service facilities > European Molecular Biology Laboratory (EMBL)
DDC-classification: 570 Life sciences
Controlled Keywords: Epigenetik, Bioinformatik, Genregulation
About | FAQ | Contact | Imprint |
OA-LogoDINI certificate 2013Logo der Open-Archives-Initiative