eprintid: 34849 rev_number: 19 eprint_status: archive userid: 8173 dir: disk0/00/03/48/49 datestamp: 2024-05-28 14:05:50 lastmod: 2024-06-18 09:01:20 status_changed: 2024-05-28 14:05:50 type: doctoralThesis metadata_visibility: show creators_name: Max, Frank title: Modeling epigenetic heterogeneity across time and genome in single-cell multi-omics experiments title_de: Modelle für epigenetische Heterogenität in multimodalen Einzelzell Experimenten subjects: ddc-570 divisions: i-140001 divisions: i-850800 adv_faculty: af-14 cterms_swd: Epigenetik cterms_swd: Bioinformatik cterms_swd: Genregulation abstract: The genomic sequence of an organism is nearly identical in all its cells and over its lifetime. Epigenomic marks, however, such as DNA methylation and chromatin accessibility, are subject to drastic changes across different tissues and throughout organism development. Recent advancements, notably the development of multi-omics single-cell technologies, allow for simultaneous interrogation of DNA methylation, chromatin accessibility, and transcriptomes within individual cells. This offers unique opportunities to gain insight into mechanisms by which the epigenome shapes gene expression and influences cell fate. However, analyzing these datasets poses major challenges: Typically, smaller numbers of cells can be assayed per experiment than conventional single-cell RNAseq with lower coverage due to small amounts of input material. This means that classical statistical methods are underpowered to detect subtle changes in DNA methylation and chromatin accessibility. Furthermore, current tests can only detect differences between discrete and pre-defined cell populations, whereas single-cell approaches allow for studying continuous processes in organismal lineage development. To address this, I propose computational methods for decomposing single-cell epigenetic heterogeneity across developmental time and genomic loci. This thesis introduces new concepts, leveraging pseudotemporal ordering of cells to conduct statistical inferences upon epigenetic changes. At the core of these developments is GPmeth, a Gaussian process framework designed to model highly sparse single-cell methylation and accessibility information by enforcing smooth variation across pseudotime and genomic coordinates and thus effectively sharing information between cells and genomic positions. Importantly, this model does not rely on averaging methylation signals across fixed genomic windows but can identify differentially methylated/accessible regions in a data-driven way. Testing GPmeth against other models without dynamic aggregation of methylation data revealed increased sensitivity to detect even subtle epigenetic changes. Application of GPmeth to scNMT-seq data from mouse embryonic stem cells undergoing gastrulation revealed over 3000 enhancer elements that exhibited dynamic changes in chromatin accessibility or DNA methylation rates during germ layer formation. The detailed spatiotemporal model allowed for a precise definition of differentially methylated regions, validated by transcription factor binding motif analysis. Furthermore, the clustering of temporal epigenetic patterns identified lineage-specific enhancers in an unsupervised manner. I expect GPmeth to be a valuable tool for studying time-resolved epigenetic regulation in several emerging multimodal single-cell datasets. abstract_translated_text: Die Genomsequenz eines Organismus ist in allen seinen Zellen und über sein gesamtes Leben hinweg nahezu identisch. Epigenomische Marker wie DNA-Methylierung und die Zugänglichkeit von Chromatin variiren jedoch drastisch zwischen verschiedenen Geweben und während der Entwicklung des Organismus. Jüngste Fortschritte, insbesondere die Entwicklung von Multi-Omics-Einzelzelltechnologien, ermöglichen die gleichzeitige Messung von DNA-Methylierung, Chromatin-Zugänglichkeit und Genexpression innerhalb einzelner Zellen. Dies bietet neue Möglichkeiten, Einblicke in die Mechanismen zu gewinnen, durch die das Epigenom die Genexpression prägt und das die Entwicklung von Zellen beeinflusst. Die Analyse dieser Datensätze stellt jedoch große Herausforderungen dar: Verglichen mit herkömmlichem Einzelzell-RNAseq, kann typischerweise pro Experiment eine geringere Anzahl von Zellen mit geringerer Abdeckung untersucht werden. Dies bedeutet, dass klassische statistische Methoden zum Testen von DNA-Methylierungs- und Chromatin-Zugänglichkeitsunterschieden nicht ausreichen, um subtile Veränderungen zu erkennen. Dazu kommt, dass aktuelle Tests nur Unterschiede zwischen diskreten und vordefinierten Zellpopulationen testen, während Einzelzellansätze die Untersuchung kontinuierlicher Prozesse der Entwicklung der Abstammungslinie von Organismen ermöglichen. Deshalb führe ich hier rechnerische Methoden zur Zerlegung der epigenetischen Heterogenität einzelner Zellen über die Entwicklungszeit und die genomischen Loci ein. Diese Arbeit stellt neue Konzepte vor, die die pseudotemporale Ordnung von Zellen nutzen, um statistische Rückschlüsse auf epigenetische Veränderungen zu ziehen. Im Mittelpunkt dieser Entwicklungen steht GPmeth, ein Gaußsches ProzessFramework, das darauf ausgelegt ist, äußerst spärliche Einzelzell-Methylierungs- und Chromatin Zugänglichkeitsinformationen zu modellieren, indem eine kontinuierliche Variation über Pseudozeit und Genomkoordinaten hinweg erzwungen wird, und so, Informationen effektiv über Zellen und Genompositionen hinweg ausgetauscht werden. Wichtig ist, dass dieses Modell keine festgesetzten Genomfenster vorraussetzt, sondern differenziell methylierte/zugängliche Regionen auf datengesteuerte Weise identifizieren kann. Im Vergleich zu anderen Modellen ohne dynamische Aggregation von Methylierungsdaten, hat GPmeth erhöhte Sensitivität zur Identifikation subtiler epigenetischer Veränderungen. Die Anwendung von GPmeth auf scNMT-seq-Daten aus embryonalen Stammzellen von Mäusen während des Gastrulationsprozesses, ergab über 3000 Enhancer-Elemente, die dynamische Veränderungen in der Zugänglichkeit von Chromatin oder den DNAMethylierungsraten zeigten. Das detaillierte räumlich-zeitliche Modell ermöglichte eine präzise Definition unterschiedlich methylierter Regionen, validiert durch die Analyse von Transkriptionsfaktor-Bindungsmotiven. Darüber hinaus identifizierte die Clusteranalyse der Modell-Resultate bekannte Abstammungsspezifische Enhancer. Ich erwarte, dass GPmeth ein wertvolles Werkzeug zur Untersuchung der zeitaufgelösten epigenetischen Regulation in mehreren neu entstehenden multimodalen Einzelzelldatensätzen sein wird. abstract_translated_lang: ger date: 2024 id_scheme: DOI id_number: 10.11588/heidok.00034849 ppn_swb: 1890773441 own_urn: urn:nbn:de:bsz:16-heidok-348498 date_accepted: 2024-05-08 advisor: HASH(0x561a6285bc38) language: eng bibsort: MAXFRANKMODELINGEP20240508 full_text_status: public place_of_pub: Heidelberg citation: Max, Frank (2024) Modeling epigenetic heterogeneity across time and genome in single-cell multi-omics experiments. [Dissertation] document_url: https://archiv.ub.uni-heidelberg.de/volltextserver/34849/1/Max_Frank_Thesis.pdf