![]() |
PDF, English
- main document
![]() Login+Download (30MB) | Lizenz: ![]() |
Abstract
Machine learning-based approaches to protein design have been successfully applied to a variety of design tasks, ranging from unconditional de novo design to the design of protein binders, enzymes and large protein assemblies. Two main approaches have been used to achieve this: hallucination-based methods that invert protein structure predictors to generate protein structures and diffusion models, which iteratively generate protein structures from random noise. While these methods are highly successful, they suffer from a three-way trade-off between the designability of generated structures, the flexibility of the method for tackling different protein design tasks and the speed of the method. Hallucination methods are slow but achieve high designability and flexibility, while diffusion models trade flexibility for speed and designability. In this thesis, I present two approaches to protein design in the hopes of addressing this three-way trade-off. In the first part, I introduce AlphaDesign, a hallucination-based method. AlphaDesign generates monomers, oligomers and protein binders with high success-rates. To demonstrate its real-world utility, I apply it to design inhibitors of bacterial toxin RcaT-Sen2, which show in vivo inhibition activity. AlphaDesign produces protein designs with high computational success-rates and results in in vivo active inhibitors to a challenging target protein. However, like other hallucination-based methods, it suffers from long runtimes and undesirable O(N³) scaling with the number of amino acids designed. In the second part of thesis, I developed salad, a family of protein diffusion models with O(N) runtime complexity in the hopes of addressing the issue of efficiency. salad outperforms previous protein diffusion models, both in terms of speed and designability. To overcome the lack of flexibility in protein diffusion models, I combine salad with structure-editing, a modified generative process for protein diffusion models. This allows salad to solve various protein design tasks without a need for additional model training. Combined with structure-editing, salad is the first protein diffusion model to de novo design conformation-changing proteins as well as superhelical repeat proteins. This way, salad+structure-editing provides a versatile toolbox for computational protein design, simultaneously addressing the three-way trade-off of speed, designability and flexibility.
Translation of abstract (German)
Methoden des maschinellen Lernens haben im Bereich des Proteindesigns erfolgreich Anwendung gefunden. Designaufgaben von der Erstellung von Monomeren ohne bestimmte Funktion, über das Design von Proteinbindern, bis hin zum Enzymdesign und die Konstruktion großer Proteinkomplexe wurden von solchen Modellen bereits erfolgreich gelöst. Aktuelle Ansätze zum Proteindesign mithilfe maschinellen Lernens lassen sich in zwei Klassen aufteilen: Halluzinatorische Methoden (En. hallucination), welche ein Strukturvorhersagemodell invertieren, um Proteinstrukturen zu generieren und Diffusionsmodelle (En. diffusion models), welche schrittweise weißes Rauschen in Proteinstrukturen umwandeln. Während diese Methoden erfolgreich Anwendung finden, leiden heutige Methoden unter einem Trilemma zwischen Designqualität, Anwendbarkeit der Methode und ihrer Effizienz. Halluzinatorische Methoden sind langsam, produzieren jedoch Designs von hoher Qualität und können für beliebige Designaufgaben verwendet werden. Im Gegensatz dazu sind Diffusionsmodelle schnell und generieren hochqualitative Designs, sind jedoch in ihrer Anwendbarkeit beschränkt. In der Hoffnung eine Lösung für dieses Trilemma zu finden, präsentiere ich in dieser Dissertation zwei neuartige Proteindesignansätze. Im ersten Kapitel beschreibe ich mit AlphaDesign eine halluzinatorische Methode. Ich zeige, dass AlphaDesign mit hoher Erfolgsquote Monomere, Oligomere sowie Proteinbinder für beliebige Zielproteine generieren kann. Um die Anwendbarkeit von AlphaDesign zu überprüfen, designe ich Binder für RcaT-Sen2, ein bakterielles Toxin und zeige, dass diese das Toxin in vivo inhibieren. Obwohl AlphaDesign hohe rechnerische Erfolgsquoten erreicht und Inhibitoren mit in vivo Aktivität für ein anspruchsvolles Zielprotein designt, plagen diese Methode die gleichen Probleme wie vergleichbare halluzinatorische Methoden. Die Methode ist langsam und ihre benötigte Rechenzeit wächst kubisch mit der Anzahl designter Aminosäuren. Im zweiten Teil meiner Dissertation beschreibe ich salad, eine Klasse von Diffusionsmodellen mit linearer Komplexität, um das Effizienzproblem zu lösen. salad übertrifft frühere Diffusionsmodelle sowohl in seiner Effizienz als auch in der Qualität der designten Proteinstrukturen. Um das Problem der beschränkten Anwendbarkeit von Diffusionsmodellen zu beheben, kombiniere ich salad mit Structure-Editing (Strukturbearbeitung), einem modifizierten generativen Prozess für Proteindiffusionsmodelle. Dieser ermöglicht es, mit salad diverse Proteindesignaufgaben zu lösen, ohne das Modell neu trainieren zu müssen. Kombiniert mit Structure-Editing, ist salad das erste Proteindiffusionsmodell, welches es ermöglicht, sowohl Proteine zu generieren, die ihre Konformation ändern, als auch superhelikale Repeatproteine zu designen. Diese Kombination aus salad und Structure-Editing löst somit das Trilemma aus Effizienz, Qualität und Anwendbarkeit und bietet dem Nutzer ein vielseitiges Werkzeug, um Proteine zu designen.
Document type: | Dissertation |
---|---|
Supervisor: | Korbel, Prof. Dr. Jan |
Place of Publication: | Heidelberg |
Date of thesis defense: | 8 April 2025 |
Date Deposited: | 04 Jun 2025 09:27 |
Date: | 2025 |
Faculties / Institutes: | The Faculty of Bio Sciences > Dean's Office of the Faculty of Bio Sciences Service facilities > European Molecular Biology Laboratory (EMBL) |
DDC-classification: | 004 Data processing Computer science 500 Natural sciences and mathematics 570 Life sciences |
Controlled Keywords: | Maschinelles Lernen, Synthetische Biologie, Bioinformatik |
Uncontrolled Keywords: | Generative Modelle, Proteindesign |