Integrating Molecular Dynamics Simulations with Machine Learning and Deep Learning to Predict Nanobody Binding Modes

The development of new molecules for therapeutic and diagnostic applications represents one of the central challenges in modern translational research. However, productivity and risk indicators remain adverse: according to analyses published in Nature Reviews Drug Discovery, the probability that a Phase I candidate will reach regulatory approval is around 9–10%. In this context, nanobodies, small antigen-binding antibody domains derived from the variable region of heavy-chain-only immunoglobulins in some mammals and the main focus of this work, have attracted growing interest as a high-potential biotechnological platform. In the drug discovery process, the integration between experimental and computational approaches has become essential to reduce the time, costs, and uncertainties associated with laboratory assays alone; despite recent advances, in silico methods still exhibit limitations, particularly in the characterization of antigen–antibody binding modes. To address these issues, a promising strategy is to adopt supervised-learning frameworks to develop physics-informed models, also leveraging the availability of parallel computation on GPUs. On this basis, the present research work proposes to integrate molecular dynamics simulations, a computational technique to simulate the motion of atoms and molecules over time, with supervised learning models to predict nanobody binding. This integration is developed under target-free conditions, that is, without making assumptions about either the binding site or the nature of the antigen, so as to extend the resulting evidence to all potential molecular partners. Within this framework, two fundamental recognition mechanisms are considered: the orthosteric mechanism, in which the nanobody binds directly to the functional site of the antigen, mechanically blocking its activity, and the allosteric mechanism, in which the nanobody binds to a secondary site, indirectly reshaping the antigen and thereby inactivating it. In the first part of the thesis, molecular dynamics simulations were carried out starting from a selection of high-quality crystallographic structures. Subsequently, physicochemical descriptors were extracted from the resulting trajectories to constitute the basis of the feature set used by the classifiers. Finally, several machine learning and deep learning models were trained with the aim of optimizing the trade-off between predictive performance and computational efficiency. In the second part, once the training of the classifiers had been completed, a feature-importance analysis was carried out with the aim of inferring the structural, molecular-level determinants that distinguish an orthosteric nanobody from an allosteric one. This step is central to the present research, as it makes it possible to move beyond a purely predictive task, turning machine learning from a classification tool into a methodological driver for the investigation of molecular properties, capable of extracting insights from a physics-oriented methodology that would otherwise be difficult to access with purely computational, non–data-driven approaches.

Lo sviluppo di nuove molecole per applicazioni terapeutiche e diagnostiche rappresenta una delle sfide centrali della ricerca traslazionale moderna. Tuttavia, indicatori di produttività e rischio restano sfavorevoli: secondo le analisi pubblicate su Nature Reviews Drug Discovery, la probabilità che un candidato in Fase I giunga all’approvazione è intorno al 9–10%. In questo contesto, i nanobodies, piccoli domini anticorpali leganti l’antigene derivati dalla regione variabile delle immunoglobuline a sola catena pesante di alcuni mammiferi, e oggetto di studio del lavoro, hanno suscitato un crescente interesse quale piattaforma biotecnologica ad alto potenziale. Nel processo di drug discovery, l’integrazione tra approcci sperimentali e computazionali è divenuta imprescindibile per ridurre tempi, costi e incertezze associate ai soli saggi di laboratorio; malgrado i progressi, i metodi in silico presentano ancora limiti, in particolare nella caratterizzazione delle modalità di legame antigene–anticorpo. Per affrontare queste criticità, un approccio promettente per colmare questo gap consiste nell’adottare framework di apprendimento supervisionato per sviluppare modelli physics-informed, anche grazie alla disponibilità di calcolo parallelo su GPU. Sulla base di questa idea, il presente lavoro di ricerca propone di integrare simulazioni di dinamica molecolare, una tecnica computazionale impiegata per simulare il movimento di atomi e molecole nel tempo, insieme a modelli di supervised learning per prevedere il binding dei nanobodies. Questa integrazione è sviluppata in condizioni target-free, ossia senza formulare assunzioni né sul sito di legame né sulla natura dell’antigene, così da poter estendere le evidenze a tutti i potenziali partner molecolari. In questo contesto vengono presi in esame due meccanismi di riconoscimento fondamentali: quello ortosterico, in cui il nanobody si lega direttamente al sito funzionale dell’antigene bloccandone meccanicamente l’attività, e quello allosterico, in cui il nanobody si lega a un sito secondario, modificandone indirettamente la forma e disattivandolo. Nella prima parte della tesi, sono state condotte simulazioni di dinamica molecolare a partire da una selezione di strutture cristallografiche di alta qualità. Successivamente, dalle traiettorie ottenute sono stati estratti descrittori fisico-chimici che costituiranno la base del set di features impiegato dai classificatori. Infine, diversi modelli fra machine learning e deep learning sono stati addestrati con l’obiettivo di ottimizzare il trade-off tra capacità predittiva ed efficienza computazionale. Nella seconda parte, una volta che è stato completato l’addestramento dei classificatori, è stata eseguita un’analisi dell’importanza delle features con lo scopo di inferire le ragioni strutturali, a livello molecolare, che contraddistinguono un nanobody di classe ortosterica da uno allosterico. Questo passaggio è centrale nel lavoro di ricerca perché consente di andare oltre il mero compito predittivo, trasformando il machine learning da strumento di classificazione a driver metodologico per l’indagine delle proprietà molecolari, capace di far emergere insight da una metodologia physics-oriented altrimenti difficilmente accessibili con i soli approcci computazionali non data-driven.