Accurate prediction of protein-protein interactions (PPIs) has always been a major goal in structural biology. This thesis develops and benchmarks a computational pipeline for predicting and validating protein complexes using artificial intelligence-based tools. The pipeline integrates AlphaPullDown (APD) and AlphaBridge (AB) and compares performance against AlphaFold3 (AF3), the current state-of-the-art method. A key step was the development of a custom conversion tool that makes APD output fit for AlphaBridge’s downstream analysis. The pipeline was benchmarked against experimentally determined protein assemblies. PLOD1 homodimer, Vps33-Vps16 heterodimer, GPR179-pikachurin hetero-tetramer, and LRRTM2-Neurexin1β were chosen as benchmarking complexes. Predictions were evaluated using structural similarity metrics (RMSD) and confidence scores (pTM, ipTM, pDockQ). Achieved superior structural accuracy in three of four benchmarked complexes: PLOD1 dimer, Vps33-Vps16 and GPCR179-pikachurin. However, AF3 showed greater versatility in handling non-protein entities such as ions and cofactors. The pipeline was also tested on a unpublished PLOD1 homo-tetramer, showing its applicability to unknown complexes. A major limitation exists on APD’s restriction to peptide chains only, preventing the modeling of interactions mediated by ions and cofactors. As a matter of fact, both tools (APD and AF3) completely missed the native interface of the calcium-dependent LRRTM2-Neurexin1β complex when the Ca2+ ion was excluded from the run. Despite these constraints, the APD-AB pipeline offers a large-scale, high-throughput screening method for protein complexes. Future directions include integration of newer AI models (Chai-1, Boltz-2) that support diverse kind of token types and distance constraints for a deeper and more precise structural prediction.

La predizione delle interazioni proteina-proteina (PPIs) è sempre stata un obiettivo fondamentale della biologia strutturale. Questa tesi sviluppa e testa una pipeline computazionale per la predizione e la validazione di complessi proteici utilizzando strumenti di intelligenza artificiale. La pipeline integra AlphaPullDown (APD) e AlphaBridge (AB), confrontando le prestazioni rispetto ad AlphaFold3 (AF3), il metodo più avanzato attualmente disponibile. Un passo chiave è stato lo sviluppo di uno strumento di conversione personalizzato che rende l’output di APD idoneo per l’analisi di AlphaBridge. La pipeline è stata validata rispetto a complessi proteici sperimentalmente ottenuti. Sono stati scelti come complessi di benchmark l’omodimero PLOD1, l’eterodimero Vps33-Vps16, l’etero-tetramero GPR179-pikachurin e l’eterodimero LRRTM2-Neurexin1β. Le predizioni sono state valutate utilizzando metriche di accuratezza (somiglianza) strutturale (RMSD) e metriche di confidenza (pTM, ipTM, pDockQ). APD ha ottenuto una maggiore accuratezza strutturale con tre dei quattro complessi valutati: il dimero di PLOD1, Vps33-Vps16 e GPR179-pikachurin. Tuttavia, AF3 ha mostrato una maggiore versatilità nel gestire entità non peptidiche come ioni e altri cofattori. La pipeline è stata anche testata su un omotetramero di PLOD1 non pubblicato, dimostrando la sua applicabilità a complessi sconosciuti. Una restrizione importante della pipeline riguarda la limitazione di APD nel trattare solo catene peptidiche, che impedisce la predizione di interazioni mediate da ioni e cofattori. Entrambi gli strumenti (APD e AF3) hanno completamente mancato l’interfaccia del complesso dipendente LRRTM2-Neurexin1β (dipendente da uno ione calcio) quando lo ione Ca²⁺ è stato escluso dall’analisi. Nonostante questi vincoli, la pipeline APD-AB offre un metodo di screening per complessi proteici su larga scala e altamente personalizzabile. Nel futuri, la direzione è quella dell’integrazione di modelli di intelligenza artificiale più recenti (Chai-1, Boltz-2) nella pipeline, in grado di supportare token diversi dai peptidi e vincoli di distanza per una previsione strutturale più accurata.

Esplorazione dei nuovi strumenti per la valutazione delle interazioni proteina-proteina: AlphaFold e oltre.

TURICCI, NICCOLÒ
2024/2025

Abstract

Accurate prediction of protein-protein interactions (PPIs) has always been a major goal in structural biology. This thesis develops and benchmarks a computational pipeline for predicting and validating protein complexes using artificial intelligence-based tools. The pipeline integrates AlphaPullDown (APD) and AlphaBridge (AB) and compares performance against AlphaFold3 (AF3), the current state-of-the-art method. A key step was the development of a custom conversion tool that makes APD output fit for AlphaBridge’s downstream analysis. The pipeline was benchmarked against experimentally determined protein assemblies. PLOD1 homodimer, Vps33-Vps16 heterodimer, GPR179-pikachurin hetero-tetramer, and LRRTM2-Neurexin1β were chosen as benchmarking complexes. Predictions were evaluated using structural similarity metrics (RMSD) and confidence scores (pTM, ipTM, pDockQ). Achieved superior structural accuracy in three of four benchmarked complexes: PLOD1 dimer, Vps33-Vps16 and GPCR179-pikachurin. However, AF3 showed greater versatility in handling non-protein entities such as ions and cofactors. The pipeline was also tested on a unpublished PLOD1 homo-tetramer, showing its applicability to unknown complexes. A major limitation exists on APD’s restriction to peptide chains only, preventing the modeling of interactions mediated by ions and cofactors. As a matter of fact, both tools (APD and AF3) completely missed the native interface of the calcium-dependent LRRTM2-Neurexin1β complex when the Ca2+ ion was excluded from the run. Despite these constraints, the APD-AB pipeline offers a large-scale, high-throughput screening method for protein complexes. Future directions include integration of newer AI models (Chai-1, Boltz-2) that support diverse kind of token types and distance constraints for a deeper and more precise structural prediction.
2024
Exploring novel computational tools to evaluate protein-protein interactions: AlphaFold and beyond
La predizione delle interazioni proteina-proteina (PPIs) è sempre stata un obiettivo fondamentale della biologia strutturale. Questa tesi sviluppa e testa una pipeline computazionale per la predizione e la validazione di complessi proteici utilizzando strumenti di intelligenza artificiale. La pipeline integra AlphaPullDown (APD) e AlphaBridge (AB), confrontando le prestazioni rispetto ad AlphaFold3 (AF3), il metodo più avanzato attualmente disponibile. Un passo chiave è stato lo sviluppo di uno strumento di conversione personalizzato che rende l’output di APD idoneo per l’analisi di AlphaBridge. La pipeline è stata validata rispetto a complessi proteici sperimentalmente ottenuti. Sono stati scelti come complessi di benchmark l’omodimero PLOD1, l’eterodimero Vps33-Vps16, l’etero-tetramero GPR179-pikachurin e l’eterodimero LRRTM2-Neurexin1β. Le predizioni sono state valutate utilizzando metriche di accuratezza (somiglianza) strutturale (RMSD) e metriche di confidenza (pTM, ipTM, pDockQ). APD ha ottenuto una maggiore accuratezza strutturale con tre dei quattro complessi valutati: il dimero di PLOD1, Vps33-Vps16 e GPR179-pikachurin. Tuttavia, AF3 ha mostrato una maggiore versatilità nel gestire entità non peptidiche come ioni e altri cofattori. La pipeline è stata anche testata su un omotetramero di PLOD1 non pubblicato, dimostrando la sua applicabilità a complessi sconosciuti. Una restrizione importante della pipeline riguarda la limitazione di APD nel trattare solo catene peptidiche, che impedisce la predizione di interazioni mediate da ioni e cofattori. Entrambi gli strumenti (APD e AF3) hanno completamente mancato l’interfaccia del complesso dipendente LRRTM2-Neurexin1β (dipendente da uno ione calcio) quando lo ione Ca²⁺ è stato escluso dall’analisi. Nonostante questi vincoli, la pipeline APD-AB offre un metodo di screening per complessi proteici su larga scala e altamente personalizzabile. Nel futuri, la direzione è quella dell’integrazione di modelli di intelligenza artificiale più recenti (Chai-1, Boltz-2) nella pipeline, in grado di supportare token diversi dai peptidi e vincoli di distanza per una previsione strutturale più accurata.
File in questo prodotto:
File Dimensione Formato  
tesiLM_turicci.pdf

accesso aperto

Dimensione 9.24 MB
Formato Adobe PDF
9.24 MB Adobe PDF Visualizza/Apri

È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14239/32665