Proteins are essential for life, participating in vital biological functions. However, proteins do not function independently; instead, they form interactions with other molecules, known as ligands, at specific sites on their structure called ligand-binding sites (LBSs). LBSs prediction in drug discovery revolutionised the way potential medications are developed and optimized. This prediction is vital as it allows researchers to identify and design molecules that exhibit high affinity and specificity for the intended target, minimizing off-target effects and potential side effects. Moreover, it allows to expedite the screening process and reducing the cost and time associated with experimental trial and error. Hence, the prediction of protein-ligand binding sites has been a subject of extensive investigation in the fields of computer-aided drug discovery. Recently, deep learning-based methods have surpassed traditional machine learning approaches, garnering considerable attention. Notably, in 2020 Stepniewska-Dziubinska and her team presented a new method for predicting binding sites, known as Kalasanty. This method employs a 3D Fully Convolutional Neural Network based on the U-Net architecture to identify druggable pockets on the protein surface. The U-Net architecture is a cutting-edge neural network design initially developed for handling 2D medical images. In this approach, the task of pocket detection is reimagined as a 3D image segmentation. Here we propose an improvement on Kalasanty, with the addition of electrostatic potential data generated via the APBS software. The APBS (Advanced Poisson-Boltzmann Solver) software is an open-source software package designed to model electrostatic interactions in biological macromolecules and solvated systems. In this work we gathered evidence that an accurate prediction for the binding site can be achieved with a much smaller number of features than studied before. We find that the electrostatic grid potential is a single helpful predictor, which can be added to other simpler features such as the presence of protein residue in a certain grid cell. Results show that our model achieves high accuracy and is able to locate pockets more precisely than Kalasanty. The Deep APBS source code, together with the trained model and helper scripts are freely available at http://gitlab.com/chembl/. The network was supplemented with additional methods that allow for making predictions directly for molecules, and handle all necessary preprocessing under the hood. Predictions can then be saved as .pdb file and visualized in molecular modelling software. Although Deep APBS is a deep neural network, using it does not require GPU. GPU is crucial for training, but not for inference. It takes a few seconds to load the model and a second to make a prediction on a Intel Core i7 CPU. This makes Deep APBS accessible for all researchers.

Le proteine sono essenziali per la vita e partecipano a funzioni biologiche vitali. Tuttavia, le proteine non funzionano in modo indipendente, ma formano interazioni con altre molecole, note come ligandi, in siti specifici della loro struttura chiamati siti di legame. La previsione dei siti di legame nella scoperta dei farmaci ha rivoluzionato il modo in cui vengono sviluppati e ottimizzati i potenziali farmaci. Questa previsione è fondamentale perché consente ai ricercatori di identificare e progettare molecole che presentano un'elevata affinità e specificità per il bersaglio previsto, riducendo al minimo i potenziali effetti collaterali. Inoltre, consente di accelerare il processo di screening e di ridurre i costi e i tempi associati alle prove e agli errori sperimentali. Pertanto, la previsione dei siti di legame proteina-ligando è stata oggetto di ampie ricerche nel campo della scoperta di farmaci assistita da computer. Recentemente, i metodi basati sul deep learning hanno superato i tradizionali approcci di apprendimento automatico, raccogliendo una notevole attenzione. In particolare, nel 2020 Stepniewska-Dziubinska e il suo team hanno presentato un nuovo metodo per prevedere i siti di legame, noto come Kalasanty. Questo metodo impiega una rete neurale 3D completamente convoluzionale basata sull'architettura U-Net per identificare le tasche di legame con i farmaci sulla superficie delle proteine. L'architettura U-Net è un progetto di rete neurale all'avanguardia, inizialmente sviluppato per la gestione di immagini mediche 2D. In questo approccio, il compito di individuare le tasche viene reimmaginato come un problema di segmentazione di immagini 3D. Qui proponiamo un miglioramento di Kalasanty, con l'aggiunta di dati sul potenziale elettrostatico generati dal software APBS. Il software APBS (Advanced Poisson-Boltzmann Solver) è un pacchetto software open-source progettato per modellare le interazioni elettrostatiche nelle macromolecole biologiche e nei sistemi solvatati. In questo lavoro abbiamo raccolto prove del fatto che una previsione accurata del sito di legame può essere ottenuta con un numero di caratteristiche molto più ridotto rispetto a quanto studiato in precedenza. Abbiamo scoperto che il potenziale elettrostatico della griglia è un singolo predittore utile, che può essere aggiunto ad altre caratteristiche più semplici come la presenza di residui proteici in una determinata cella della griglia. I risultati mostrano che il nostro modello raggiunge un'elevata accuratezza ed è in grado di localizzare le tasche in modo più preciso rispetto a Kalasanty. Il codice sorgente di Deep APBS, insieme al modello addestrato e agli script di aiuto, sono liberamente disponibili all'indirizzo http://gitlab.com/chembl/. La rete è stata integrata con metodi aggiuntivi che consentono di fare previsioni direttamente sulle molecole e di gestire tutte le preelaborazioni necessarie. Le previsioni possono essere salvate come file .pdb e visualizzate in un software di modellazione molecolare. Sebbene Deep APBS sia una rete neurale profonda, il suo utilizzo non richiede una GPU. La GPU è fondamentale per l'addestramento, ma non per l'inferenza. Ci vogliono pochi secondi per caricare il modello e un secondo per fare una previsione su una CPU Intel Core i7. Questo rende Deep APBS accessibile a tutti i ricercatori.

Deep APBS: a novel convolutional neural network for druggable sites prediction

PAVESI, BEATRICE
2022/2023

Abstract

Proteins are essential for life, participating in vital biological functions. However, proteins do not function independently; instead, they form interactions with other molecules, known as ligands, at specific sites on their structure called ligand-binding sites (LBSs). LBSs prediction in drug discovery revolutionised the way potential medications are developed and optimized. This prediction is vital as it allows researchers to identify and design molecules that exhibit high affinity and specificity for the intended target, minimizing off-target effects and potential side effects. Moreover, it allows to expedite the screening process and reducing the cost and time associated with experimental trial and error. Hence, the prediction of protein-ligand binding sites has been a subject of extensive investigation in the fields of computer-aided drug discovery. Recently, deep learning-based methods have surpassed traditional machine learning approaches, garnering considerable attention. Notably, in 2020 Stepniewska-Dziubinska and her team presented a new method for predicting binding sites, known as Kalasanty. This method employs a 3D Fully Convolutional Neural Network based on the U-Net architecture to identify druggable pockets on the protein surface. The U-Net architecture is a cutting-edge neural network design initially developed for handling 2D medical images. In this approach, the task of pocket detection is reimagined as a 3D image segmentation. Here we propose an improvement on Kalasanty, with the addition of electrostatic potential data generated via the APBS software. The APBS (Advanced Poisson-Boltzmann Solver) software is an open-source software package designed to model electrostatic interactions in biological macromolecules and solvated systems. In this work we gathered evidence that an accurate prediction for the binding site can be achieved with a much smaller number of features than studied before. We find that the electrostatic grid potential is a single helpful predictor, which can be added to other simpler features such as the presence of protein residue in a certain grid cell. Results show that our model achieves high accuracy and is able to locate pockets more precisely than Kalasanty. The Deep APBS source code, together with the trained model and helper scripts are freely available at http://gitlab.com/chembl/. The network was supplemented with additional methods that allow for making predictions directly for molecules, and handle all necessary preprocessing under the hood. Predictions can then be saved as .pdb file and visualized in molecular modelling software. Although Deep APBS is a deep neural network, using it does not require GPU. GPU is crucial for training, but not for inference. It takes a few seconds to load the model and a second to make a prediction on a Intel Core i7 CPU. This makes Deep APBS accessible for all researchers.
2022
Deep APBS: a novel convolutional neural network for druggable sites prediction
Le proteine sono essenziali per la vita e partecipano a funzioni biologiche vitali. Tuttavia, le proteine non funzionano in modo indipendente, ma formano interazioni con altre molecole, note come ligandi, in siti specifici della loro struttura chiamati siti di legame. La previsione dei siti di legame nella scoperta dei farmaci ha rivoluzionato il modo in cui vengono sviluppati e ottimizzati i potenziali farmaci. Questa previsione è fondamentale perché consente ai ricercatori di identificare e progettare molecole che presentano un'elevata affinità e specificità per il bersaglio previsto, riducendo al minimo i potenziali effetti collaterali. Inoltre, consente di accelerare il processo di screening e di ridurre i costi e i tempi associati alle prove e agli errori sperimentali. Pertanto, la previsione dei siti di legame proteina-ligando è stata oggetto di ampie ricerche nel campo della scoperta di farmaci assistita da computer. Recentemente, i metodi basati sul deep learning hanno superato i tradizionali approcci di apprendimento automatico, raccogliendo una notevole attenzione. In particolare, nel 2020 Stepniewska-Dziubinska e il suo team hanno presentato un nuovo metodo per prevedere i siti di legame, noto come Kalasanty. Questo metodo impiega una rete neurale 3D completamente convoluzionale basata sull'architettura U-Net per identificare le tasche di legame con i farmaci sulla superficie delle proteine. L'architettura U-Net è un progetto di rete neurale all'avanguardia, inizialmente sviluppato per la gestione di immagini mediche 2D. In questo approccio, il compito di individuare le tasche viene reimmaginato come un problema di segmentazione di immagini 3D. Qui proponiamo un miglioramento di Kalasanty, con l'aggiunta di dati sul potenziale elettrostatico generati dal software APBS. Il software APBS (Advanced Poisson-Boltzmann Solver) è un pacchetto software open-source progettato per modellare le interazioni elettrostatiche nelle macromolecole biologiche e nei sistemi solvatati. In questo lavoro abbiamo raccolto prove del fatto che una previsione accurata del sito di legame può essere ottenuta con un numero di caratteristiche molto più ridotto rispetto a quanto studiato in precedenza. Abbiamo scoperto che il potenziale elettrostatico della griglia è un singolo predittore utile, che può essere aggiunto ad altre caratteristiche più semplici come la presenza di residui proteici in una determinata cella della griglia. I risultati mostrano che il nostro modello raggiunge un'elevata accuratezza ed è in grado di localizzare le tasche in modo più preciso rispetto a Kalasanty. Il codice sorgente di Deep APBS, insieme al modello addestrato e agli script di aiuto, sono liberamente disponibili all'indirizzo http://gitlab.com/chembl/. La rete è stata integrata con metodi aggiuntivi che consentono di fare previsioni direttamente sulle molecole e di gestire tutte le preelaborazioni necessarie. Le previsioni possono essere salvate come file .pdb e visualizzate in un software di modellazione molecolare. Sebbene Deep APBS sia una rete neurale profonda, il suo utilizzo non richiede una GPU. La GPU è fondamentale per l'addestramento, ma non per l'inferenza. Ci vogliono pochi secondi per caricare il modello e un secondo per fare una previsione su una CPU Intel Core i7. Questo rende Deep APBS accessibile a tutti i ricercatori.
File in questo prodotto:
Non ci sono file associati a questo prodotto.

È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14239/17163