SiMPLOD is a Structurally-integrated database of Mutations of PLOD genes and a manually-curated PHP-mySQL online database which collects all the currently described natural variants as well as the biochemical mutations of Lysyl Hydroxilases (LH) enzymes, it also maps them using available molecular structure information. PLOD are the genes encoding procollagen-lysine 2-oxoglutarate 5-dioxygenase (PLOD/LH) enzymes, which catalyze the hydroxylation of collagen lysine residues, a set of critical posttranslational modifications that chaperon collagen to fold in triple-helical structures and to form higher order superstructures in the extracellular matrix. Mutations in the LH/PLOD enzymes family, consisting of the three isoforms LH1/PLOD1, LH2/PLOD2 and LH3/PLOD3, cause severe connective tissue disorders generally characterized by bone fragility, contractures of variable severity and different skeletal manifestations. These include the kyphoscholiotic and cardiovascular manifestations of Ehlers-Danlos (type VIa) syndrome, Bruck syndrome, and developmental disorders with phenotypes resembling osteogenesis imperfecta. The comprehensive biochemical and medical knowledge accumulated over the years can nowadays benefit of deducing molecular structure information. Furthermore, at the present time the progress of science and technological advancements enable to collect a very large amount of biological data. The latter have proven to be an excellent resource of new information that is fundamental to furthering this field of research when it is extracted, analysed and collected in specific databases. Virtual archives, as a result, serve as specific data containers, making access to data public but also as an application for different research fields such as precision medicine, an emerging approach for a customised disease treatment and prevention that takes into account individual variability in genes, environment, and lifestyle for each person. This study presents an algorithm through which the updating of the database of interest can be accomplished efficiently. This strategy consists of parsing genetic, proteic and phenotypical information from two NCBI databases: ClinVar and SNP. These data are then inserted into a mySQL table in order to compare it with SiMPLOD master table. Eventually such process provides the new records to be added to the database, and those to be modified as they need updating.

SiMPLOD è un database online di mutazioni dei geni PLOD curato manualmente in PHP e mySQL che raccoglie tutte le varianti naturali attualmente descritte e le mutazioni biochimiche degli enzimi lisina idrossilasi (LH), inoltre mappa tali mutazioni anche utilizzando informazioni disponibili sulla struttura molecolare. PLOD sono i geni che codificano per gli enzimi procollagene-lisina 2-ossoglutarato 5-diossigenasi (PLOD/LH), che catalizzano l'idrossilazione dei residui di lisina del collagene, un insieme di modifiche post-traslazionali critiche che aiutano il collagene a piegarsi in strutture a tripla-elica per formare sovrastrutture di ordine superiore nella matrice extracellulare. Le mutazioni nella famiglia degli enzimi LH/PLOD, composta dalle tre isoforme LH1/PLOD1, LH2/PLOD2 e LH3/PLOD3, causano gravi disturbi del tessuto connettivo generalmente caratterizzati da fragilità ossea, contratture di gravità variabile e diverse manifestazioni scheletriche. Questi includono le manifestazioni cifoscoliotiche e cardiovascolari della sindrome di Ehlers-Danlos (tipo VIa), la sindrome di Bruck e disturbi dello sviluppo con fenotipi simili all'osteogenesi imperfetta. Le numerose conoscenze biochimiche e mediche accumulate nel corso degli anni possono oggi beneficiare della deduzione di informazioni sulla struttura molecolare. Inoltre, attualmente il progresso della scienza e le nuove tecnologie permettono di raccogliere una grande quantità di dati biologici. Questi ultimi hanno dimostrato di essere un'eccellente risorsa di nuove informazioni fondamentali per l'avanzamento di questo campo di ricerca quando vengono estratti, analizzati e raccolti in specifici database. Gli archivi virtuali, di conseguenza, fungono da raccolte di dati specifici rendendo pubblico l'accesso ai dati. In aggiunte, sono un’applicazione per diversi campi di ricerca come la medicina di precisione, un approccio emergente per il trattamento e la prevenzione delle malattie tramite la medicina personalizzata che tiene conto della variabilità individuale di geni, ambiente e stile di vita per ogni persona. Questo elaborato presenta un algoritmo attraverso il quale l'aggiornamento del database di interesse può essere realizzato in modo efficiente. Tale strategia consiste nell'analizzare le informazioni genetiche, proteiche e fenotipiche da due database NCBI: ClinVar e SNP. Questi dati vengono poi inseriti in una tabella mySQL per confrontarli con la tabella principale SiMPLOD ed infine tale processo fornisce i nuovi record da aggiungere al database, e quelli da modificare quando hanno bisogno di essere aggiornati.

Aggiornamento di SiMPLOD attraverso l'inclusione di dati analizzati dai database ClinVar e SNP di NCBI

FERRARIS, IRENE
2020/2021

Abstract

SiMPLOD is a Structurally-integrated database of Mutations of PLOD genes and a manually-curated PHP-mySQL online database which collects all the currently described natural variants as well as the biochemical mutations of Lysyl Hydroxilases (LH) enzymes, it also maps them using available molecular structure information. PLOD are the genes encoding procollagen-lysine 2-oxoglutarate 5-dioxygenase (PLOD/LH) enzymes, which catalyze the hydroxylation of collagen lysine residues, a set of critical posttranslational modifications that chaperon collagen to fold in triple-helical structures and to form higher order superstructures in the extracellular matrix. Mutations in the LH/PLOD enzymes family, consisting of the three isoforms LH1/PLOD1, LH2/PLOD2 and LH3/PLOD3, cause severe connective tissue disorders generally characterized by bone fragility, contractures of variable severity and different skeletal manifestations. These include the kyphoscholiotic and cardiovascular manifestations of Ehlers-Danlos (type VIa) syndrome, Bruck syndrome, and developmental disorders with phenotypes resembling osteogenesis imperfecta. The comprehensive biochemical and medical knowledge accumulated over the years can nowadays benefit of deducing molecular structure information. Furthermore, at the present time the progress of science and technological advancements enable to collect a very large amount of biological data. The latter have proven to be an excellent resource of new information that is fundamental to furthering this field of research when it is extracted, analysed and collected in specific databases. Virtual archives, as a result, serve as specific data containers, making access to data public but also as an application for different research fields such as precision medicine, an emerging approach for a customised disease treatment and prevention that takes into account individual variability in genes, environment, and lifestyle for each person. This study presents an algorithm through which the updating of the database of interest can be accomplished efficiently. This strategy consists of parsing genetic, proteic and phenotypical information from two NCBI databases: ClinVar and SNP. These data are then inserted into a mySQL table in order to compare it with SiMPLOD master table. Eventually such process provides the new records to be added to the database, and those to be modified as they need updating.
2020
Updating SiMPLOD through the inclusion of data parsed from NCBI ClinVar and SNP databases
SiMPLOD è un database online di mutazioni dei geni PLOD curato manualmente in PHP e mySQL che raccoglie tutte le varianti naturali attualmente descritte e le mutazioni biochimiche degli enzimi lisina idrossilasi (LH), inoltre mappa tali mutazioni anche utilizzando informazioni disponibili sulla struttura molecolare. PLOD sono i geni che codificano per gli enzimi procollagene-lisina 2-ossoglutarato 5-diossigenasi (PLOD/LH), che catalizzano l'idrossilazione dei residui di lisina del collagene, un insieme di modifiche post-traslazionali critiche che aiutano il collagene a piegarsi in strutture a tripla-elica per formare sovrastrutture di ordine superiore nella matrice extracellulare. Le mutazioni nella famiglia degli enzimi LH/PLOD, composta dalle tre isoforme LH1/PLOD1, LH2/PLOD2 e LH3/PLOD3, causano gravi disturbi del tessuto connettivo generalmente caratterizzati da fragilità ossea, contratture di gravità variabile e diverse manifestazioni scheletriche. Questi includono le manifestazioni cifoscoliotiche e cardiovascolari della sindrome di Ehlers-Danlos (tipo VIa), la sindrome di Bruck e disturbi dello sviluppo con fenotipi simili all'osteogenesi imperfetta. Le numerose conoscenze biochimiche e mediche accumulate nel corso degli anni possono oggi beneficiare della deduzione di informazioni sulla struttura molecolare. Inoltre, attualmente il progresso della scienza e le nuove tecnologie permettono di raccogliere una grande quantità di dati biologici. Questi ultimi hanno dimostrato di essere un'eccellente risorsa di nuove informazioni fondamentali per l'avanzamento di questo campo di ricerca quando vengono estratti, analizzati e raccolti in specifici database. Gli archivi virtuali, di conseguenza, fungono da raccolte di dati specifici rendendo pubblico l'accesso ai dati. In aggiunte, sono un’applicazione per diversi campi di ricerca come la medicina di precisione, un approccio emergente per il trattamento e la prevenzione delle malattie tramite la medicina personalizzata che tiene conto della variabilità individuale di geni, ambiente e stile di vita per ogni persona. Questo elaborato presenta un algoritmo attraverso il quale l'aggiornamento del database di interesse può essere realizzato in modo efficiente. Tale strategia consiste nell'analizzare le informazioni genetiche, proteiche e fenotipiche da due database NCBI: ClinVar e SNP. Questi dati vengono poi inseriti in una tabella mySQL per confrontarli con la tabella principale SiMPLOD ed infine tale processo fornisce i nuovi record da aggiungere al database, e quelli da modificare quando hanno bisogno di essere aggiornati.
File in questo prodotto:
Non ci sono file associati a questo prodotto.

È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per contatti: unitesi@unipv.it

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14239/13194