La biologia sintetica si pone l’obbiettivo di progettare nuovi sistemi biologici o modificare strutture e funzionalità di organismi già esistenti, sviluppando metodi e procedure basate sul design razionale degli elementi genomici al fine di controllare l’espressione genica in questi organismi. Ad oggi, i campi di utilizzo sono limitati ai principali microrganismi modello come Escherichia coli, che sono specie ben caratterizzate in quanto sono noti gli elementi genomici e i metodi di costruzione di ceppi ricombinanti. Tuttavia, risulta difficile utilizzare questi microrganismi modello in contesti diversi dal laboratorio. Quindi, l'interesse della comunità scientifica si sta spostando verso l'ingegnerizzazione di specie non modello. La progettazione razionale di circuiti genetici e pathway metabolici in diversi microrganismi richiede sempre la conoscenza di sequenze di regolazione dell’espressione genica come i promotori. I promotori ricoprono un ruolo essenziale nell’espressione genica: sono sequenze di DNA situate nella regione 5' adiacente al sito di inizio della trascrizione, riconosciute dal complesso enzimatico dell’RNA polimerasi e responsabili di promuovere la trascrizione in RNA dei geni a valle. Lo scopo di questa tesi è ottimizzare e validare una pipeline bioinformatica in grado di identificare promotori con le caratteristiche desiderate e la relativa posizione del TSS, a partire dall’analisi dei dati ottenuti con esperimenti di RNA Sequencing (RNA-seq), depositati su database pubblici. La pipeline è in grado di individuare, in microrganismi (modello e non modello), geni con un rate di trascrizione stabile al variare delle condizioni ambientali e di crescita, chiamati “geni non differenzialmente espressi” (geni NDE) e identificare la relativa posizione genomica del TSS, permettendo quindi di risalire alla sequenza promotrice. Questo lavoro di tesi si è focalizzato sulla valutazione sistematica della parte di pipeline relativo all’identificazione dei TSS. Nella prima parte di questo lavoro, è stato testato l’algoritmo utilizzando esperimenti pubblici di RNA-seq, condotti sul microrganismo modello Escherichia coli K12 MG1655, recuperati dal database GEO di NCBI. Per la validazione sono stati effettuati confronti con la letteratura, utilizzando una lista di 1700 promotori validati per E. coli, recuperata dal database EcoCyc. Nella seconda parte, sono stati effettuati dei confronti con i principali software di identificazione del TSS, basati su esperimenti di Differential RNA Sequencing (dRNA- seq): TSSpredator e TSSAR, con l’obiettivo di comparare le performance con i principali strumenti disponibili in letteratura. Il dRNA-seq è una protocollo di RNA-seq creato appositamente per l’individuazione dei TSS che si basa sull’utilizzo dell’esonucleasi TEX, che crea un arricchimento dei trascritti al 5’. Per raggiungere lo scopo, sono stati analizzati due esperimenti di dRNA-seq condotti su Campylobacter jejuni ed Escherichia coli. Nella terza parte, è stato valutato il contributo dato dalla procedura di arricchimento TEX nel processo di identificazione del TSS da parte dell’algoritmo, utilizzando un esperimento di dRNA-seq condotto su E. coli.

Validazione di una pipeline bioinformatica per la predizione di Transcription Start Site basata su esperimenti di RNA-sequencing

CIPRIANO, GIOVANNI
2021/2022

Abstract

La biologia sintetica si pone l’obbiettivo di progettare nuovi sistemi biologici o modificare strutture e funzionalità di organismi già esistenti, sviluppando metodi e procedure basate sul design razionale degli elementi genomici al fine di controllare l’espressione genica in questi organismi. Ad oggi, i campi di utilizzo sono limitati ai principali microrganismi modello come Escherichia coli, che sono specie ben caratterizzate in quanto sono noti gli elementi genomici e i metodi di costruzione di ceppi ricombinanti. Tuttavia, risulta difficile utilizzare questi microrganismi modello in contesti diversi dal laboratorio. Quindi, l'interesse della comunità scientifica si sta spostando verso l'ingegnerizzazione di specie non modello. La progettazione razionale di circuiti genetici e pathway metabolici in diversi microrganismi richiede sempre la conoscenza di sequenze di regolazione dell’espressione genica come i promotori. I promotori ricoprono un ruolo essenziale nell’espressione genica: sono sequenze di DNA situate nella regione 5' adiacente al sito di inizio della trascrizione, riconosciute dal complesso enzimatico dell’RNA polimerasi e responsabili di promuovere la trascrizione in RNA dei geni a valle. Lo scopo di questa tesi è ottimizzare e validare una pipeline bioinformatica in grado di identificare promotori con le caratteristiche desiderate e la relativa posizione del TSS, a partire dall’analisi dei dati ottenuti con esperimenti di RNA Sequencing (RNA-seq), depositati su database pubblici. La pipeline è in grado di individuare, in microrganismi (modello e non modello), geni con un rate di trascrizione stabile al variare delle condizioni ambientali e di crescita, chiamati “geni non differenzialmente espressi” (geni NDE) e identificare la relativa posizione genomica del TSS, permettendo quindi di risalire alla sequenza promotrice. Questo lavoro di tesi si è focalizzato sulla valutazione sistematica della parte di pipeline relativo all’identificazione dei TSS. Nella prima parte di questo lavoro, è stato testato l’algoritmo utilizzando esperimenti pubblici di RNA-seq, condotti sul microrganismo modello Escherichia coli K12 MG1655, recuperati dal database GEO di NCBI. Per la validazione sono stati effettuati confronti con la letteratura, utilizzando una lista di 1700 promotori validati per E. coli, recuperata dal database EcoCyc. Nella seconda parte, sono stati effettuati dei confronti con i principali software di identificazione del TSS, basati su esperimenti di Differential RNA Sequencing (dRNA- seq): TSSpredator e TSSAR, con l’obiettivo di comparare le performance con i principali strumenti disponibili in letteratura. Il dRNA-seq è una protocollo di RNA-seq creato appositamente per l’individuazione dei TSS che si basa sull’utilizzo dell’esonucleasi TEX, che crea un arricchimento dei trascritti al 5’. Per raggiungere lo scopo, sono stati analizzati due esperimenti di dRNA-seq condotti su Campylobacter jejuni ed Escherichia coli. Nella terza parte, è stato valutato il contributo dato dalla procedura di arricchimento TEX nel processo di identificazione del TSS da parte dell’algoritmo, utilizzando un esperimento di dRNA-seq condotto su E. coli.
2021
Validation of a bioinformatics pipeline for the prediction of Transcription Start Site based on RNA-sequencing experiments
File in questo prodotto:
Non ci sono file associati a questo prodotto.

È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14239/14816