Validation of a bioinformatics pipeline for the prediction of Transcription Start Site based on RNA-sequencing experiments
La biologia sintetica si pone l’obbiettivo di progettare nuovi sistemi biologici o
modificare strutture e funzionalità di organismi già esistenti, sviluppando metodi e
procedure basate sul design razionale degli elementi genomici al fine di controllare
l’espressione genica in questi organismi. Ad oggi, i campi di utilizzo sono limitati ai
principali microrganismi modello come Escherichia coli, che sono specie ben
caratterizzate in quanto sono noti gli elementi genomici e i metodi di costruzione di ceppi
ricombinanti. Tuttavia, risulta difficile utilizzare questi microrganismi modello in contesti
diversi dal laboratorio. Quindi, l'interesse della comunità scientifica si sta spostando verso
l'ingegnerizzazione di specie non modello.
La progettazione razionale di circuiti genetici e pathway metabolici in diversi
microrganismi richiede sempre la conoscenza di sequenze di regolazione dell’espressione
genica come i promotori. I promotori ricoprono un ruolo essenziale nell’espressione
genica: sono sequenze di DNA situate nella regione 5' adiacente al sito di inizio della
trascrizione, riconosciute dal complesso enzimatico dell’RNA polimerasi e responsabili
di promuovere la trascrizione in RNA dei geni a valle.
Lo scopo di questa tesi è ottimizzare e validare una pipeline bioinformatica in grado di
identificare promotori con le caratteristiche desiderate e la relativa posizione del TSS, a
partire dall’analisi dei dati ottenuti con esperimenti di RNA Sequencing (RNA-seq),
depositati su database pubblici.
La pipeline è in grado di individuare, in microrganismi (modello e non modello), geni
con un rate di trascrizione stabile al variare delle condizioni ambientali e di crescita,
chiamati “geni non differenzialmente espressi” (geni NDE) e identificare la relativa
posizione genomica del TSS, permettendo quindi di risalire alla sequenza promotrice.
Questo lavoro di tesi si è focalizzato sulla valutazione sistematica della parte di pipeline
relativo all’identificazione dei TSS. Nella prima parte di questo lavoro, è stato testato
l’algoritmo utilizzando esperimenti pubblici di RNA-seq, condotti sul microrganismo
modello Escherichia coli K12 MG1655, recuperati dal database GEO di NCBI. Per la
validazione sono stati effettuati confronti con la letteratura, utilizzando una lista di 1700
promotori validati per E. coli, recuperata dal database EcoCyc.
Nella seconda parte, sono stati effettuati dei confronti con i principali software di
identificazione del TSS, basati su esperimenti di Differential RNA Sequencing (dRNA-
seq): TSSpredator e TSSAR, con l’obiettivo di comparare le performance con i principali
strumenti disponibili in letteratura. Il dRNA-seq è una protocollo di RNA-seq creato
appositamente per l’individuazione dei TSS che si basa sull’utilizzo dell’esonucleasi
TEX, che crea un arricchimento dei trascritti al 5’. Per raggiungere lo scopo, sono stati
analizzati due esperimenti di dRNA-seq condotti su Campylobacter jejuni ed Escherichia
coli.
Nella terza parte, è stato valutato il contributo dato dalla procedura di arricchimento TEX
nel processo di identificazione del TSS da parte dell’algoritmo, utilizzando un
esperimento di dRNA-seq condotto su E. coli.