Automated phylogenomic tree reconstruction from whole genome sequencing allows the study of subclonal architecture in hematological malignancies: the paradigm of multiple myeloma.

Multiple myeloma (MM) is the second most common hematologic malignancy. It derives from the transformation of post-germinal centre B-cells into malignant plasma cells and it usually occurs in the elderly population. Novel drugs deriving from empirical research paradigms led to substantial improvement in survival of MM patients. However, virtually all treatments are irredeemably condemned to observe the emergence of a non-respondent cell population (clone). In this context, MM can be considered a highly treatable disease, nonetheless one lacking a proper cure. Next generation sequencing technologies are helping in unravelling genomic alterations in MM, paving the way for new prognostic markers and therapeutic targets. Recently, studies on exome sequencing data highlighted different configurations of clones’ emergence in MM. Moreover, the integrated analysis of mutational patterns provided evidence of molecular processes underlying the mutational asset of each case, and contributing to genome instability in MM. In particular, an aberrant activity of physiologically expressed enzymes such as APOBEC seemed to significantly contribute to MM pathogenesis and progression. More sequencing studies are now aiming at the comprehensive reconstruction of the aberrant genome of MM. However, mutations are acquired continuously during cancer evolution and shape the clonal architecture of each case. The reconstruction of their order of acquisition has important translational implications, but is far from being a trivial task if using high-dimensional whole genome data. In this work, I propose an analytical framework for the mutational and clonal analysis of whole genome sequencing (WGS) data. After the alignment of reads with BWA, CaVEMan was used to call single nucleotide variants (SNVs). Using the variant allelic frequency (VAF) of each SNV, corrected for ploidy of the locus and purity of the tumour, a novel parallel-computing implementation of the Bayesian Dirichlet “stick-breaking” statistical process (DP) was used to cluster SNVs within a sparse mutation matrix into biologically plausible cancer subclones. A third step of automated phylogenomic tree reconstruction was used to interpret the sequence of clonal events. This bioinformatics pipeline was employed for the study of 97 different samples from 30 patients with MM. 370,993 somatic SVNs passing quality filters were detected for the whole dataset, both in the coding and non-coding fractions of the genome, and were used in the mutational matrix for the subsequent study of the clonality. DP-based analysis was used to determine the number, size, and frequency of the different tumour subclones at different time points in each patient. Further, using an additional public dataset of whole exome sequencing in MM, a shortlist of significant driver genes (among them NRAS, BRAF, TP53 and others), aneuploidies and translocations was created and annotated on the cases. The subsequent phylogenomic tree reconstruction showed the variety of possible evolution of disease subclones over time and after treatment, also highlighting a differential timing of action of the different mutational processes. Integration of clinical data allowed the identification of subclones disappearing after treatment (hence likely sensitive) and others enriched at relapse (treatment resistant). In all, this work was able to confirm the heterogeneous MM clonal architecture suggested in the literature, and improved both the robustness and accuracy of analysis using WGS data. Using a validated method, I provide examples of linear and branching types of evolution in MM, characterised by the emergence of a single or multiple dominant clones at relapse, respectively. The application of this analysis to homogeneously treated patient populations and the reconstruction of clonal dynamics during the natural history of the disease are expected to provide a robust basis for improving prognostic assessment and treatment in MM.

Il mieloma multiplo (MM) è la seconda neoplasia ematologica per incidenza. Esso deriva dalla trasformazione di linfociti B post-germinali in plasmacellule maligne, e si riscontra prevalentemente nella popolazione anziana. Nuovi farmaci sperimentali hanno recentemente permesso un sostanziale miglioramento della sopravvivenza, tuttavia i trattamenti attuali sono irrimediabilmente condannati a vedere lo sviluppo di una popolazione cellulare (clone) in grado di evadere la loro azione, portandoci a considerare il MM come una malattia altamente trattabile, ma scarsamente curabile. Il sequenziamento massivo parallelo sta aiutando a dipanare le alterazioni genomiche tipiche di questa malattia alla ricerca di nuovi marcatori prognostici e terapeutici: studi su dati di esoma hanno recentemente evidenziato differenti configurazioni di emergenza clonale; inoltre, lo studio dei profili mutazionali ha sottolineato i processi molecolari che sottostanno all’instabilità genomica di ogni singolo caso di mieloma. In particolare, enzimi come APOBEC sembrano contribuire in maniera significativa a patogenesi e progressione. Ulteriori studi di sequenziamento puntano alla complessiva ricostruzione del genoma del MM: le mutazioni vengono di continuo acquisite durante tutta la progressione della malattia, plasmando l’architettura clonale del paziente. Ricostruirne l’ordine ricopre quindi un importante ruolo traslazionale, ma risulta ancora molto complesso per dati di genoma completo ad alta dimensionalità. In questo lavoro ho voluto proporre un approccio per l’analisi automatizzata di mutazioni e clonalità a partire da dati di genoma completo (WGS). Dopo un primo allineamento con BWA, sono state estratte le varianti a singolo nucleotide (SNV) tramite il software CaVEMan. La matrice di mutazioni così ottenuta è stata raggruppata in possibili cloni neoplastici con l’utilizzo di una nuova implementazione su calcolo parallelo del processo statistico bayesiano di Dirichlet “stick-breaking”, utilizzando le frequenze alleliche di ogni singola SNV e correggendole per la ploidia del locus genico e purezza del tumore. Inoltre, una terza fase di ricostruzione automatizzata degli alberi filogenomici ha permesso di interpretare al meglio il differenziamento clonale. Questa procedura d’analisi è stata usata per lo studio di 97 campioni provenienti da 30 pazienti con diagnosi di MM. 370993 varianti somatiche, localizzate sia in regioni codificanti che non, hanno soddisfatto i filtri di qualità e sono state utilizzate per lo studio della clonalità. L’analisi basata sul processo di Dirichlet ha determinato per ogni paziente il numero, la dimensione e la frequenza dei differenti cloni. Inoltre, tramite l’integrazione di dati d’esoma già pubblicati, è stata ottenuta per ogni paziente una lista di geni (tra i quali NRAS, BRAF, TP53 ed altri), aneuploidie e traslocazioni significative nella patologia. La seguente ricostruzione degli alberi filogenomici ha mostrato la diversità delle evoluzioni subclonali nel tempo e dopo il trattamento, evidenziando i diversi momenti d’azione dei vari processi mutazionali. Integrando ulteriori dati clinici è stato possibile distinguere i cloni che regredivano dopo la terapia, quindi potenzialmente sensibili, da altri cloni probabilmente resistenti alla stessa, che mostravano un’espansione nel campione di ricaduta. In conclusione, questo lavoro ha confermato la struttura clonale eterogenea già riportata in letteratura per il MM, migliorandone la robustezza e la precisione analitica tramite l’utilizzo di dati WGS. Quest’analisi ha potuto fornire esempi di evoluzione clonale lineare o ramificante, rispettivamente caratterizzati dalla comparsa di un singolo clone o di multipli cloni dominanti in fase di ricaduta. L’applicazione della mia analisi su larga scala ed in coorti di pazienti con terapie omogenee permetterà di apportare miglioramenti all’approccio prognostico e terapeutico del MM.