This work explains the usage of classification models based on factorization machines, capable to estimate the interactions between pathological predictive variables, originates from clinical and genetics data. It has been given importance to the background and major issues deriving from working with such kind of data, in addition to a set of standard methods usually employed (Random Forest, SVM, Bayes) which has been made performance comparisons. The peculiarity of facorization methods has been proven, especially for Factorization Machines. There are two databases: the first, contains data belonging to patients afflicted by acute myeloid leukemia(AML), with follow up regarding survival and mutation, for each patient; the latter databese (MDS) is composed of patients with myelodisplastic syndrome and their mutations and subtype of the disease. Both databases have been undergone coparisons about survival's prediction(in AML, as a classification of survival over a certain threshold) and affinity with subtype of disease (MDS). Finally, the FM model for classification of survival in AML patients has been used, in due to study and evaluate the estimate of genetic interactions. These interactions are verified, checking similarities with protein-protein interaction database and papers containing links between achieved results.

La tesi si propone di utilizzare modelli di classificazione basati su factorization machines per la stima delle interazioni fra le variabili predittive di patologie a partire da dati clinici e genetici. E' stato posto l'accento al contesto e alle problematiche derivanti dal dover lavorare con dati di questo tipo e una serie di metodi standard che usualmente si applicano (Random Forest, Bayes, SVM...) coi quali sono stati poi fatti confronti di performance. Sono state dimostrate le particolarità dei metodi di fattorizazione e soprattutto delle Factorization Machines. I database utilizzati sono due: il primo contiene dati appartenenti a pazienti con leucemia mieloide acuta (AML), con relativi follow up sulla sopravvivenza e mutazioni registrate per ogni paziente; il secondo database (MDS) è composto da pazienti affetti da sindrome mielodisplastica, con mutazioni e relativo sottotipo della malattia. Per entrambi i database sono stati effettuati confronti di predizione (AML) della sopravvivenza(classificazione oltre una certa soglia) e all'appartenenza al sottotipo della malattia (MDS). Il modello FM per la classificazione della sopravvivenza dei pazienti AML è stato infine sfruttato per studiare le interazioni stimate tra i geni. Queste interazioni vengono poi verificate confrontandole con quelle contenute nei database di protein-protein interaction e negli articoli scientifici contenenti collegamenti coi risultati ottenuti.

PREDIZIONE DELL'INTERAZIONE GENICA IN PAZIENTI AFFETTI DA LEUCEMIE MIELOIDI MEDIANTE FACTORIZATION MACHINES

CHIUDINELLI, LORENZO
2015/2016

Abstract

This work explains the usage of classification models based on factorization machines, capable to estimate the interactions between pathological predictive variables, originates from clinical and genetics data. It has been given importance to the background and major issues deriving from working with such kind of data, in addition to a set of standard methods usually employed (Random Forest, SVM, Bayes) which has been made performance comparisons. The peculiarity of facorization methods has been proven, especially for Factorization Machines. There are two databases: the first, contains data belonging to patients afflicted by acute myeloid leukemia(AML), with follow up regarding survival and mutation, for each patient; the latter databese (MDS) is composed of patients with myelodisplastic syndrome and their mutations and subtype of the disease. Both databases have been undergone coparisons about survival's prediction(in AML, as a classification of survival over a certain threshold) and affinity with subtype of disease (MDS). Finally, the FM model for classification of survival in AML patients has been used, in due to study and evaluate the estimate of genetic interactions. These interactions are verified, checking similarities with protein-protein interaction database and papers containing links between achieved results.
2015
PREDICTION OF GENETICS INTERACTION IN AML PATIENTS WITH FACTORIZATION MACHINES
La tesi si propone di utilizzare modelli di classificazione basati su factorization machines per la stima delle interazioni fra le variabili predittive di patologie a partire da dati clinici e genetici. E' stato posto l'accento al contesto e alle problematiche derivanti dal dover lavorare con dati di questo tipo e una serie di metodi standard che usualmente si applicano (Random Forest, Bayes, SVM...) coi quali sono stati poi fatti confronti di performance. Sono state dimostrate le particolarità dei metodi di fattorizazione e soprattutto delle Factorization Machines. I database utilizzati sono due: il primo contiene dati appartenenti a pazienti con leucemia mieloide acuta (AML), con relativi follow up sulla sopravvivenza e mutazioni registrate per ogni paziente; il secondo database (MDS) è composto da pazienti affetti da sindrome mielodisplastica, con mutazioni e relativo sottotipo della malattia. Per entrambi i database sono stati effettuati confronti di predizione (AML) della sopravvivenza(classificazione oltre una certa soglia) e all'appartenenza al sottotipo della malattia (MDS). Il modello FM per la classificazione della sopravvivenza dei pazienti AML è stato infine sfruttato per studiare le interazioni stimate tra i geni. Queste interazioni vengono poi verificate confrontandole con quelle contenute nei database di protein-protein interaction e negli articoli scientifici contenenti collegamenti coi risultati ottenuti.
File in questo prodotto:
Non ci sono file associati a questo prodotto.

È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14239/20291