Nowadays, Big data are a growing phenomenon. Big data refer to high-volume, high-velocity (incoming frequency) and high-variety datasets, containing valuable insights that cannot be analysed by using traditional systems. These characteristics force companies, which want to gather value, to consider new architectures and technologies. In this thesis, I want to propose an architecture for big data analysis based on R, Spark and MongoDB. R, a language for the statistical analysis, will be the architecture user interface. Apache Spark, a distributed data processing system, will be the architecture processing layer. MongoDB, a NoSQL database built to handle large amounts of data, will be the architecture data storage layer. Using the tools provided by the abovementioned architecture, it will be demonstrated how to create an application for financial securities transactions analysis. The application at first ingests data, then it creates a linear regression model by using the regression technique called “Principal Component Regression”. This architecture will be implemented and tested both in local (on a single machine) and on a cluster of three nodes using the Amazon AWS service.

ARCHITETTURE PER L’ANALISI INTERATTIVA DEI BIG DATA. Al giorno d’oggi, i Big Data sono un fenomeno in crescita. I Big Data sono dataset caratterizzati da grande volume, grande varietà, e alta velocità (frequenza di arrivo), contenenti informazioni preziose, che non possono essere analizzate utilizzando i sistemi tradizionali. Queste caratteristiche obbligano le aziende, che vogliono raccoglierne il valore, a prendere in considerazione nuove architetture e tecnologie. In questa tesi, voglio proporre un’architettura per l’analisi dei Big data basata su R, Spark e MongoDB. R, un linguaggio per l’analisi statistica, sarà l’interfaccia utente dell’architettura. Apache Spark, un sistema di elaborazione distribuito dei dati, sarà lo strato di elaborazione dell’architettura. MongoDB, un database NoSQL costruito per gestire grosse quantità di dati, sarà lo strato di memorizzazione dell’architettura. Utilizzando gli strumenti fornitici dalla architettura sopracitata, verrà mostrato come è possibile realizzare un’applicazione per l’analisi delle transazioni di titoli finanziari. L’applicazione, dopo aver ingerito i dati, creerà un modello di regressione lineare utilizzando la tecnica di regressione chiamata “Principal Component Regression”. L’architettura verrà implementata e testata sia in locale (su una singola macchina), che in un cluster di tre macchine sfruttando il servizio di cluster computing Amazon AWS.

ARCHITECTURES FOR INTERACTIVE BIG DATA ANALYSIS

BIGLIERI, MARCO
2015/2016

Abstract

Nowadays, Big data are a growing phenomenon. Big data refer to high-volume, high-velocity (incoming frequency) and high-variety datasets, containing valuable insights that cannot be analysed by using traditional systems. These characteristics force companies, which want to gather value, to consider new architectures and technologies. In this thesis, I want to propose an architecture for big data analysis based on R, Spark and MongoDB. R, a language for the statistical analysis, will be the architecture user interface. Apache Spark, a distributed data processing system, will be the architecture processing layer. MongoDB, a NoSQL database built to handle large amounts of data, will be the architecture data storage layer. Using the tools provided by the abovementioned architecture, it will be demonstrated how to create an application for financial securities transactions analysis. The application at first ingests data, then it creates a linear regression model by using the regression technique called “Principal Component Regression”. This architecture will be implemented and tested both in local (on a single machine) and on a cluster of three nodes using the Amazon AWS service.
2015
ARCHITECTURES FOR INTERACTIVE BIG DATA ANALYSIS
ARCHITETTURE PER L’ANALISI INTERATTIVA DEI BIG DATA. Al giorno d’oggi, i Big Data sono un fenomeno in crescita. I Big Data sono dataset caratterizzati da grande volume, grande varietà, e alta velocità (frequenza di arrivo), contenenti informazioni preziose, che non possono essere analizzate utilizzando i sistemi tradizionali. Queste caratteristiche obbligano le aziende, che vogliono raccoglierne il valore, a prendere in considerazione nuove architetture e tecnologie. In questa tesi, voglio proporre un’architettura per l’analisi dei Big data basata su R, Spark e MongoDB. R, un linguaggio per l’analisi statistica, sarà l’interfaccia utente dell’architettura. Apache Spark, un sistema di elaborazione distribuito dei dati, sarà lo strato di elaborazione dell’architettura. MongoDB, un database NoSQL costruito per gestire grosse quantità di dati, sarà lo strato di memorizzazione dell’architettura. Utilizzando gli strumenti fornitici dalla architettura sopracitata, verrà mostrato come è possibile realizzare un’applicazione per l’analisi delle transazioni di titoli finanziari. L’applicazione, dopo aver ingerito i dati, creerà un modello di regressione lineare utilizzando la tecnica di regressione chiamata “Principal Component Regression”. L’architettura verrà implementata e testata sia in locale (su una singola macchina), che in un cluster di tre macchine sfruttando il servizio di cluster computing Amazon AWS.
File in questo prodotto:
Non ci sono file associati a questo prodotto.

È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14239/22921