The rapid advancement of Machine Learning and Artificial Intelligence, recently culminating in the introduction of generative AI, has led to unprecedented data requirements for companies, hence reshaping the landscape of corporate competitiveness. Such transformation is notably pronounced within the domain of Digital Marketing, where the integration of Machine Learning techniques and Artificial Intelligence has revolutionized data-driven strategies, promising great increases in predictive accuracy but, on the other hand, exponentially increasing data needs. By leveraging such innovative solutions, companies can obtain substantial revenue uplifts, as well as greater return on their investments. However, this data-driven approach poses challenges concerning the escalating costs and regulatory complexities associated with data acquisition, processing, and storage, as mandated by stringent privacy policies like the GDPR. In response to such challenges, synthetic data emerge as a compelling solution, generating data that mirrors real-world attributes and patterns without compromising customers' privacy. Synthetic data can substantially reduce financial overheads and accelerate digital marketing campaigns’ testing and deployment, thereby enhancing efficiency and expediting time-to-market. Moreover, they can ensure adherence to the above mentioned privacy regulations, hence reducing costs and risks associated with non-compliance. This study focuses on exploring the potential of synthetic tabular data in maintaining and/ or enhancing the accuracy of statistical predictive models, with a specific emphasis on i) minority classes augmentation and ii) full substitution of real data with synthetic instances, thus presenting an innovative approach to shape a cost and resource effective Digital Marketing strategy.

Il rapido progresso del Machine Learning e dell'Intelligenza Artificiale, culminato recentemente nell'introduzione dell'IA generativa, ha portato a un fabbisogno di dati senza precedenti per le aziende, ridisegnando così il panorama della competitività aziendale. Tale trasformazione è particolarmente pronunciata nell'ambito del digital marketing, dove l'integrazione delle tecniche di Machine Learning e dell'Intelligenza Artificiale ha reso possibile una rivoluzione nelle strategie data-driven, promettendo un grande aumento dell'accuratezza predittiva ma, d'altro canto, incrementando esponenzialmente il fabbisogno di dati. Sfruttando queste soluzioni innovative, le aziende possono ottenere un sostanziale aumento dei ricavi e un maggiore ritorno sugli investimenti. Tuttavia, questo approccio guidato dai dati pone delle sfide per quanto riguarda i costi crescenti e le complessità normative associate all'acquisizione, all'elaborazione e all'archiviazione dei dati, in conformità con quanto stabilito da rigorose normative sulla privacy, come ad esempio il GDPR. I dati sintetici emergono come possibile risposta a queste sfide, in quanto dati generati artificialmente che però rispecchiano gli attributi e i modelli del mondo reale senza compromettere la privacy dei clienti. I dati sintetici possono ridurre sostanzialmente le spese generali e accelerare i test e l’esecuzione delle campagne di digital marketing, migliorandone così l'efficienza e accelerando il time-to-market. Inoltre, essi possono garantire l'aderenza alle normative sulla privacy sopra citate, riducendo così i costi e i rischi associati al loro mancato rispetto. Questo studio si concentra sull'esplorazione del potenziale dei dati tabellari sintetici nel mantenere e/o migliorare l'accuratezza dei modelli statistici predittivi, con un'enfasi specifica su i) l'aumento delle classi di minoranza e ii) la sostituzione completa dei dati reali con quelli di tipo sintetico, presentando così un approccio innovativo per dare forma a una strategia di digital marketing efficace in termini di costi e risorse.

Migliorare la modellazione predittiva nel digital marketing: Un'indagine sull'impatto dei dati tabulari sintetici sulle performance dei modelli di classificazione

BADUTO, GIUSEPPE
2022/2023

Abstract

The rapid advancement of Machine Learning and Artificial Intelligence, recently culminating in the introduction of generative AI, has led to unprecedented data requirements for companies, hence reshaping the landscape of corporate competitiveness. Such transformation is notably pronounced within the domain of Digital Marketing, where the integration of Machine Learning techniques and Artificial Intelligence has revolutionized data-driven strategies, promising great increases in predictive accuracy but, on the other hand, exponentially increasing data needs. By leveraging such innovative solutions, companies can obtain substantial revenue uplifts, as well as greater return on their investments. However, this data-driven approach poses challenges concerning the escalating costs and regulatory complexities associated with data acquisition, processing, and storage, as mandated by stringent privacy policies like the GDPR. In response to such challenges, synthetic data emerge as a compelling solution, generating data that mirrors real-world attributes and patterns without compromising customers' privacy. Synthetic data can substantially reduce financial overheads and accelerate digital marketing campaigns’ testing and deployment, thereby enhancing efficiency and expediting time-to-market. Moreover, they can ensure adherence to the above mentioned privacy regulations, hence reducing costs and risks associated with non-compliance. This study focuses on exploring the potential of synthetic tabular data in maintaining and/ or enhancing the accuracy of statistical predictive models, with a specific emphasis on i) minority classes augmentation and ii) full substitution of real data with synthetic instances, thus presenting an innovative approach to shape a cost and resource effective Digital Marketing strategy.
2022
Enhancing Predictive Modeling in Digital Marketing: An Investigation into Synthetic Tabular Data's impact on classification models’ performances
Il rapido progresso del Machine Learning e dell'Intelligenza Artificiale, culminato recentemente nell'introduzione dell'IA generativa, ha portato a un fabbisogno di dati senza precedenti per le aziende, ridisegnando così il panorama della competitività aziendale. Tale trasformazione è particolarmente pronunciata nell'ambito del digital marketing, dove l'integrazione delle tecniche di Machine Learning e dell'Intelligenza Artificiale ha reso possibile una rivoluzione nelle strategie data-driven, promettendo un grande aumento dell'accuratezza predittiva ma, d'altro canto, incrementando esponenzialmente il fabbisogno di dati. Sfruttando queste soluzioni innovative, le aziende possono ottenere un sostanziale aumento dei ricavi e un maggiore ritorno sugli investimenti. Tuttavia, questo approccio guidato dai dati pone delle sfide per quanto riguarda i costi crescenti e le complessità normative associate all'acquisizione, all'elaborazione e all'archiviazione dei dati, in conformità con quanto stabilito da rigorose normative sulla privacy, come ad esempio il GDPR. I dati sintetici emergono come possibile risposta a queste sfide, in quanto dati generati artificialmente che però rispecchiano gli attributi e i modelli del mondo reale senza compromettere la privacy dei clienti. I dati sintetici possono ridurre sostanzialmente le spese generali e accelerare i test e l’esecuzione delle campagne di digital marketing, migliorandone così l'efficienza e accelerando il time-to-market. Inoltre, essi possono garantire l'aderenza alle normative sulla privacy sopra citate, riducendo così i costi e i rischi associati al loro mancato rispetto. Questo studio si concentra sull'esplorazione del potenziale dei dati tabellari sintetici nel mantenere e/o migliorare l'accuratezza dei modelli statistici predittivi, con un'enfasi specifica su i) l'aumento delle classi di minoranza e ii) la sostituzione completa dei dati reali con quelli di tipo sintetico, presentando così un approccio innovativo per dare forma a una strategia di digital marketing efficace in termini di costi e risorse.
File in questo prodotto:
Non ci sono file associati a questo prodotto.

È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14239/3612