In the current technological era, human emotions and thought processes are reflected in vast amounts of digital data, stored on social media platforms and online forums. Sentiment Analysis, a cornerstone of Natural Language Processing (NLP), plays a crucial role in extracting meaningful insights from this textual data. This research designs and implements an experimental pipeline using KNIME Analytics Platform. The methodology employs the Decision Tree algorithm as the core model, selected for its interpretability, which enables clear visualization of the logical paths leading to classification. Textual data undergoes preprocessing stages, including tokenization and filtering, then converted to numerical form using TF-IDF (Term Frequency-Inverse Document Frequency) vectorization. Initial experimental results reveal the complexities of decoding informal digital language, achieving an accuracy of 31.7% in a multi-class scenario. A follow-up sensitivity analysis showed that simplifying the classification into a binary model and adopting a less aggressive preprocessing approach significantly enhanced the model’s robustness and clarity. The study concludes that while advanced techniques like Word2Vec or ensemble models could further improve performance, the use of transparent models like Decision Tree remains essential for ensuring human oversight and ethical accountability in automatic judgement processes.

Nell' attuale era tecnologica, le emozioni e i processi mentali umani si riflettono in enormi quantità di dati digitali, archiviati sulle piattaforme dei social media e sui forum online. L'analisi del sentiment, pietra miliare dell'elaborazione del linguaggio naturale (NLP), svolge un ruolo cruciale nell'estrazione di informazioni significative da questi dati testuali. Questa ricerca progetta e implementa una pipeline sperimentale utilizzando la piattaforma di analisi KNIME. La metodologia impiega l'algoritmo Decision Tree come modello centrale, selezionato per la sua interpretabilità, che consente una chiara visualizzazione dei percorsi logici che portano alla classificazione. I dati testuali vengono sottoposti a fasi di pre-elaborazione, tra cui tokenizzazione e filtraggio, quindi convertiti in forma numerica utilizzando la vettorizzazione TF-IDF (Term Frequency-Inverse Document Frequency). I primi risultati sperimentali rivelano la complessità della decodifica del linguaggio digitale informale, raggiungendo un'accuratezza del 31,7% in uno scenario multi-classe. Un'analisi di sensibilità di follow-up ha dimostrato che la semplificazione della classificazione in un modello binario e l'adozione di un approccio di pre-elaborazione meno aggressivo hanno migliorato significativamente la robustezza e la chiarezza del modello. Lo studio conclude che, mentre tecniche avanzate come Word2Vec o modelli ensemble potrebbero migliorare ulteriormente le prestazioni, l'uso di modelli trasparenti come Decision Tree rimane essenziale per garantire la supervisione umana e la responsabilità etica nei processi di giudizio automatico

SENTIMENT ANALYSIS E MACHINE LEARNING: SVILUPPO DI UN WORKFLOW PREDITTIVO BASATO SU DECISION TREE E VETTORIALIZZAZIONE TF-IDF

LA ROSA, ROBERTA
2024/2025

Abstract

In the current technological era, human emotions and thought processes are reflected in vast amounts of digital data, stored on social media platforms and online forums. Sentiment Analysis, a cornerstone of Natural Language Processing (NLP), plays a crucial role in extracting meaningful insights from this textual data. This research designs and implements an experimental pipeline using KNIME Analytics Platform. The methodology employs the Decision Tree algorithm as the core model, selected for its interpretability, which enables clear visualization of the logical paths leading to classification. Textual data undergoes preprocessing stages, including tokenization and filtering, then converted to numerical form using TF-IDF (Term Frequency-Inverse Document Frequency) vectorization. Initial experimental results reveal the complexities of decoding informal digital language, achieving an accuracy of 31.7% in a multi-class scenario. A follow-up sensitivity analysis showed that simplifying the classification into a binary model and adopting a less aggressive preprocessing approach significantly enhanced the model’s robustness and clarity. The study concludes that while advanced techniques like Word2Vec or ensemble models could further improve performance, the use of transparent models like Decision Tree remains essential for ensuring human oversight and ethical accountability in automatic judgement processes.
2024
SENTIMENT ANALYSIS AND MACHINE LEARNING: DEVELOPMENT OF A PREDICTIVE WORKFLOW BASED ON DECISION TREES AND TF-IDF VECTORIZATION
Nell' attuale era tecnologica, le emozioni e i processi mentali umani si riflettono in enormi quantità di dati digitali, archiviati sulle piattaforme dei social media e sui forum online. L'analisi del sentiment, pietra miliare dell'elaborazione del linguaggio naturale (NLP), svolge un ruolo cruciale nell'estrazione di informazioni significative da questi dati testuali. Questa ricerca progetta e implementa una pipeline sperimentale utilizzando la piattaforma di analisi KNIME. La metodologia impiega l'algoritmo Decision Tree come modello centrale, selezionato per la sua interpretabilità, che consente una chiara visualizzazione dei percorsi logici che portano alla classificazione. I dati testuali vengono sottoposti a fasi di pre-elaborazione, tra cui tokenizzazione e filtraggio, quindi convertiti in forma numerica utilizzando la vettorizzazione TF-IDF (Term Frequency-Inverse Document Frequency). I primi risultati sperimentali rivelano la complessità della decodifica del linguaggio digitale informale, raggiungendo un'accuratezza del 31,7% in uno scenario multi-classe. Un'analisi di sensibilità di follow-up ha dimostrato che la semplificazione della classificazione in un modello binario e l'adozione di un approccio di pre-elaborazione meno aggressivo hanno migliorato significativamente la robustezza e la chiarezza del modello. Lo studio conclude che, mentre tecniche avanzate come Word2Vec o modelli ensemble potrebbero migliorare ulteriormente le prestazioni, l'uso di modelli trasparenti come Decision Tree rimane essenziale per garantire la supervisione umana e la responsabilità etica nei processi di giudizio automatico
File in questo prodotto:
File Dimensione Formato  
Roberta_La_Rosa_tesi_DEF.pdf

accesso aperto

Dimensione 5.88 MB
Formato Adobe PDF
5.88 MB Adobe PDF Visualizza/Apri

È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14239/33126