SENTIMENT ANALYSIS E MACHINE LEARNING: SVILUPPO DI UN WORKFLOW PREDITTIVO BASATO SU DECISION TREE E VETTORIALIZZAZIONE TF-IDF

In the current technological era, human emotions and thought processes are reflected in vast amounts of digital data, stored on social media platforms and online forums. Sentiment Analysis, a cornerstone of Natural Language Processing (NLP), plays a crucial role in extracting meaningful insights from this textual data. This research designs and implements an experimental pipeline using KNIME Analytics Platform. The methodology employs the Decision Tree algorithm as the core model, selected for its interpretability, which enables clear visualization of the logical paths leading to classification. Textual data undergoes preprocessing stages, including tokenization and filtering, then converted to numerical form using TF-IDF (Term Frequency-Inverse Document Frequency) vectorization. Initial experimental results reveal the complexities of decoding informal digital language, achieving an accuracy of 31.7% in a multi-class scenario. A follow-up sensitivity analysis showed that simplifying the classification into a binary model and adopting a less aggressive preprocessing approach significantly enhanced the model’s robustness and clarity. The study concludes that while advanced techniques like Word2Vec or ensemble models could further improve performance, the use of transparent models like Decision Tree remains essential for ensuring human oversight and ethical accountability in automatic judgement processes.

Nell' attuale era tecnologica, le emozioni e i processi mentali umani si riflettono in enormi quantità di dati digitali, archiviati sulle piattaforme dei social media e sui forum online. L'analisi del sentiment, pietra miliare dell'elaborazione del linguaggio naturale (NLP), svolge un ruolo cruciale nell'estrazione di informazioni significative da questi dati testuali. Questa ricerca progetta e implementa una pipeline sperimentale utilizzando la piattaforma di analisi KNIME. La metodologia impiega l'algoritmo Decision Tree come modello centrale, selezionato per la sua interpretabilità, che consente una chiara visualizzazione dei percorsi logici che portano alla classificazione. I dati testuali vengono sottoposti a fasi di pre-elaborazione, tra cui tokenizzazione e filtraggio, quindi convertiti in forma numerica utilizzando la vettorizzazione TF-IDF (Term Frequency-Inverse Document Frequency). I primi risultati sperimentali rivelano la complessità della decodifica del linguaggio digitale informale, raggiungendo un'accuratezza del 31,7% in uno scenario multi-classe. Un'analisi di sensibilità di follow-up ha dimostrato che la semplificazione della classificazione in un modello binario e l'adozione di un approccio di pre-elaborazione meno aggressivo hanno migliorato significativamente la robustezza e la chiarezza del modello. Lo studio conclude che, mentre tecniche avanzate come Word2Vec o modelli ensemble potrebbero migliorare ulteriormente le prestazioni, l'uso di modelli trasparenti come Decision Tree rimane essenziale per garantire la supervisione umana e la responsabilità etica nei processi di giudizio automatico