Social networks are a rich source of data which can be exploited for many purposes, in both the academic or industrial fields. In particular, textual data is one of the main resources available in these systems and it is a very common subject of research, due to the large amount of information that it can contain. Text processing techniques were a topic of interest for researchers even before the advent of social networks and, in this context, such techniques can be profitably adopted to understand how people interactions happen and to study the evolution of online communities. In particular, it can be very useful to understand people approaches toward certain topics, what influences mostly their mentality and decisions, how and why they interact with each other. Since social media are just a virtual transposition of real world societies, the results obtained from such analyses of online communities can be adopted to better understand real-life social dynamics. To provide a contribution in this setting, this thesis deals with both the analysis of text data coming from two important social networks (namely, Reddit and Twitter), and the investigation of the structure of their online communities derived from people’s interaction. Firstly, it considers the two aspects separately, drawing out many interesting conclusions for each of them. Then, the most prominent results are combined together, focusing the attention on the impact of the evolution of the adopted language style on the underlying online communities. Moreover, the whole study is developed in parallel on two platforms, Reddit and Twitter, stressing the comparison between such intrinsic different environments. Many prior works in the related literature demonstrate that it is actually worth analyzing the linguistics of online communities, since they showed many interesting results on extracting information about user behavior. In fact, the activity carried out in this thesis aims at extending the main findings of such related researches. In particular, this thesis describes in details the different machine learning techniques, such as Natural Language Processing, statistical models and neural networks, exploited to pursue this task. Then, it analyzes the social networks’ interactions and their development, and finally it compares the linguistic evolution with the underlying network evolution. As an interesting result, this study proves that the adopted language has an impact on the underlying online communities.

Analisi comparativa utilizzando l'elaborazione del linguaggio naturale per capire l'evoluzione della lingua sulle reti sociali e il suo impatto sulla comunità sottostante. I social network sono una ricca fonte di dati che possono essere sfruttati per diversi scopi, sia in ambito accademico che industriale. In particolare, i dati testuali sono una delle principali risorse disponibili in questi sistemi e sono un soggetto molto comune di ricerca, a causa della vasta quantità di informazione che questi possono contenere. Le tecniche di elaborazione del testo sono state argomento di interesse per molti ricercatori anche da prima dell’avvento dei social network e, in questo contesto, tali tecniche possono essere adoperate per capire come avvengono le interazioni tra le persone e per studiare l’evoluzione delle comunità online. In particolare, possono essere molto utili per capire come si approcciano le persone nei confronti di certi argomenti, cosa influenza maggiormente la loro mentalità e le loro decisioni, come e perché interagiscono tra di loro. Dato che i social media sono semplicemente una trasposizione virtuale delle società del mondo reale, i risultati ottenuti da analisi di questo tipo sulle comunità online possono essere adoperati per capire meglio le dinamiche sociali della vita reale. Per fornire un contributo in questo settore, questa tesi tratta sia l’analisi di dati testuali provenienti da due importanti social network (ossia Reddit e Twitter), sia l’indagine della struttura delle relative comunità online derivanti dall’interazione delle persone. Dapprima, i due aspetti vengono considerati separatamente, ottenendo diverse conclusioni interessanti per ognuno. In seguito, i risultati più importanti sono combinati, concentrando l’attenzione sull’impatto dell’evoluzione del linguaggio adottato sulle comunità online sottostanti. Inoltre, l’intero studio è sviluppato in parallelo su due piattaforme, Reddit e Twitter, sottolineando il paragone tra questi due ambienti, intrinsecamente diversi. Molti studi precedenti hanno dimostrato che vale effettivamente la pena analizzare la linguistica delle comunità online, poiché sono stati dimostrati molti risultati interessanti sull’estrazione di informazioni riguardanti il comportamento degli utenti. Infatti, le attività portate a termine in questa tesi mirano ad estendere le conclusioni principali relative a tali studi. In particolare, questa tesi descrive nel dettaglio differenti tecniche di machine learning, come l’elaborazione del linguaggio naturale (NLP), modelli statistici e reti neurali, sfruttati per perseguire l’obbiettivo. In seguito, vengono analizzate le interazioni delle reti sociali e il loro sviluppo, e infinte vengono comparate l’evoluzione linguistica con l’evoluzione della rete sottostante. Un risultato interessante provato dal nostro studio è che il linguaggio ha effettivamente un certo impatto sulla comunità online sottostante.

A comparative analysis using natural language processing to understand the evolution of the language on social networks and its impact on the underlying communities

ZIPPO, MANUEL
2020/2021

Abstract

Social networks are a rich source of data which can be exploited for many purposes, in both the academic or industrial fields. In particular, textual data is one of the main resources available in these systems and it is a very common subject of research, due to the large amount of information that it can contain. Text processing techniques were a topic of interest for researchers even before the advent of social networks and, in this context, such techniques can be profitably adopted to understand how people interactions happen and to study the evolution of online communities. In particular, it can be very useful to understand people approaches toward certain topics, what influences mostly their mentality and decisions, how and why they interact with each other. Since social media are just a virtual transposition of real world societies, the results obtained from such analyses of online communities can be adopted to better understand real-life social dynamics. To provide a contribution in this setting, this thesis deals with both the analysis of text data coming from two important social networks (namely, Reddit and Twitter), and the investigation of the structure of their online communities derived from people’s interaction. Firstly, it considers the two aspects separately, drawing out many interesting conclusions for each of them. Then, the most prominent results are combined together, focusing the attention on the impact of the evolution of the adopted language style on the underlying online communities. Moreover, the whole study is developed in parallel on two platforms, Reddit and Twitter, stressing the comparison between such intrinsic different environments. Many prior works in the related literature demonstrate that it is actually worth analyzing the linguistics of online communities, since they showed many interesting results on extracting information about user behavior. In fact, the activity carried out in this thesis aims at extending the main findings of such related researches. In particular, this thesis describes in details the different machine learning techniques, such as Natural Language Processing, statistical models and neural networks, exploited to pursue this task. Then, it analyzes the social networks’ interactions and their development, and finally it compares the linguistic evolution with the underlying network evolution. As an interesting result, this study proves that the adopted language has an impact on the underlying online communities.
2020
A comparative analysis using natural language processing to understand the evolution of the language on social networks and its impact on the underlying communities
Analisi comparativa utilizzando l'elaborazione del linguaggio naturale per capire l'evoluzione della lingua sulle reti sociali e il suo impatto sulla comunità sottostante. I social network sono una ricca fonte di dati che possono essere sfruttati per diversi scopi, sia in ambito accademico che industriale. In particolare, i dati testuali sono una delle principali risorse disponibili in questi sistemi e sono un soggetto molto comune di ricerca, a causa della vasta quantità di informazione che questi possono contenere. Le tecniche di elaborazione del testo sono state argomento di interesse per molti ricercatori anche da prima dell’avvento dei social network e, in questo contesto, tali tecniche possono essere adoperate per capire come avvengono le interazioni tra le persone e per studiare l’evoluzione delle comunità online. In particolare, possono essere molto utili per capire come si approcciano le persone nei confronti di certi argomenti, cosa influenza maggiormente la loro mentalità e le loro decisioni, come e perché interagiscono tra di loro. Dato che i social media sono semplicemente una trasposizione virtuale delle società del mondo reale, i risultati ottenuti da analisi di questo tipo sulle comunità online possono essere adoperati per capire meglio le dinamiche sociali della vita reale. Per fornire un contributo in questo settore, questa tesi tratta sia l’analisi di dati testuali provenienti da due importanti social network (ossia Reddit e Twitter), sia l’indagine della struttura delle relative comunità online derivanti dall’interazione delle persone. Dapprima, i due aspetti vengono considerati separatamente, ottenendo diverse conclusioni interessanti per ognuno. In seguito, i risultati più importanti sono combinati, concentrando l’attenzione sull’impatto dell’evoluzione del linguaggio adottato sulle comunità online sottostanti. Inoltre, l’intero studio è sviluppato in parallelo su due piattaforme, Reddit e Twitter, sottolineando il paragone tra questi due ambienti, intrinsecamente diversi. Molti studi precedenti hanno dimostrato che vale effettivamente la pena analizzare la linguistica delle comunità online, poiché sono stati dimostrati molti risultati interessanti sull’estrazione di informazioni riguardanti il comportamento degli utenti. Infatti, le attività portate a termine in questa tesi mirano ad estendere le conclusioni principali relative a tali studi. In particolare, questa tesi descrive nel dettaglio differenti tecniche di machine learning, come l’elaborazione del linguaggio naturale (NLP), modelli statistici e reti neurali, sfruttati per perseguire l’obbiettivo. In seguito, vengono analizzate le interazioni delle reti sociali e il loro sviluppo, e infinte vengono comparate l’evoluzione linguistica con l’evoluzione della rete sottostante. Un risultato interessante provato dal nostro studio è che il linguaggio ha effettivamente un certo impatto sulla comunità online sottostante.
File in questo prodotto:
Non ci sono file associati a questo prodotto.

È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14239/13997