ConteCorpus: Costruzione e analisi linguistica/lessicale di un nuovo corpus dell’italiano dei social media

Lo studio della comunicazione istituzionale relativa alla pandemia, e della risposta della popolazione a questa, è ad oggi di grande rilevanza. Un campo di prova utile allo studio delle dinamiche comunicative si trova nei social media dove ogni giorno milioni di utenti interagiscono. Portavoce delle comunicazioni riguardo la pandemia è stato, durante il 2020, l’ex Presidente del Consiglio Giuseppe Conte. Uno dei canali comunicativi privilegiati è stata la pagina Facebook ufficiale del Presidente Conte, la quale ha visto una grande crescita nel flusso di utenti proprio dopo Marzo 2020, periodo in cui sono state annunciate per la prima volta le manovre per combattere l’emergenza. Per questo motivo è stato creato un corpus con i commenti estratti dalla pagina Facebook. La scelta del social media è stata determinata dal fatto che l’Application Programming Interface (API) di Facebook, a differenza di altri social, permette facilmente di estrarre il thread post-commento con cui è possibile tenere traccia della risposta della popolazione alle relative comunicazioni contenute nei post. Il Conte Corpus è un nuovo corpus dell’italiano dei social media costruito con dati estratti dalla pagina Facebook di Giuseppe Conte. Raccoglie i commenti relativi ad ogni post pubblicato sulla pagina dell’ex Presidente del Consiglio durante l’anno 2020. Sono stati estratti oltre 4 milioni di commenti e tutti i post pubblicati sulla pagina. Per ricavare informazioni utili dai dati è stata aggiunta un'annotazione morfosintattica. Tramite la pipeline Stanza il dataset è stato annotato in Universal Dependencies. Il modello usato per l’annotazione è stato addestrato su una treebank di testi dei social media, ovvero PoSTWITA-UD. Sono stati utilizzati i processori di Stanza adibiti: alla tokenizzazione; identificazione dei multi-word tokens; classificazione di categorie grammaticali e parti del discorso, annotazione per dipendenze sintattiche. Il processore adibito alla divisione in frasi è stato disabilitato perché è stato stabilito per convenzione che ogni frase corrispondesse ad un commento. Per valutare la performance del modello è stato creato un gold standard: 1000 frasi annotate sono state riviste manualmente. Per la valutazione è stato usato uno script rilasciato nel 2018 per il Conll Shared Task di quell’anno. I risultati della valutazione hanno mostrato una buona performance del modello a tutti i livelli dell'annotazione. Particolarmente performante si è rivelato il parser. Per facilitare le analisi linguistiche sul corpus sono stati apposti ad ogni commento dei metadati relativi alla data di creazione del commento e id del post a cui fa riferimento. L’obiettivo della ricerca è triplice: fornire la valutazione di un modello addestrato per l’annotazione morfosintattica di dati dei social media in lingua italiana; fornire nuovi strumenti che possono essere utilizzati per annotare dati tratti dai social media, in particolare quelli relativi al periodo della pandemia; infine, fornire un’analisi linguistica/lessicale del corpus che è stato creato. Quest'ultimo scopo è stato perseguito conducendo una Topic Modeling addestrando un modello Latent Dietrich Allocation (LDA) sui lemmi estratti dal ConteCorpus. L'analisi ha l'obiettivo di offrire una visuale del contenuto di un corpus così grande e allo stesso tempo di vedere quali siano stati gli argomenti maggiormente dibattuti dalla popolazione in risposta alla comunicazione istituzionale durante il 2020. Inoltre, con il modello LDA addestrato è stato possibile esplorare quali argomenti siano stati maggiormente dibattuti in alcuni periodi in particolare, come ad esempio i giorni in cui sono state annunciate le politiche più restrittive per combattere l'emergenza pandemica.

ConteCorpus: Costruzione e analisi linguistica/lessicale di un nuovo corpus dell’italiano dei social media

VENTURA, VIVIANA

2020/2021

Abstract

Lo studio della comunicazione istituzionale relativa alla pandemia, e della risposta della popolazione a questa, è ad oggi di grande rilevanza. Un campo di prova utile allo studio delle dinamiche comunicative si trova nei social media dove ogni giorno milioni di utenti interagiscono. Portavoce delle comunicazioni riguardo la pandemia è stato, durante il 2020, l’ex Presidente del Consiglio Giuseppe Conte. Uno dei canali comunicativi privilegiati è stata la pagina Facebook ufficiale del Presidente Conte, la quale ha visto una grande crescita nel flusso di utenti proprio dopo Marzo 2020, periodo in cui sono state annunciate per la prima volta le manovre per combattere l’emergenza. Per questo motivo è stato creato un corpus con i commenti estratti dalla pagina Facebook. La scelta del social media è stata determinata dal fatto che l’Application Programming Interface (API) di Facebook, a differenza di altri social, permette facilmente di estrarre il thread post-commento con cui è possibile tenere traccia della risposta della popolazione alle relative comunicazioni contenute nei post. Il Conte Corpus è un nuovo corpus dell’italiano dei social media costruito con dati estratti dalla pagina Facebook di Giuseppe Conte. Raccoglie i commenti relativi ad ogni post pubblicato sulla pagina dell’ex Presidente del Consiglio durante l’anno 2020. Sono stati estratti oltre 4 milioni di commenti e tutti i post pubblicati sulla pagina. Per ricavare informazioni utili dai dati è stata aggiunta un'annotazione morfosintattica. Tramite la pipeline Stanza il dataset è stato annotato in Universal Dependencies. Il modello usato per l’annotazione è stato addestrato su una treebank di testi dei social media, ovvero PoSTWITA-UD. Sono stati utilizzati i processori di Stanza adibiti: alla tokenizzazione; identificazione dei multi-word tokens; classificazione di categorie grammaticali e parti del discorso, annotazione per dipendenze sintattiche. Il processore adibito alla divisione in frasi è stato disabilitato perché è stato stabilito per convenzione che ogni frase corrispondesse ad un commento. Per valutare la performance del modello è stato creato un gold standard: 1000 frasi annotate sono state riviste manualmente. Per la valutazione è stato usato uno script rilasciato nel 2018 per il Conll Shared Task di quell’anno. I risultati della valutazione hanno mostrato una buona performance del modello a tutti i livelli dell'annotazione. Particolarmente performante si è rivelato il parser. Per facilitare le analisi linguistiche sul corpus sono stati apposti ad ogni commento dei metadati relativi alla data di creazione del commento e id del post a cui fa riferimento. L’obiettivo della ricerca è triplice: fornire la valutazione di un modello addestrato per l’annotazione morfosintattica di dati dei social media in lingua italiana; fornire nuovi strumenti che possono essere utilizzati per annotare dati tratti dai social media, in particolare quelli relativi al periodo della pandemia; infine, fornire un’analisi linguistica/lessicale del corpus che è stato creato. Quest'ultimo scopo è stato perseguito conducendo una Topic Modeling addestrando un modello Latent Dietrich Allocation (LDA) sui lemmi estratti dal ConteCorpus. L'analisi ha l'obiettivo di offrire una visuale del contenuto di un corpus così grande e allo stesso tempo di vedere quali siano stati gli argomenti maggiormente dibattuti dalla popolazione in risposta alla comunicazione istituzionale durante il 2020. Inoltre, con il modello LDA addestrato è stato possibile esplorare quali argomenti siano stati maggiormente dibattuti in alcuni periodi in particolare, come ad esempio i giorni in cui sono state annunciate le politiche più restrittive per combattere l'emergenza pandemica.

Scheda

Scheda DC

	Facoltà/Dipartimento
	
				DIPARTIMENTO DI STUDI UMANISTICI
			
	Corso di studio
	
				LINGUISTICA TEORICA, APPLICATA E DELLE LINGUE MODERNE [05409]
			
	Anno Accademico
	
				2020
			
	Titolo inglese
	
				ConteCorpus: Building and linguistic/lexical analysis of a new corpus of  social media's italian
			
	Relatore
	
				JEZEK, ELISABETTA
			
	Correlatore
	
				SPRUGNOLI, RACHELE
			
	Appare nelle tipologie:
	
				Lauree Magistrali

File in questo prodotto:

Non ci sono file associati a questo prodotto.

È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: [email protected].

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14239/1351