Conducting a Systematic Literature Review (SLR) is a challenging task today due to the large number of articles that typically make up the scholarly material on the topic under review. The Systematic Literature Review Kit (slr-kit) aims to provide the user with a well-defined set of tools to process, classify and obtain a range of reports about a given collection of documents. The type of dataset that this project uses as input is a set of bibliographic information for scientific research articles, which can be obtained - e.g. - from the online Scopus database. The Latent Dirichlet Allocation (LDA) algorithm is able to classify the articles in the simplest and least manual way within a set of so-called topics. The aim of this thesis is to improve the performance of LDA by additional classification of common synonyms and similar words included in the abstracts of each article. The goal is to transform such words with common grounds into a single relevant word. The LDA uses these improved words to classify the articles. In the end, once the classification has been successfully performed and the results have been trimmed and optimized, the tool produces a report listing some relevant statistics about the data set used and the classification including the distribution of each subject of the year of publication in relation to the articles associated with that particular topic and the relationship of the journals associated with each topic. The lack of similar tools in the literature makes it difficult to accurately assess the value of the results obtained. Our opinion is that while there is still room for improvement, this work represents an important step forward in the field of SLR. It achieves good results and introduces a tool to make efficient use of words that was still missing in the literature. That is, the proposed framework can be used in practice to obtain interesting information about the articles included in a systematic review of the literature.

Gestione dei sinonimi nella pipeline di modellazione degli argomenti di Natural Language Processing. Condurre una revisione sistematica della letteratura (SLR) è un compito impegnativo oggi a causa al gran numero di articoli che tipicamente compongono il materiale accademico sul argomento in rassegna. Il kit di revisione della letteratura sistematica (slr-kit) mira a fornire l'utente con un insieme ben definito di strumenti per elaborare, classificare e ottenere una gamma di rapporti su una determinata raccolta di documenti. Il tipo di set di dati che questo il progetto utilizza come input un insieme di informazioni bibliografiche per la ricerca scientifica articoli, che possono essere ottenuti - ad es. - dal database online Scopus. L'algoritmo Latent Dirichlet Allocation (LDA) è in grado di classificare gli articoli nel modo più semplice e meno manuale all'interno di un insieme di cosiddetti argomenti. Lo scopo di questa tesi è quello di migliorare le prestazioni dell'LDA mediante una classificazione aggiuntiva dei sinonimi comuni e parole simili incluse negli abstract di ciascun articolo. L'obiettivo è trasformare tali parole con motivi comuni in un'unica parola pertinente. La LDA utilizza queste parole migliorate per classificare gli articoli. Alla fine, una volta che la classificazione è stata eseguita con successo e i risultati sono stati tagliati e ottimizzati, lo strumento produce una relazione che elenca alcune statistiche pertinenti sull'insieme di dati utilizzato e la classificazione, compresa la distribuzione di ciascun argomento dell'anno di pubblicazione in relazione agli articoli associati a quel particolare argomento e al rapporto delle riviste associato ad ogni argomento. La mancanza di strumenti simili nella letteratura rende difficile valutare con precisione il valore dei risultati ottenuti. La nostra opinione è che mentre c'è ancora spazio per miglioramento, questo lavoro rappresenta un importante passo avanti nel campo della reflex. Raggiunge buoni risultati e introduce uno strumento per fare un uso efficiente delle parole che mancava ancora nella letteratura. Cioè, il quadro proposto può essere utilizzato nella pratica per ottenere informazioni interessanti sugli articoli inclusi in una revisione sistematica della letteratura.

Handling synonyms in Natural Language Processing topic modeling pipeline

ANTO, TONY ROSSET
2021/2022

Abstract

Conducting a Systematic Literature Review (SLR) is a challenging task today due to the large number of articles that typically make up the scholarly material on the topic under review. The Systematic Literature Review Kit (slr-kit) aims to provide the user with a well-defined set of tools to process, classify and obtain a range of reports about a given collection of documents. The type of dataset that this project uses as input is a set of bibliographic information for scientific research articles, which can be obtained - e.g. - from the online Scopus database. The Latent Dirichlet Allocation (LDA) algorithm is able to classify the articles in the simplest and least manual way within a set of so-called topics. The aim of this thesis is to improve the performance of LDA by additional classification of common synonyms and similar words included in the abstracts of each article. The goal is to transform such words with common grounds into a single relevant word. The LDA uses these improved words to classify the articles. In the end, once the classification has been successfully performed and the results have been trimmed and optimized, the tool produces a report listing some relevant statistics about the data set used and the classification including the distribution of each subject of the year of publication in relation to the articles associated with that particular topic and the relationship of the journals associated with each topic. The lack of similar tools in the literature makes it difficult to accurately assess the value of the results obtained. Our opinion is that while there is still room for improvement, this work represents an important step forward in the field of SLR. It achieves good results and introduces a tool to make efficient use of words that was still missing in the literature. That is, the proposed framework can be used in practice to obtain interesting information about the articles included in a systematic review of the literature.
2021
Handling synonyms in Natural Language Processing topic modeling pipeline
Gestione dei sinonimi nella pipeline di modellazione degli argomenti di Natural Language Processing. Condurre una revisione sistematica della letteratura (SLR) è un compito impegnativo oggi a causa al gran numero di articoli che tipicamente compongono il materiale accademico sul argomento in rassegna. Il kit di revisione della letteratura sistematica (slr-kit) mira a fornire l'utente con un insieme ben definito di strumenti per elaborare, classificare e ottenere una gamma di rapporti su una determinata raccolta di documenti. Il tipo di set di dati che questo il progetto utilizza come input un insieme di informazioni bibliografiche per la ricerca scientifica articoli, che possono essere ottenuti - ad es. - dal database online Scopus. L'algoritmo Latent Dirichlet Allocation (LDA) è in grado di classificare gli articoli nel modo più semplice e meno manuale all'interno di un insieme di cosiddetti argomenti. Lo scopo di questa tesi è quello di migliorare le prestazioni dell'LDA mediante una classificazione aggiuntiva dei sinonimi comuni e parole simili incluse negli abstract di ciascun articolo. L'obiettivo è trasformare tali parole con motivi comuni in un'unica parola pertinente. La LDA utilizza queste parole migliorate per classificare gli articoli. Alla fine, una volta che la classificazione è stata eseguita con successo e i risultati sono stati tagliati e ottimizzati, lo strumento produce una relazione che elenca alcune statistiche pertinenti sull'insieme di dati utilizzato e la classificazione, compresa la distribuzione di ciascun argomento dell'anno di pubblicazione in relazione agli articoli associati a quel particolare argomento e al rapporto delle riviste associato ad ogni argomento. La mancanza di strumenti simili nella letteratura rende difficile valutare con precisione il valore dei risultati ottenuti. La nostra opinione è che mentre c'è ancora spazio per miglioramento, questo lavoro rappresenta un importante passo avanti nel campo della reflex. Raggiunge buoni risultati e introduce uno strumento per fare un uso efficiente delle parole che mancava ancora nella letteratura. Cioè, il quadro proposto può essere utilizzato nella pratica per ottenere informazioni interessanti sugli articoli inclusi in una revisione sistematica della letteratura.
File in questo prodotto:
Non ci sono file associati a questo prodotto.

È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14239/15357