Rimozione di poligoni inaffidabili dai layer GIS per la classificazione della copertura del suolo

Ricerca avanzata

This thesis addresses the challenge of farmland classification by refining Geographic Information System (GIS) data through the systematic removal of unreliable polygons. Using the DUSAF dataset as the primary source, we applied geometric and morphological filtering, followed by the computation of the Normalized Difference Vegetation Index (NDVI) and its seasonal variations. A Ground Truth dataset was then created through manual inspection of polygons with Google Earth imagery, ensuring reliable labels for model training and evaluation. Several machine learning models were tested, including Logistic Regression, K-Nearest Neighbors (KNN), and Random Forest. After hyperparameter tuning, the KNN model achieved the best performance with an accuracy of 83\%. Feature importance, assessed via permutation importance, highlighted seasonal NDVI differences and average NDVI as the most significant predictors. These results demonstrate that careful preprocessing of GIS data, combined with vegetation indices, substantially improves the accuracy of farmland classification.

Questa tesi affronta la sfida della classificazione delle aree agricole mediante il perfezionamento dei dati GIS attraverso la rimozione sistematica dei poligoni inaffidabili. Utilizzando come fonte principale il dataset DUSAF, sono stati applicati filtri geometrici e morfologici, seguiti dal calcolo dell'Indice di Vegetazione Normalizzato (NDVI) e delle sue variazioni stagionali. Successivamente, è stato creato un dataset di Ground Truth tramite l’ispezione manuale dei poligoni con immagini di Google Earth, garantendo etichette affidabili per l’addestramento e la valutazione dei modelli. Sono stati testati diversi modelli di machine learning, tra cui Regressione Logistica, K-Nearest Neighbors (KNN) e Random Forest. Dopo l’ottimizzazione degli iperparametri, il modello KNN ha ottenuto le migliori prestazioni con un’accuratezza dell’83\%. L’importanza delle variabili, stimata con permutation importance, ha evidenziato la differenza stagionale dell’NDVI e il valore medio dell’NDVI come predittori più rilevanti. I risultati dimostrano che un’accurata pre-elaborazione dei dati GIS, combinata con indici di vegetazione, migliora significativamente l’accuratezza della classificazione delle aree agricole.

Rimozione di poligoni inaffidabili dai layer GIS per la classificazione della copertura del suolo

KARESHKI, MALIHEH

2024/2025

Abstract

This thesis addresses the challenge of farmland classification by refining Geographic Information System (GIS) data through the systematic removal of unreliable polygons. Using the DUSAF dataset as the primary source, we applied geometric and morphological filtering, followed by the computation of the Normalized Difference Vegetation Index (NDVI) and its seasonal variations. A Ground Truth dataset was then created through manual inspection of polygons with Google Earth imagery, ensuring reliable labels for model training and evaluation. Several machine learning models were tested, including Logistic Regression, K-Nearest Neighbors (KNN), and Random Forest. After hyperparameter tuning, the KNN model achieved the best performance with an accuracy of 83\%. Feature importance, assessed via permutation importance, highlighted seasonal NDVI differences and average NDVI as the most significant predictors. These results demonstrate that careful preprocessing of GIS data, combined with vegetation indices, substantially improves the accuracy of farmland classification.

Scheda

Scheda DC

	Facoltà/Dipartimento
	
				DIPARTIMENTO DI INGEGNERIA INDUSTRIALE E DELL'INFORMAZIONE
			
	Corso di studio
	
				COMPUTER ENGINEERING [06415]
			
	Anno Accademico
	
				2024
			
	Titolo inglese
	
				Removing Unreliable Polygons from GIS Layers for Landcover Classification
			
	Abstract in italiano
	
				Questa tesi affronta la sfida della classificazione delle aree agricole mediante il perfezionamento dei dati GIS attraverso la rimozione sistematica dei poligoni inaffidabili. Utilizzando come fonte principale il dataset DUSAF, sono stati applicati filtri geometrici e morfologici, seguiti dal calcolo dell'Indice di Vegetazione Normalizzato (NDVI) e delle sue variazioni stagionali. Successivamente, è stato creato un dataset di Ground Truth tramite l’ispezione manuale dei poligoni con immagini di Google Earth, garantendo etichette affidabili per l’addestramento e la valutazione dei modelli. Sono stati testati diversi modelli di machine learning, tra cui Regressione Logistica, K-Nearest Neighbors (KNN) e Random Forest. Dopo l’ottimizzazione degli iperparametri, il modello KNN ha ottenuto le migliori prestazioni con un’accuratezza dell’83\%. L’importanza delle variabili, stimata con permutation importance, ha evidenziato la differenza stagionale dell’NDVI e il valore medio dell’NDVI come predittori più rilevanti. I risultati dimostrano che un’accurata pre-elaborazione dei dati GIS, combinata con indici di vegetazione, migliora significativamente l’accuratezza della classificazione delle aree agricole.
			
	Relatore
	
				DELL'ACQUA, FABIO
			
	Appare nelle tipologie:
	
				Lauree Magistrali

File in questo prodotto:

File	Dimensione	Formato
Thesis_report___CE___Maliheh_Kareshki_format.pdf accesso aperto Dimensione 2.27 MB Formato Adobe PDF Visualizza/Apri	2.27 MB	Adobe PDF	Visualizza/Apri

È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: [email protected].

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14239/33600