This thesis addresses the challenge of farmland classification by refining Geographic Information System (GIS) data through the systematic removal of unreliable polygons. Using the DUSAF dataset as the primary source, we applied geometric and morphological filtering, followed by the computation of the Normalized Difference Vegetation Index (NDVI) and its seasonal variations. A Ground Truth dataset was then created through manual inspection of polygons with Google Earth imagery, ensuring reliable labels for model training and evaluation. Several machine learning models were tested, including Logistic Regression, K-Nearest Neighbors (KNN), and Random Forest. After hyperparameter tuning, the KNN model achieved the best performance with an accuracy of 83\%. Feature importance, assessed via permutation importance, highlighted seasonal NDVI differences and average NDVI as the most significant predictors. These results demonstrate that careful preprocessing of GIS data, combined with vegetation indices, substantially improves the accuracy of farmland classification.
Questa tesi affronta la sfida della classificazione delle aree agricole mediante il perfezionamento dei dati GIS attraverso la rimozione sistematica dei poligoni inaffidabili. Utilizzando come fonte principale il dataset DUSAF, sono stati applicati filtri geometrici e morfologici, seguiti dal calcolo dell'Indice di Vegetazione Normalizzato (NDVI) e delle sue variazioni stagionali. Successivamente, è stato creato un dataset di Ground Truth tramite l’ispezione manuale dei poligoni con immagini di Google Earth, garantendo etichette affidabili per l’addestramento e la valutazione dei modelli. Sono stati testati diversi modelli di machine learning, tra cui Regressione Logistica, K-Nearest Neighbors (KNN) e Random Forest. Dopo l’ottimizzazione degli iperparametri, il modello KNN ha ottenuto le migliori prestazioni con un’accuratezza dell’83\%. L’importanza delle variabili, stimata con permutation importance, ha evidenziato la differenza stagionale dell’NDVI e il valore medio dell’NDVI come predittori più rilevanti. I risultati dimostrano che un’accurata pre-elaborazione dei dati GIS, combinata con indici di vegetazione, migliora significativamente l’accuratezza della classificazione delle aree agricole.
Rimozione di poligoni inaffidabili dai layer GIS per la classificazione della copertura del suolo
KARESHKI, MALIHEH
2024/2025
Abstract
This thesis addresses the challenge of farmland classification by refining Geographic Information System (GIS) data through the systematic removal of unreliable polygons. Using the DUSAF dataset as the primary source, we applied geometric and morphological filtering, followed by the computation of the Normalized Difference Vegetation Index (NDVI) and its seasonal variations. A Ground Truth dataset was then created through manual inspection of polygons with Google Earth imagery, ensuring reliable labels for model training and evaluation. Several machine learning models were tested, including Logistic Regression, K-Nearest Neighbors (KNN), and Random Forest. After hyperparameter tuning, the KNN model achieved the best performance with an accuracy of 83\%. Feature importance, assessed via permutation importance, highlighted seasonal NDVI differences and average NDVI as the most significant predictors. These results demonstrate that careful preprocessing of GIS data, combined with vegetation indices, substantially improves the accuracy of farmland classification.| File | Dimensione | Formato | |
|---|---|---|---|
|
Thesis_report___CE___Maliheh_Kareshki_format.pdf
accesso aperto
Dimensione
2.27 MB
Formato
Adobe PDF
|
2.27 MB | Adobe PDF | Visualizza/Apri |
È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.
https://hdl.handle.net/20.500.14239/33600