This thesis focuses on the development of a perception and control framework for an autonomous forklift system, designed to enhance safety and efficiency in industrial material handling. The system is built around the Orbbec Gemini 2 depth-sensing 3D camera and an ESP32 microcontroller, forming a compact yet capable perception–actuation loop. Through this setup, the forklift is able to detect, analyze, and align with pallets autonomously. To achieve this functionality, several advanced computer vision and robotics algorithms were implemented. A Convolutional Neural Network (CNN) was trained to identify pallet fork entry slots, commonly known as pockets, from the depth camera’s visual data. In parallel, DBSCAN (Density-Based Spatial Clustering of Applications with Noise) was applied to segment the 3D point cloud of the pallet, allowing clear isolation of the relevant structural regions. For precise spatial alignment between the forklift forks and the pallet, RANSAC (Random Sample Consensus) and ICP (Iterative Closest Point) algorithms were employed to compute the optimal positioning and orientation, even in the presence of sensor noise or partial occlusion. A real-time communication interface was established between the perception unit and the forklift’s control system via the ESP32, enabling responsive actuation and immediate emergency-stop signals. To ensure robustness and modern relevance, the research also explored recent advances in deep learning and robotics — such as comparing the proposed CNN approach with YOLOv8 object detection networks, and analyzing concepts like PointNet, SLAM (Simultaneous Localization and Mapping), and Kalman filtering for potential future integration. The system successfully identifies pallet fork pockets and computes accurate fork insertion trajectories. In testing and simulation environments, the CNN achieved an average classification accuracy of approximately 92%, with 94% precision and 90% recall, while ICP alignment maintained a mean positioning error below ±0.8 cm. The full perception–control loop operated at around 4–5 frames per second, which is adequate for real-time forklift operation. Safety mechanisms are embedded at multiple levels — including automatic checks for pallet dimensions, weight, and tilt angle — with the ESP32 initiating an immediate halt when unsafe conditions are detected, such as misalignment or non-standard pallets. Overall, this research demonstrates a comprehensive and cost-effective approach to autonomous forklift navigation and pallet handling, integrating 3D vision, deep learning, and embedded control to create a reliable and intelligent material-handling platform.

Questa tesi si concentra sullo sviluppo di un framework di percezione e controllo per un sistema di carrello elevatore autonomo, progettato per migliorare la sicurezza e l'efficienza nella movimentazione industriale dei materiali. Il sistema è basato sulla telecamera 3D Orbbec Gemini 2 con rilevamento di profondità e su un microcontrollore ESP32, formando un ciclo compatto ma efficace di percezione e attuazione. Grazie a questa configurazione, il carrello elevatore è in grado di rilevare, analizzare e allinearsi automaticamente ai pallet. Per raggiungere tale funzionalità, sono stati implementati diversi algoritmi avanzati di visione artificiale e robotica. Una rete neurale convoluzionale (CNN) è stata addestrata per identificare gli ingressi delle forche del pallet, comunemente chiamati “tasche”, a partire dai dati visivi forniti dalla telecamera di profondità. Parallelamente, è stato applicato l’algoritmo DBSCAN (Clustering spaziale basato sulla densità con rumore) per segmentare la nuvola di punti 3D del pallet, consentendo l'isolamento chiaro delle regioni strutturali rilevanti. Per un allineamento spaziale preciso tra le forche del carrello elevatore e il pallet, sono stati utilizzati gli algoritmi RANSAC (Random Sample Consensus) e ICP (Iterative Closest Point), in grado di calcolare il posizionamento e l'orientamento ottimale anche in presenza di rumore nei sensori o di parziale occlusione. È stata inoltre stabilita un’interfaccia di comunicazione in tempo reale tra l’unità di percezione e il sistema di controllo del carrello tramite ESP32, permettendo un’attuazione reattiva e segnali di arresto d’emergenza immediati. Per garantire robustezza e rilevanza nel contesto moderno, la ricerca ha esplorato anche progressi recenti nel deep learning e nella robotica — tra cui il confronto tra l’approccio CNN proposto e le reti di rilevamento oggetti YOLOv8, nonché l’analisi di concetti come PointNet, SLAM (Simultaneous Localization and Mapping) e il filtro di Kalman per una possibile integrazione futura. Il sistema identifica con successo le tasche dei pallet e calcola con precisione le traiettorie di inserimento delle forche. Nei test e nelle simulazioni, la CNN ha raggiunto una precisione media di classificazione del 92%, con una precisione del 94% e un richiamo del 90%, mentre l'allineamento tramite ICP ha mantenuto un errore medio di posizionamento inferiore a ±0,8 cm. Il ciclo completo di percezione e controllo ha operato a circa 4–5 fotogrammi al secondo, sufficiente per il funzionamento in tempo reale. I meccanismi di sicurezza sono incorporati a più livelli — inclusi controlli automatici su dimensioni, peso e angolo di inclinazione del pallet — con l’ESP32 che avvia un arresto immediato in presenza di condizioni non sicure, come disallineamenti o pallet non standard. In sintesi, questa ricerca dimostra un approccio completo ed economicamente vantaggioso alla navigazione autonoma dei carrelli elevatori e alla gestione dei pallet, integrando visione 3D, deep learning e controllo embedded per creare una piattaforma affidabile e intelligente per la movimentazione dei materiali.

SVILUPPO DI UN ALGORITMO PER CARRELLI ELEVATORI AUTONOMI UTILIZZANDO ORBBEC GEMINI 2 – TELECAMERA 3D

KOVALAM, VAMSI
2024/2025

Abstract

This thesis focuses on the development of a perception and control framework for an autonomous forklift system, designed to enhance safety and efficiency in industrial material handling. The system is built around the Orbbec Gemini 2 depth-sensing 3D camera and an ESP32 microcontroller, forming a compact yet capable perception–actuation loop. Through this setup, the forklift is able to detect, analyze, and align with pallets autonomously. To achieve this functionality, several advanced computer vision and robotics algorithms were implemented. A Convolutional Neural Network (CNN) was trained to identify pallet fork entry slots, commonly known as pockets, from the depth camera’s visual data. In parallel, DBSCAN (Density-Based Spatial Clustering of Applications with Noise) was applied to segment the 3D point cloud of the pallet, allowing clear isolation of the relevant structural regions. For precise spatial alignment between the forklift forks and the pallet, RANSAC (Random Sample Consensus) and ICP (Iterative Closest Point) algorithms were employed to compute the optimal positioning and orientation, even in the presence of sensor noise or partial occlusion. A real-time communication interface was established between the perception unit and the forklift’s control system via the ESP32, enabling responsive actuation and immediate emergency-stop signals. To ensure robustness and modern relevance, the research also explored recent advances in deep learning and robotics — such as comparing the proposed CNN approach with YOLOv8 object detection networks, and analyzing concepts like PointNet, SLAM (Simultaneous Localization and Mapping), and Kalman filtering for potential future integration. The system successfully identifies pallet fork pockets and computes accurate fork insertion trajectories. In testing and simulation environments, the CNN achieved an average classification accuracy of approximately 92%, with 94% precision and 90% recall, while ICP alignment maintained a mean positioning error below ±0.8 cm. The full perception–control loop operated at around 4–5 frames per second, which is adequate for real-time forklift operation. Safety mechanisms are embedded at multiple levels — including automatic checks for pallet dimensions, weight, and tilt angle — with the ESP32 initiating an immediate halt when unsafe conditions are detected, such as misalignment or non-standard pallets. Overall, this research demonstrates a comprehensive and cost-effective approach to autonomous forklift navigation and pallet handling, integrating 3D vision, deep learning, and embedded control to create a reliable and intelligent material-handling platform.
2024
DEVELOPING AN ALGORITHM FOR AUTONOMOUS FORKLIFT BY USING ORBBEC GEMINI 2 – 3D CAMERA
Questa tesi si concentra sullo sviluppo di un framework di percezione e controllo per un sistema di carrello elevatore autonomo, progettato per migliorare la sicurezza e l'efficienza nella movimentazione industriale dei materiali. Il sistema è basato sulla telecamera 3D Orbbec Gemini 2 con rilevamento di profondità e su un microcontrollore ESP32, formando un ciclo compatto ma efficace di percezione e attuazione. Grazie a questa configurazione, il carrello elevatore è in grado di rilevare, analizzare e allinearsi automaticamente ai pallet. Per raggiungere tale funzionalità, sono stati implementati diversi algoritmi avanzati di visione artificiale e robotica. Una rete neurale convoluzionale (CNN) è stata addestrata per identificare gli ingressi delle forche del pallet, comunemente chiamati “tasche”, a partire dai dati visivi forniti dalla telecamera di profondità. Parallelamente, è stato applicato l’algoritmo DBSCAN (Clustering spaziale basato sulla densità con rumore) per segmentare la nuvola di punti 3D del pallet, consentendo l'isolamento chiaro delle regioni strutturali rilevanti. Per un allineamento spaziale preciso tra le forche del carrello elevatore e il pallet, sono stati utilizzati gli algoritmi RANSAC (Random Sample Consensus) e ICP (Iterative Closest Point), in grado di calcolare il posizionamento e l'orientamento ottimale anche in presenza di rumore nei sensori o di parziale occlusione. È stata inoltre stabilita un’interfaccia di comunicazione in tempo reale tra l’unità di percezione e il sistema di controllo del carrello tramite ESP32, permettendo un’attuazione reattiva e segnali di arresto d’emergenza immediati. Per garantire robustezza e rilevanza nel contesto moderno, la ricerca ha esplorato anche progressi recenti nel deep learning e nella robotica — tra cui il confronto tra l’approccio CNN proposto e le reti di rilevamento oggetti YOLOv8, nonché l’analisi di concetti come PointNet, SLAM (Simultaneous Localization and Mapping) e il filtro di Kalman per una possibile integrazione futura. Il sistema identifica con successo le tasche dei pallet e calcola con precisione le traiettorie di inserimento delle forche. Nei test e nelle simulazioni, la CNN ha raggiunto una precisione media di classificazione del 92%, con una precisione del 94% e un richiamo del 90%, mentre l'allineamento tramite ICP ha mantenuto un errore medio di posizionamento inferiore a ±0,8 cm. Il ciclo completo di percezione e controllo ha operato a circa 4–5 fotogrammi al secondo, sufficiente per il funzionamento in tempo reale. I meccanismi di sicurezza sono incorporati a più livelli — inclusi controlli automatici su dimensioni, peso e angolo di inclinazione del pallet — con l’ESP32 che avvia un arresto immediato in presenza di condizioni non sicure, come disallineamenti o pallet non standard. In sintesi, questa ricerca dimostra un approccio completo ed economicamente vantaggioso alla navigazione autonoma dei carrelli elevatori e alla gestione dei pallet, integrando visione 3D, deep learning e controllo embedded per creare una piattaforma affidabile e intelligente per la movimentazione dei materiali.
File in questo prodotto:
File Dimensione Formato  
DEVELOPING AN ALGORITHM FOR AUTONOMOUS FORKLIFT BY USING ORBBEC GEMINI 2 – 3D CAMERA.pdf

accesso aperto

Descrizione: Our Thesis demonstrates a comprehensive and cost-effective approach to autonomous forklift navigation and pallet handling, integrating 3D vision, deep learning, and embedded control to create a reliable and intelligent material-handling platform.
Dimensione 3.81 MB
Formato Adobe PDF
3.81 MB Adobe PDF Visualizza/Apri

È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14239/33663