The main goal of this work was to develop a method for the recognition of Offline Handwritten Mathematical Expressions. To do this an Encoder-Decoder architecture was implemented, composed of a Convolutional Neural Network (CNN) and a Recurrent Neural Network (RNN) assisted by an attention mechanism. Provided as input to the model an image containing a handwritten mathematical expression, the CNN extracts the features necessary for the recognition of the symbols within the expression. These features are used by the RNN to perform the prediction of the entire sequence, symbol by symbol. Each prediction of the RNN is assisted by the attention mechanism, which like the human visual system, allows to focus on the relevant parts of the image ignoring those less important for the actual prediction. The final mathematical expression will be a sequence of characters encoded in a language similar to LaTeX. The results show a good accuracy obtained on a dataset of handwritten mathematical expressions containing about 6000 samples.
L’obiettivo principale di questo lavoro di tesi è stato quello di realizzare un metodo per il riconoscimento di espressioni matematiche scritte a mano contenute all’interno di un immagine. Per fare questo è stato realizzato un modello Encoder-Decoder, composto da un Rete Neurale Convoluzionale (CNN) e un Rete neurale Ricorrente (RNN) coadiuvate da un meccanismo di attenzione. Fornita in input al modello un immagine contente un espressione matematica scritta a mano, la CNN estrae le caratteristiche necessarie per il riconoscimento dei simboli all’interno dell’espressione. Queste caratteristiche sono utilizzate dalla RNN per effettuare la predizione dell’intera sequenza, simbolo per simbolo. Ogni predizione della RNN è assistita dal meccanismo di attenzione, questo proprio come il sistema visivo umano, permette di focalizzarsi sulle parti salienti dell’immagine tralasciando quelle meno importanti per l’attuale predizione. L’espressione matematica finale sarà una sequenza di caratteri codificata in un linguaggio simile a LaTeX. I risultati mostrano una buona precisione ottenuta su un set di dati che contiene circa 6000 campioni di espressioni matematiche scritte a mano.
Architetture neurali per il riconoscimento automatico di espressioni matematiche scritte a mano
DISPENZIERI, GIUSEPPE
2019/2020
Abstract
The main goal of this work was to develop a method for the recognition of Offline Handwritten Mathematical Expressions. To do this an Encoder-Decoder architecture was implemented, composed of a Convolutional Neural Network (CNN) and a Recurrent Neural Network (RNN) assisted by an attention mechanism. Provided as input to the model an image containing a handwritten mathematical expression, the CNN extracts the features necessary for the recognition of the symbols within the expression. These features are used by the RNN to perform the prediction of the entire sequence, symbol by symbol. Each prediction of the RNN is assisted by the attention mechanism, which like the human visual system, allows to focus on the relevant parts of the image ignoring those less important for the actual prediction. The final mathematical expression will be a sequence of characters encoded in a language similar to LaTeX. The results show a good accuracy obtained on a dataset of handwritten mathematical expressions containing about 6000 samples.È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.
https://hdl.handle.net/20.500.14239/12670