This research is motivated by the rapid increase in digital data of an educational nature held by the University of Pavia. In fact, due to the pandemic, the number of videotaped lessons of Unipv courses has increased considerably. The aim of the project is twofold: firstly, to make these data more usable for students by creating a platform capable of finding the moments of the video lessons in which the professor of a particular course has used particular headwords and combinations of headwords; secondly, analysing the text associated with the lessons, using machine learning techniques, to identify the main topics, both lesson by lesson and throughout the course. To do this, it was first necessary to extrapolate the audio from the video lessons and then analyse it to identify the words spoken; cloud services have been used for this purpose. Once the text has been obtained, it is studied through grammatical and semantic analysis in search of the main words or binomials of each lesson. Finally, we move on to an analysis using machine learning using the LDA technique to identify the main topics of each lesson and course.

Indicizzazione dell'audio delle videolezioni per l'identificazione degli argomenti principali. Questa ricerca è motivata dal rapido incremento dei dati digitali di natura didattica in possesso dell’università di Pavia. Infatti, per via della pandemia, il numero di lezioni videoregistrate dei corsi Unipv ha avuto un incremento notevole. Lo scopo del progetto è duplice: in primo luogo rendere più fruibili questi dati per gli studenti creando una piattaforma in grado di trovare i momenti delle videolezioni in cui il professore di un determinato corso ha utilizzato particolari lemmi e combinazioni di lemmi; in secondo luogo analizzare il testo associato alle lezioni, mediante tecniche di machine learning, per identificarne gli argomenti principali, sia lezione per lezione, sia in tutto il corso. Per fare questo si è dovuto innanzitutto estrapolare l’audio dalle videolezioni per poi analizzarlo per identificare le parole pronunciate; si è fatto ricorso per questo scopo a servizi cloud. Una volta ottenuto il testo, lo si studia tramite analisi grammaticale e semantica alla ricerca delle parole o binomi principali di ogni lezione. Infine si passa ad un’analisi tramite machine learning usando la tecnica dell’LDA per identificare gli argomenti principali di ogni lezione e corso.

Indexing speech in video lessons for main topics identification

PRINA, MARCO
2019/2020

Abstract

This research is motivated by the rapid increase in digital data of an educational nature held by the University of Pavia. In fact, due to the pandemic, the number of videotaped lessons of Unipv courses has increased considerably. The aim of the project is twofold: firstly, to make these data more usable for students by creating a platform capable of finding the moments of the video lessons in which the professor of a particular course has used particular headwords and combinations of headwords; secondly, analysing the text associated with the lessons, using machine learning techniques, to identify the main topics, both lesson by lesson and throughout the course. To do this, it was first necessary to extrapolate the audio from the video lessons and then analyse it to identify the words spoken; cloud services have been used for this purpose. Once the text has been obtained, it is studied through grammatical and semantic analysis in search of the main words or binomials of each lesson. Finally, we move on to an analysis using machine learning using the LDA technique to identify the main topics of each lesson and course.
2019
Indexing speech in video lessons for main topics identification
Indicizzazione dell'audio delle videolezioni per l'identificazione degli argomenti principali. Questa ricerca è motivata dal rapido incremento dei dati digitali di natura didattica in possesso dell’università di Pavia. Infatti, per via della pandemia, il numero di lezioni videoregistrate dei corsi Unipv ha avuto un incremento notevole. Lo scopo del progetto è duplice: in primo luogo rendere più fruibili questi dati per gli studenti creando una piattaforma in grado di trovare i momenti delle videolezioni in cui il professore di un determinato corso ha utilizzato particolari lemmi e combinazioni di lemmi; in secondo luogo analizzare il testo associato alle lezioni, mediante tecniche di machine learning, per identificarne gli argomenti principali, sia lezione per lezione, sia in tutto il corso. Per fare questo si è dovuto innanzitutto estrapolare l’audio dalle videolezioni per poi analizzarlo per identificare le parole pronunciate; si è fatto ricorso per questo scopo a servizi cloud. Una volta ottenuto il testo, lo si studia tramite analisi grammaticale e semantica alla ricerca delle parole o binomi principali di ogni lezione. Infine si passa ad un’analisi tramite machine learning usando la tecnica dell’LDA per identificare gli argomenti principali di ogni lezione e corso.
File in questo prodotto:
Non ci sono file associati a questo prodotto.

È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14239/12772