An email can contain a large amount of useful and interesting information, but the huge number of emails that can be retrieved from a system makes the task of searching these informations much more complicated and expensive in terms of time, or even impossible if time is a strict constraint. This thesis provides a possible solution to this problem by focusing on those activities that are defined as topic modeling and topic clustering. The situation is where a user collected an email corpus he knows nothing about and his goal is to distinguish an X number of topic, cluster the dataset based on the topics found and try to figure out if there are clusters similar to others. The tool developed within this work allows to do all of the above described and puts at the disposal of the user the opportunity to identify the anomaly, understood as outlier, that for any reason may be of particular interest.

Analisi forense delle email mediante Topic Clustering. Una email può contenere una grande mole di informazioni utili e interessanti, ma l'enorme numero di email che può essere recuperato da un sistema rende il compito di cercare queste informazioni molto più complicato e costoso in termini di tempo, se non addirittura impossibile se la variabile tempo è vincolante. Questa tesi fornisce una possibile soluzione a questo problema concentrandosi sulle attività definite come topic modeling e topic clustering. La situazione tipo è la seguente: un utente ha raccolto un corpus e-mail di cui non conosce nulla e il suo obiettivo è quello di distinguere un numero di argomenti X all'interno del dataset, "clusterizzare" il set di email in base agli argomenti trovati e cercare di capire se esistono cluster simili ad altri. Lo strumento sviluppato in questo lavoro consente di fare tutto quanto sopra descritto e mette a disposizione dell'utente la possibilità di identificare l'anomalia, intesa come topic/cluster anomalo, che per qualsiasi motivo può essere di particolare interesse.

Email Forensic Analysis via Topic Clustering

SPAMPINATO, RICCARDO
2016/2017

Abstract

An email can contain a large amount of useful and interesting information, but the huge number of emails that can be retrieved from a system makes the task of searching these informations much more complicated and expensive in terms of time, or even impossible if time is a strict constraint. This thesis provides a possible solution to this problem by focusing on those activities that are defined as topic modeling and topic clustering. The situation is where a user collected an email corpus he knows nothing about and his goal is to distinguish an X number of topic, cluster the dataset based on the topics found and try to figure out if there are clusters similar to others. The tool developed within this work allows to do all of the above described and puts at the disposal of the user the opportunity to identify the anomaly, understood as outlier, that for any reason may be of particular interest.
2016
Email Forensic Analysis via Topic Clustering
Analisi forense delle email mediante Topic Clustering. Una email può contenere una grande mole di informazioni utili e interessanti, ma l'enorme numero di email che può essere recuperato da un sistema rende il compito di cercare queste informazioni molto più complicato e costoso in termini di tempo, se non addirittura impossibile se la variabile tempo è vincolante. Questa tesi fornisce una possibile soluzione a questo problema concentrandosi sulle attività definite come topic modeling e topic clustering. La situazione tipo è la seguente: un utente ha raccolto un corpus e-mail di cui non conosce nulla e il suo obiettivo è quello di distinguere un numero di argomenti X all'interno del dataset, "clusterizzare" il set di email in base agli argomenti trovati e cercare di capire se esistono cluster simili ad altri. Lo strumento sviluppato in questo lavoro consente di fare tutto quanto sopra descritto e mette a disposizione dell'utente la possibilità di identificare l'anomalia, intesa come topic/cluster anomalo, che per qualsiasi motivo può essere di particolare interesse.
File in questo prodotto:
Non ci sono file associati a questo prodotto.

È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14239/25105