The interest in the extraction and processing of temporal information in natural language has been gaining a key role within the field of computational linguistics and NLP. Being able to identify the temporal location and the chronological order of events in text is pivotal in many applications. In order for such a volatile type of information as the temporal dimension of language to be grasped and processed by machines, it is necessary to rely on the annotation of linguistic resources. However, the process of temporal relations annotation tends to be an overwhelming and ambiguous task for the annotator, so most previous approaches to temporal annotation have proved inadequate to rendering a temporal mapping of facts in a document. Hence, we extend the current annotation on Ita-TimeBank by producing a supplementary annotation layer, in which we apply the concept of Narrative Container, as drafted by Pustejovsky and then employed by Styler et al. in annotating texts from the clinical domain. We envision narrative containers as devices to render the way events naturally cluster around given times or situations in text; thus avoiding a pair-wise approach at event ordering and at the same time isolating narrative anchors which can easily be ordered, along with the events they anchor, on a document timeline. We provide guidelines for NC annotation in Italian newspaper articles. A pilot corpus from the Ita-TimeBank was annotated to test these guidelines, consisting of 18874 tokens (52 articles). The present task is intended to be performed document-level; however, future developments should result in an aid to cross-document annotation, in a framework such as the TimeLine task (Cross-Document Event Ordering) organized within SemEval-2015.
L'interesse nell'estrazione e nel processing di informazione temporale nel linguaggio naturale è aumentato nel campo della linguistica computazionale. Essere in grado di identificare collocazione temporale e l'ordine cronologico degli eventi in un testo è fondamentale per molte applicazioni. Perché un tipo di informazione tanto volatile quanto quella temporale nel linguaggio naturale sia compresa ed elaborata dalle macchine, è necessario fare affidamento sull'annotazione di risorse linguistiche. Tuttavia, il processo dell'annotazione temporale tende a divenire impegnativo e ambiguo per l'annotatore, tanto che i precedenti approcci hanno provato la loro inadeguatezza a riportare fedelmente la struttura temporale dei fatti raccontati in un documento. Dunque, si propone un'estensione della attuale annotazione temporale presente nel corpus Ita-TimeBank aggiungendo un livello di annotazione in cui viene applicato il concetto di Narrative Container, come introdotto da Pustejovsky e applicato da Styler nell'annotazione di testi clinici. Narrative Containers vengono intesi qui come strumenti per rendere il modo in cui gli eventi si raccolgono intorno a dati elementi testuali nel testo, portatori di informazione temporale, evitando così un approccio pair-wise e ottenendo ancore narrative che possono facilmente essere ordinate, insieme agli eventi che ancorano, sulla timeline di un documento. Si forniscono con questo lavoro le guidelines per l'annotazione di Narrative Containers in 52 articoli di giornale in italiano. Un corpus pilota, a partire dell'Ita-TimeBank, è stato creato e annotato, e consiste di 18874 token. Il task attualmente è progettato per essere applicato in una prospettiva document-level; tuttavia, ulteriori sviluppi potrebbero risultare in un miglioramento dell'annotazione cross-document, in progetti quali il TimeLine task (Cross-Document Event Ordering) organizzato nel contesto di SemEval-2015.
RAPPRESENTAZIONE DELL'INFORMAZIONE TEMPORALE ATTRAVERSO I NARRATIVE CONTAINERS - Linee guida e annotazione nell'Ita-TimeBank
BRACCHI, ALICE
2014/2015
Abstract
The interest in the extraction and processing of temporal information in natural language has been gaining a key role within the field of computational linguistics and NLP. Being able to identify the temporal location and the chronological order of events in text is pivotal in many applications. In order for such a volatile type of information as the temporal dimension of language to be grasped and processed by machines, it is necessary to rely on the annotation of linguistic resources. However, the process of temporal relations annotation tends to be an overwhelming and ambiguous task for the annotator, so most previous approaches to temporal annotation have proved inadequate to rendering a temporal mapping of facts in a document. Hence, we extend the current annotation on Ita-TimeBank by producing a supplementary annotation layer, in which we apply the concept of Narrative Container, as drafted by Pustejovsky and then employed by Styler et al. in annotating texts from the clinical domain. We envision narrative containers as devices to render the way events naturally cluster around given times or situations in text; thus avoiding a pair-wise approach at event ordering and at the same time isolating narrative anchors which can easily be ordered, along with the events they anchor, on a document timeline. We provide guidelines for NC annotation in Italian newspaper articles. A pilot corpus from the Ita-TimeBank was annotated to test these guidelines, consisting of 18874 tokens (52 articles). The present task is intended to be performed document-level; however, future developments should result in an aid to cross-document annotation, in a framework such as the TimeLine task (Cross-Document Event Ordering) organized within SemEval-2015.È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.
https://hdl.handle.net/20.500.14239/11094