Directly to content
  1. Publishing |
  2. Search |
  3. Browse |
  4. Recent items rss |
  5. Open Access |
  6. Jur. Issues |
  7. DeutschClear Cookie - decide language by browser settings

Domain-sensitive Temporal Tagging for Event-centric Information Retrieval

Strötgen, Jannik

[thumbnail of thesis.pdf]
Preview
PDF, English
Download (12MB) | Terms of use

Citation of documents: Please do not cite the URL that is displayed in your browser location input, instead use the DOI, URN or the persistent URL below, as we can guarantee their long-time accessibility.

Abstract

Temporal and geographic information is of major importance in virtually all contexts. Thus, it also occurs frequently in many types of text documents in the form of temporal and geographic expressions. Often, those are used to refer to something that was, is, or will be happening at some specific time and some specific place – in other words, temporal and geographic expressions are often used to refer to events. However, so far, event-related information needs are not well served by standard information retrieval approaches, which motivates the topic of this thesis: event-centric information retrieval.

An important characteristic of temporal and geographic expressions – and thus of two components of events – is that they can be normalized so that their meaning is unambiguous and can be placed on a timeline or pinpointed on a map. In many research areas in which natural language processing is involved, e.g., in information retrieval, document summarization, and question answering, applications can highly benefit from having access to normalized information instead of only the words as they occur in documents.

In this thesis, we present several frameworks for searching and exploring document collections with respect to occurring temporal, geographic, and event information. While we rely on an existing tool for extracting and normalizing geographic expressions, we study the task of temporal tagging, i.e., the extraction and normalization of temporal expressions. A crucial issue is that so far most research on temporal tagging dealt with English news-style documents. However, temporal expressions have to be handled in different ways depending on the domain of the documents from which they are extracted. Since we do not want to limit our research to one domain and one language, we develop the multilingual, cross-domain temporal tagger HeidelTime. It is the only publicly available temporal tagger for several languages and easy to extend to further languages. In addition, it achieves state-of-the-art evaluation results for all addressed domains and languages, and lays the foundations for all further contributions developed in this thesis.

To achieve our goal of exploiting temporal and geographic expressions for event-centric information retrieval from a variety of text documents, we introduce the concept of spatio-temporal events and several concepts to "compute" with temporal, geographic, and event information. These concepts are used to develop a spatio-temporal ranking approach, which does not only consider textual, temporal, and geographic query parts but also two different types of proximity information. Furthermore, we adapt the spatio-temporal search idea by presenting a framework to directly search for events. Additionally, several map-based exploration frameworks are introduced that allow a new way of exploring event information latently contained in huge document collections. Finally, an event-centric document similarity model is developed that calculates document similarity on multilingual corpora solely based on extracted and normalized event information.

Translation of abstract (German)

In beinahe allen Kontexten spielen Zeit- und Ortsinformationen eine bedeutende Rolle. Deshalb kommen sie in Form von Zeit- und Ortsausdrücken auch häufig in Texten vor. Oft werden dort solche Ausdrücke benutzt, um auf etwas zu referenzieren, das irgendwann irgendwo stattfand, stattfindet, oder stattfinden wird – also um auf Events zu verweisen. Bis jetzt werden Event-bezogene Informationsbedürfnisse von Standardansätzen des Information Retrievals jedoch bei weitem nicht hinreichend abgedeckt, wodurch das Thema der vorliegenden Arbeit motiviert wird: Event-zentriertes Information Retrieval.

Eine wichtige Eigenschaft von Zeit- und Ortsausdrücken – und somit auch eine wichtige Eigenschaft zweier Eventkomponenten – ist, dass sie normalisiert werden können, wodurch ihre Bedeutungen disambiguiert werden. Somit können sie auf einem Zeitstrahl beziehungsweise einer Karte verankert werden. Wenn statt nur der in Dokumenten vorkommenden Wörter auch normalisierte Informationen zur Verfügung stehen, können hiervon Anwendungen vieler Forschungsbereiche profitieren. Beispiele solcher Anwendungen sind Suchmaschinen, automatische Textzusammenfassungssysteme sowie Frage-Antwort-Systeme.

In der vorliegenden Arbeit präsentieren wir einige Frameworks, mit denen Dokumentensammlungen in Bezug auf zeitliche, räumliche und Event-bezogene Informationen durchsucht und exploriert werden können. Während wir uns für die Extraktion und Normalisierung von Ortsausdrücken auf ein bereits existierendes System verlassen, wenden wir uns dem Extrahieren und Normalisieren zeitlicher Ausdrücke zu. Ein kritischer Punkt ist, dass sich bisherige Arbeiten im Bereich Temporal Tagging vor allem mit englischsprachigen Nachrichtentexten, wie zum Beispiel Zeitungsartikeln, beschäftigt haben. Allerdings ist zu beachten, dass Zeitausdrücke unterschiedlich behandelt werden müssen, je nachdem aus welcher Domäne die Dokumente stammen, aus denen sie extrahiert werden. Da wir unsere Forschung jedoch nicht auf eine Domäne und Sprache beschränken wollen, entwickeln wir HeidelTime, einen Temporal Tagger, der für verschiedene Domänen und Sprachen geeignet ist. Für einige Sprachen ist HeidelTime der einzige frei verfügbare Temporal Tagger und zudem ist er problemlos für andere Sprachen erweiterbar. Außerdem erzielt er für alle unterstützten Domänen und Sprachen Evaluierungsergebnisse, die dem aktuellen Stand der Forschung entsprechen, und legt die Grundlagen für alle weiteren Beiträge, die in dieser Arbeit entwickelt werden.

Um unser Ziel zu erreichen, in Textdokumenten vorkommende Zeit- und Ortsausdrücke für Event-zentriertes Information Retrieval zu nutzen, führen wir das Konzept sogenannter spatio-temporal events ein. Ebenso werden Methoden entwickelt, um mit Zeit-, Orts- und Event-Informationen zu “rechnen”. Diese Konzepte werden dann genutzt, um ein Rankingansatz für zeitliches und räumliches Suchen zu entwickeln. Dieser berücksichtigt nicht nur textuelle, zeitliche und räumliche Suchanfragen, sondern auch zwei verschiedene Arten sogenannter proximity information. Zudem passen wir unseren Ansatz der räumlich-zeitlichen Suche so an, dass direkt nach Events gesucht werden kann. Des Weiteren werden einige Karten-basierte Suchanwendungen eingeführt, die eine neue Art und Weise der Eventexploration ermöglichen. Schließlich entwickeln wir ein event-zentriertes Modell, mit dem Ähnlichkeiten zwischen Dokumenten allein anhand extrahierter und normalisierter Eventinformationen bestimmt werden.

Document type: Dissertation
Supervisor: Gertz, Prof. Dr. Michael
Place of Publication: Heidelberg
Date of thesis defense: 2 March 2015
Date Deposited: 10 Mar 2015 10:23
Date: 2015
Faculties / Institutes: The Faculty of Mathematics and Computer Science > Department of Computer Science
DDC-classification: 004 Data processing Computer science
Controlled Keywords: Information Extraction, Information Retrieval, Text Mining, Computerlinguistik
Uncontrolled Keywords: temporal tagging, event-centric information retrieval, document similarity, geographic information retrieval, temporal information retrieval, spatio-temporal information retrieval
About | FAQ | Contact | Imprint |
OA-LogoDINI certificate 2013Logo der Open-Archives-Initiative