Structured Representations for Coreference Resolution

Martschat, Sebastian

Vorschau

PDF, Englisch
Download (991kB) | Nutzungsbedingungen

Zitieren von Dokumenten: Bitte verwenden Sie für Zitate nicht die URL in der Adresszeile Ihres Webbrowsers, sondern entweder die angegebene DOI, URN oder die persistente URL, deren langfristige Verfügbarkeit wir garantieren. [mehr ...]

DOI: 10.11588/heidok.00023305
URN: urn:nbn:de:bsz:16-heidok-233053

Abstract

Coreference resolution is the task of determining which expressions in a text are used to refer to the same entity. This task is one of the most fundamental problems of natural language understanding. Inherently, coreference resolution is a structured task, as the output consists of sets of coreferring expressions. This complex structure poses several challenges since it is not clear how to account for the structure in terms of error analysis and representation.

In this thesis, we present a treatment of computational coreference resolution that accounts for the structure. Our treatment encompasses error analysis and the representation of approaches to coreference resolution. In particular, we propose two frameworks in this thesis.

The first framework deals with error analysis. We gather requirements for an appropriate error analysis method and devise a framework that considers a structured graph-based representation of the reference annotation and the system output. Error extraction is performed by constructing linguistically motivated or data-driven spanning trees for the graph-based coreference representations.

The second framework concerns the representation of approaches to coreference resolution. We show that approaches to coreference resolution can be understood as predictors of latent structures that are not annotated in the data. From these latent structures, the final output is derived during a post-processing step. We devise a machine learning framework for coreference resolution based on this insight. In this framework, we have a unified representation of approaches to coreference resolution. Individual approaches can be expressed as instantiations of a generic approach. We express many approaches from the literature as well as novel variants in our framework, ranging from simple pairwise classification approaches to complex entity-centric models. Using the uniform representation, we are able to analyze differences and similarities between the models transparently and in detail.

Finally, we employ the error analysis framework to perform a qualitative analysis of differences in error profiles of the models on a benchmark dataset. We trace back differences in the error profiles to differences in the representation. Our analysis shows that a mention ranking model and a tree-based mention-entity model with left-to-right inference have the highest performance. We discuss reasons for the improved performance and analyze why more advanced approaches modeled in our framework cannot improve on these models. An implementation of the frameworks discussed in this thesis is publicly available.

Übersetzung des Abstracts (Deutsch)

Koreferenzresolution ist eine der grundlegenden Aufgaben des automatischen Textverstehens. Die Aufgabe besteht darin zu ermitteln, welche Ausdrücke in einem Text sich auf die gleiche Entität beziehen. Koreferenzresolution ist per Definition ein strukturiertes Problem, da die Ausgabe eines Koreferenzresolutionssystems aus Mengen koreferenter Ausdrücke besteht. Aus dieser komplexen Struktur ergeben sich einige Herausforderungen, da es nicht klar ist, wie die Struktur adäquat für die Fehleranalyse und die Repräsentation von Ansätzen zur Koreferenzresolution berücksichtigt werden kann.

In dieser Doktorarbeit untersuchen wir automatische Koreferenzresolution im Hinblick darauf, wie die Struktur berücksichtigt werden kann. Hierbei widmen wir uns sowohl der Fehleranalyse, als auch der Repräsentation von Ansätzen. Insbesondere schlagen wir zwei Frameworks vor.

Das erste Framework befasst sich mit Fehleranalyse. Wir stellen zunächst Bedingungen auf, welche eine Methode zur Fehleranalyse berücksichtigen sollte. Davon ausgehend entwickeln wir ein Framework, welches auf einer strukturierten graphbasierten Repräsentation der Referenzannotation und der Ausgabe beruht. In diesem Framework werden Fehler extrahiert, indem linguistisch motivierte oder aus Daten induzierte Spannbäume der graphbasierten Repräsentationen erstellt werden.

Mit dem zweiten Framework widmen wir uns der Repräsentation von Ansätzen zur Koreferenzresolution. Wir zeigen, dass Ansätze zur Koreferenzresolution als Prädiktoren von latenten Strukturen, welche nicht in den Daten annotiert sind, verstanden werden können. Aus diesen latenten Strukturen wird dann in einem Nachbereitungsschritt die Ausgabe berechnet. Von dieser Erkenntnis ausgehend entwickeln wir ein Machine-Learning-Framework für Koreferenzresolution. In diesem Framework können wir verschiedene Ansätze einheitlich darstellen. Insbesondere können wir sie als Instanzen eines generischen Ansatzes auffassen. Wir stellen sowohl viele Ansätze aus der Literatur als auch neue Varianten dieser Ansätze in unserem Framework dar. Die Spannbreite der Ansatzklassen, welche wir betrachten, reicht hierbei von simplen paarweisen Klassifikationsmethoden bis hin zu komplexen entitätsbasierten Modellen. Durch die einheitliche Repräsentation können wir Unterschiede und Gemeinsamkeiten der Ansätze transparent und detailliert analysieren.

Schließlich benutzen wir das Fehleranalyse-Framework, um einen Vergleich der Fehler verschiedener Modelle auf einem Benchmark-Korpus durchzuführen. Wir führen hierbei Unterschiede in den Fehlern auf Unterschiede in der Repräsentation zurück. Unser Vergleich zeigt, dass ein Mention-Ranking-Modell und ein Mention-Entity-Modell, welches auf Antezedentenbäumen beruht, die besten Ergebnisse liefern. Wir besprechen, wodurch diese guten Ergebnisse zustande kommen. Weiterhin analysieren wir, weshalb komplexere Ansätze die Ergebnisse nicht verbessern können. Eine Implementation der beiden Frameworks ist als Download verfügbar.

Dokumententyp:	Dissertation
Erstgutachter:	Strube, Prof. Dr. Michael
Tag der Prüfung:	21 Februar 2017
Erstellungsdatum:	06 Sep. 2017 05:27
Erscheinungsjahr:	2017
Institute/Einrichtungen:	Neuphilologische Fakultät > Institut für Computerlinguistik
DDC-Sachgruppe:	004 Informatik 400 Sprachwissenschaft
Normierte Schlagwörter:	Computerlinguistik, Koreferenz