Joint Discourse-aware Concept Disambiguation and Clustering

Fahrni, Angela Petra

Preview

PDF, English
Download (2MB) | Terms of use

Citation of documents: Please do not cite the URL that is displayed in your browser location input, instead use the DOI, URN or the persistent URL below, as we can guarantee their long-time accessibility.

DOI: 10.11588/heidok.00020737
URN: urn:nbn:de:bsz:16-heidok-207376
URL: http://www.ub.uni-heidelberg.de/archiv/20737

Abstract

This thesis addresses the tasks of concept disambiguation and clustering. Concept disambiguation is the task of linking common nouns and proper names in a text – henceforth called mentions – to their corresponding concepts in a predefined inventory. Concept clustering is the task of clustering mentions, so that all mentions in one cluster denote the same concept. In this thesis, we investigate concept disambiguation and clustering from a discourse perspective and propose a discourse-aware approach for joint concept disambiguation and clustering in the framework of Markov logic. The contributions of this thesis are fourfold:

Joint Concept Disambiguation and Clustering. In previous approaches, concept disambiguation and concept clustering have been considered as two separate tasks (Schütze, 1998; Ji & Grishman, 2011). We analyze the relationship between concept disambiguation and concept clustering and argue that these two tasks can mutually support each other. We propose the – to our knowledge – first joint approach for concept disambiguation and clustering.

Discourse-Aware Concept Disambiguation. One of the determining factors for concept disambiguation and clustering is the context definition. Most previous approaches use the same context definition for all mentions (Milne & Witten, 2008b; Kulkarni et al., 2009; Ratinov et al., 2011, inter alia). We approach the question which context is relevant to disambiguate a mention from a discourse perspective and state that different mentions require different notions of contexts. We state that the context that is relevant to disambiguate a mention depends on its embedding into discourse. However, how a mention is embedded into discourse depends on its denoted concept. Hence, the identification of the denoted concept and the relevant concept mutually depend on each other. We propose a binwise approach with three different context definitions and model the selection of the context definition and the disambiguation jointly.

Modeling Interdependencies with Markov Logic. To model the interdependencies between concept disambiguation and concept clustering as well as the interdependencies between the context definition and the disambiguation, we use Markov logic (Domingos & Lowd, 2009). Markov logic combines first order logic with probabilities and allows us to concisely formalize these interdependencies. We investigate how we can balance between linguistic appropriateness and time efficiency and propose a hybrid approach that combines joint inference with aggregation techniques.

Concept Disambiguation and Clustering beyond English: Multi- and Cross-linguality. Given the vast amount of texts written in different languages, the capability to extend an approach to cope with other languages than English is essential. We thus analyze how our approach copes with other languages than English and show that our approach largely scales across languages, even without retraining.

Our approach is evaluated on multiple data sets originating from different sources (e.g. news, web) and across multiple languages. As an inventory, we use Wikipedia. We compare our approach to other approaches and show that it achieves state-of-the-art results. Furthermore, we show that joint concept disambiguating and clustering as well as joint context selection and disambiguation leads to significant improvements ceteris paribus.

Translation of abstract (German)

Diese Dissertation beschäftigt sich mit Konzeptdisambiguierung und Konzeptclustering. Unter Konzeptdisambiguierung verstehen wir die Aufgabe, Gattungs- und Eigennamen in Texten – im Folgenden Erwähnungen genannt – zu ihren entsprechenden Konzepten in einem vorab definierten Inventar zu verlinken. Konzeptclustering ist die Aufgabe, Erwähnungen so zu gruppieren, dass alle Erwähnungen in einem Cluster das gleiche Konzept denotieren. In dieser Dissertation untersuchen wir Konzeptdisambiguierung und -clustering von einer Diskursperspektive und schlagen einen diskursbezogenen Ansatz für ein vereintes Disambiguieren und Clustern von Konzepten in Markov Logik vor. Die Forschungsbeiträge dieser Dissertation umfassen vier Bereiche.

Vereintes Disambiguieren und Clustern von Konzepten. Vorherige Ansätze modellieren Konzeptdisambiguierung und Konzeptclustering als zwei separate Aufgaben (Schütze, 1998; Ji & Grishman, 2011). Wir analysieren die Beziehung zwischen Konzeptdisambiguierung und Konzeptclustering und argumentieren, dass diese zwei Aufgaben sich wechselseitig unterstützen können. Wir schlagen den – unseres Wissens – ersten Ansatz für vereintes Disambiguieren und Clustern von Konzepten vor.

Diskursbezogene Konzeptdisambiguierung. Ein bestimmender Faktor für das Disambiguieren und Clustern von Konzepten ist die Kontextdefinition. Die meisten vorherigen Ansätze verwenden die gleiche Kontextdefinition für alle Erwähnungen (Milne & Witten, 2008b; Kulkarni et al., 2009; Ratinov et al., 2011, inter alia). Wir nähern uns der Frage, welcher Kontext relevant für die Disambiguierung von Erwähnungen ist, von einer Diskursperspektive und argumentieren, dass verschiedene Erwähnungen unterschiedliche Kontextdefinitionen erfordern. Wir legen dar, dass der für die Disambiguierung relevante Kontext davon abhängt, wie diese Erwähnung in den Diskurs eingebettet ist. Die Einbettung einer Erwähnung in den Diskurs hängt jedoch vom Konzept ab, das die Erwähnung denotiert. Dies führt dazu, dass die Identifikation des denotierten Konzeptes und die Bestimmung des relevanten Kontextes voneinander abhängen. In dieser Dissertation schlagen wir einen Ansatz mit drei Kontextdefinitionen vor und modellieren die Identifikation des Kontextes für eine Erwähnung und deren Disambiguierung wechselseitig.

Modellieren von Interdependenzen mit Markov Logik. Um die Interdependenzen zwischen Konzeptdisambiguierung und Konzeptclustering sowie zwischen Kontextdefinition und Disambiguierung zu modellieren, verwenden wir Markov Logik (Domingos & Lowd, 2009). Markov Logik vereinigt Prädikatenlogik mit Wahrscheinlichkeiten und ermöglicht es, Interdependenzen präzise und prägnant zu formalisieren. Wir untersuchen, wie wir Konzeptdisambiguierung und Konzeptclustering einerseits linguistisch motiviert, andererseits zeiteffizient implementieren können, und schlagen einen hybriden Ansatz vor, der vereinte und aggregative Techniken kombiniert.

Multi- und crosslinguales Disambiguieren und Clustern von Konzepten. Viele Texte sind nicht in Englisch verfügbar. Es ist daher zentral, dass ein Ansatz nicht nur für das Englische verwendbar ist, sondern auch andere Sprachen abdeckt. Wir analysieren, wie unser Ansatz auf andere Sprachen anwendbar ist, und zeigen, dass unser System erfolgreich andere Sprachen verarbeiten kann, selbst ohne sprachspezifisches Abstimmen der gelernten Parameter.

Wir evaluieren unseren Ansatz anhand von verschiedenen Datensätzen und berücksichtigen nicht nur unterschiedliche Textquellen (beispielsweise Zeitungen, Web), sondern auch verschiedene Sprachen. Als Inventar verwenden wir Wikipedia. Wir vergleichen unseren Ansatz mit verschiedenen anderen Ansätze und zeigen, dass die Ergebnisse unseres Ansatzes dem aktuellen Stand der Forschung entsprechen. Zudem zeigen wir, dass unser vereinter Konzeptdisambiguierungs- und -clusteringansatz sowie unsere vereinte Kontextmodellierung und Disambiguierung zu signifikant besseren Resultaten führen ceteris paribus.

Document type:	Dissertation
Supervisor:	Strube, Prof. Dr. Michael
Date of thesis defense:	21 December 2015
Date Deposited:	09 Jun 2016 09:47
Date:	2016
Faculties / Institutes:	Neuphilologische Fakultät > Institut für Computerlinguistik
DDC-classification:	400 Linguistics