Directly to content
  1. Publishing |
  2. Search |
  3. Browse |
  4. Recent items rss |
  5. Open Access |
  6. Jur. Issues |
  7. DeutschClear Cookie - decide language by browser settings

Linguistically-Inspired Neural Coherence Modeling

Liu, Wei

German Title: Linguistisch inspirierte neuronale Kohärenzmodellierung

[thumbnail of Thesis-Wei_Liu.pdf]
Preview
PDF, English - main document
Download (6MB) | Lizenz: Rights reserved - Free Access

Citation of documents: Please do not cite the URL that is displayed in your browser location input, instead use the DOI, URN or the persistent URL below, as we can guarantee their long-time accessibility.

Abstract

Coherence is an essential property of well-written text, making it easier to read and understand than a sequence of randomly arranged sentences. Assessing text coherence is valuable for many tasks. For example, it can be used to automatically score documents, reducing manual effort, or to provide feedback to students, helping them improve their writing quality. It can also serve as a reward model for training Large Language Models (LLMs) to generate more coherent and natural text. Given the importance of the task, many methods have been proposed for coherence modeling. Among these approaches, the dominant ones are neural network-based models due to their strength in representation learning and feature combination.

In linguistics, many factors contribute to achieving textual coherence. For example, text coherence can be achieved by describing the same set of entities or using discourse relations between sentences. However, existing work on neural coherence modeling focuses on using more powerful encoders or solely entity information, without a systematic analysis of the benefits of different linguistic features. In this thesis, we investigate the importance of entity- and relation-based patterns for coherence assessment and develop novel approaches to utilize these features individually or jointly.

We first investigate the benefits of entity-based patterns for coherence modeling. We analyze previous work that has leveraged entity patterns for coherence assessment. Then, we introduce a novel graph-based approach that captures the similarity of entity transition patterns between documents, rather than limiting the modeling of these patterns within a single document. We evaluate this approach on multiple benchmarks, and the results demonstrate that it outperforms various baselines.

Next, we examine the role of discourse relations in coherence modeling. Existing discourse parsers struggle with implicit discourse relation classification, limiting the use of discourse relations in coherence assessment. To address this, we propose a novel framework that jointly generates a connective between arguments and predicts discourse relations based on both the arguments and the generated connectives. Experiments show that our joint model achieves state-of-the-art performance on the PDTB 2.0, PDTB 3.0, and PCC datasets.

Beyond proposing a novel model for implicit discourse relation classification, we also investigate an unanswered question in the discourse processing community: why do relation classifiers trained on explicit examples (with connectives removed) perform poorly in real implicit scenarios? We identify label shift caused by the removal of connectives as a key factor contributing to this failure. To support this finding, we provide both manual analysis and corpus-level empirical evidence. Additionally, we propose two strategies to mitigate the impact of label shift.

Using the improved discourse parser, we identify discourse relations within documents and empirically demonstrate their correlation with textual coherence. Based on this observation, we develop a novel fusion model that integrates discourse relation-based features into a pre-trained model for coherence modeling.

Finally, we explore combining entity-based and discourse relation-based features for coherence modeling. This approach is motivated by the observation that writers typically employ multiple strategies simultaneously to ensure coherence. To this end, we design two methods to jointly model entities and discourse relations for coherence assessment. Experimental results demonstrate that both approaches significantly outperform models that use either features in isolation, highlighting the importance of considering both types of features simultaneously.

Translation of abstract (German)

Kohärenz ist eine wesentliche Eigenschaft gut geschriebener Texte, da sie diese leichter lesbar und verständlicher macht als eine zufällige Abfolge von Sätzen. Die Bewertung der Textkohärenz ist für viele Aufgaben von Bedeutung. So kann sie beispielsweise zur automatischen Bewertung von Dokumenten eingesetzt werden, um manuellen Aufwand zu reduzieren, oder zur Bereitstellung von Feedback für Studierende, um ihnen bei der Verbesserung ihrer Schreibqualität zu helfen. Darüber hinaus kann sie als Belohnungsmodell für das Training großer Sprachmodelle (Large Language Models, LLMs) dienen, um kohärentere und natürlichere Texte zu erzeugen. Angesichts der Bedeutung dieser Aufgabe wurden zahlreiche Methoden zur Kohärenzmodellierung vorgeschlagen. Unter diesen Ansätzen dominieren neuronale netzbasierte Modelle aufgrund ihrer Stärke im Repräsentationslernen und in der Kombination von Merkmalen.

In der Linguistik tragen viele Faktoren zur Herstellung textueller Kohärenz bei. So kann Kohärenz beispielsweise durch die Beschreibung derselben Menge von Entitäten oder durch die Verwendung von Diskursrelationen zwischen Sätzen erreicht werden. Bestehende Arbeiten zur neuronalen Kohärenzmodellierung konzentrieren sich jedoch entweder auf den Einsatz leistungsfähigerer Encoder oder ausschließlich auf Entitätsinformationen, ohne eine systematische Analyse des Nutzens unterschiedlicher linguistischer Merkmale vorzunehmen. In dieser Dissertation untersuchen wir die Bedeutung entitäts- und relationsbasierter Muster für die Kohärenzbewertung und entwickeln neuartige Ansätze, um diese Merkmale einzeln oder gemeinsam zu nutzen.

Zunächst untersuchen wir den Nutzen entitätsbasierter Muster für die Kohärenzmodellierung. Wir analysieren frühere Arbeiten, die Entitätsmuster zur Kohärenzbewertung herangezogen haben. Anschließend stellen wir einen neuartigen graphbasierten Ansatz vor, der die Ähnlichkeit von Entitätsübergangsmustern zwischen Dokumenten erfasst, anstatt diese Muster auf ein einzelnes Dokument zu beschränken. Wir evaluieren diesen Ansatz auf mehreren Benchmarks, und die Ergebnisse zeigen, dass er verschiedene Baseline-Modelle übertrifft.

Als Nächstes untersuchen wir die Rolle von Diskursrelationen in der Kohärenzmodellierung. Bestehende Diskursparser haben Schwierigkeiten bei der Klassifikation impliziter Diskursrelationen, was den Einsatz von Diskursrelationen in der Kohärenzbewertung einschränkt. Um dieses Problem zu lösen, schlagen wir ein neuartiges Framework vor, das gemeinsam einen Konnektor zwischen Argumenten generiert und Diskursrelationen auf Grundlage sowohl der Argumente als auch der generierten Konnektoren vorhersagt. Experimente zeigen, dass unser gemeinsames Modell den Stand der Technik auf den Datensätzen PDTB 2.0, PDTB 3.0 und PCC erreicht.

Über die Entwicklung eines neuartigen Modells zur Klassifikation impliziter Diskursrelationen hinaus untersuchen wir zudem eine bislang unbeantwortete Frage in der Diskursverarbeitungsforschung: Warum schneiden Relationsklassifikatoren, die auf expliziten Beispielen (mit entfernten Konnektoren) trainiert wurden, in realen impliziten Szenarien schlecht ab? Wir identifizieren eine durch das Entfernen von Konnektoren verursachte Label-Verschiebung als einen zentralen Faktor für dieses Versagen. Zur Untermauerung dieser Erkenntnis liefern wir sowohl manuelle Analysen als auch empirische Evidenz auf Korpusebene. Darüber hinaus schlagen wir zwei Strategien vor, um die Auswirkungen der Label-Verschiebung zu mindern.

Mithilfe des verbesserten Diskursparsers identifizieren wir Diskursrelationen innerhalb von Dokumenten und zeigen empirisch deren Korrelation mit textueller Kohärenz. Auf dieser Grundlage entwickeln wir ein neuartiges Fusionsmodell, das diskursrelationsbasierte Merkmale in ein vortrainiertes Modell zur Kohärenzmodellierung integriert.

Abschließend untersuchen wir die Kombination entitätsbasierter und diskursrelationsbasierter Merkmale für die Kohärenzmodellierung. Dieser Ansatz ist durch die Beobachtung motiviert, dass Autorinnen und Autoren typischerweise mehrere Strategien gleichzeitig einsetzen, um Kohärenz zu gewährleisten. Zu diesem Zweck entwerfen wir zwei Methoden zur gemeinsamen Modellierung von Entitäten und Diskursrelationen für die Kohärenzbewertung. Die experimentellen Ergebnisse zeigen, dass beide Ansätze Modelle, die jeweils nur eine der beiden Merkmalsarten verwenden, deutlich übertreffen und damit die Bedeutung der gleichzeitigen Berücksichtigung beider Merkmalsarten hervorheben.

Document type: Dissertation
Supervisor: Strube, Prof. Dr. Michael
Place of Publication: Heidelberg
Date of thesis defense: 10 December 2025
Date Deposited: 05 Feb 2026 13:08
Date: 2026
Faculties / Institutes: Neuphilologische Fakultät > Institut für Computerlinguistik
DDC-classification: 004 Data processing Computer science
400 Linguistics
Controlled Keywords: Coherence Modeling, Discourse Reasoning
About | FAQ | Contact | Imprint |
OA-LogoDINI certificate 2013Logo der Open-Archives-Initiative