Directly to content
  1. Publishing |
  2. Search |
  3. Browse |
  4. Recent items rss |
  5. Open Access |
  6. Jur. Issues |
  7. DeutschClear Cookie - decide language by browser settings

Towards a Unified Framework for Aspect-based Multi-document Text Summarization

Aumiller, Dennis

[thumbnail of Thesis.pdf]
Preview
PDF, English - main document
Download (4MB) | Lizenz: Creative Commons LizenzvertragTowards a Unified Framework for Aspect-based Multi-document Text Summarization by Aumiller, Dennis underlies the terms of Creative Commons Attribution-NonCommercial 4.0

Citation of documents: Please do not cite the URL that is displayed in your browser location input, instead use the DOI, URN or the persistent URL below, as we can guarantee their long-time accessibility.

Abstract

For a growing number of knowledge workers, the rapid ingestion of textual information is crucial for their daily tasks. Confronted with expansive bodies of text, the fastest way to glean central pieces of information is usually a summary, condensing the most relevant points into a shorter ypiece of text. However, the manual curation of high-quality text summaries is a laborious and time-intensive task, requiring intense focus and attention. This motivates the central topic of this thesis: the automatic generation of textual summaries. Instead of relying on humans, we intend to summarize texts with the help of algorithms, designed to capture the central importance. Yet, despite decades of research into automatic text summarization systems, we are still not at a point where the resulting algorithms could provide the basis for a product that sees large-scale adoption by the general public. This thesis focuses on this obvious gap and provides a fundamental framework to address some of the remaining shortcomings in automatic text summarization systems. We investigate the direction of current research, and detail key challenges, which we divide into three central problems. 1) Modern neural network-based approaches to text summarization are extremely data-hungry, yet high-quality, task-specific data remains a scarce resource, particularly for languages besides English. 2) From a modeling perspective, we also point out that existing works over-index on narrow domains, such as news summarization, with an additional lack of inclusion of user-centric perspectives for summary generation. 3) We reiterate the lack of comprehensive and meaningful evaluations of text summarization systems. Where systemic comparisons nowadays rely on a singular ground truth and metric scores, subjective and nuanced differences in a summary should be included in more evaluations again. For all three of these focus areas–data, evaluation, and models–we work towards the elimination of remaining issues under a shared theoretical framework. We introduce two new datasets suitable for research purposes, enabling multilingual and domain-specific summarization applications, ensuring their quality standards with semi-automatic filtering techniques. To improve the utility of evaluations, we further provide an overview of failure cases in existing evaluation setups, and reiterate the necessity of focusing on truthful summary generation, by providing a metric for factuality-focused evaluation of generated summaries. Aggregating these insights from our investigation of existing limitations, we introduce a two-staged hybrid summarization model, combining a multi-aspect-oriented retrieval system with a similarly aspect-compatible re-writing module as a second stage. We hypothesize that this framework allows for a more user-centric experience for text summarization systems by enabling a customizable generation depending on user needs. The final two chapters focus on the practical consequences of such a two-staged model at the example of specific generation and retrieval aspects, and how these can be improved.

Translation of abstract (German)

Für eine wachsende Zahl von Wissensarbeitern ist die schnelle Aufnahme von textueller Information von entscheidender Bedeutung. Angesichts extrem langer Texte bieten Zusammenfassungen, die die wichtigsten Punkte in einem kürzeren Textstück wiedergeben, oft den schnellste Weg, solches Wissen zu erfassen. Die manuelle Erstellung von qualitativ hochwertigen Textzusammenfassungen ist jedoch eine mühsame und zeitaufwändige Aufgabe, die ihrerseits einen hohen Grad an Konzentration und Aufmerksamkeit erfordert. Dies bringt uns zum zentralen Thema dieser Dissertation: die automatische Erstellung von Textzusammenfassungen. Anstatt sich auf Menschen zu verlassen, wollen wir Texte mit Hilfe von Algorithmen zusammenfassen, die darauf ausgelegt sind, die gleichen zentralen Aspekte eines Textes wiederzugeben. Trotz jahrzehntelanger Forschung auf dem Gebiet der automatischen Textzusammenfassung sind wir jedoch noch immer nicht an einem Punkt, an dem Produkte, die auf dieser Forschung basieren, in der Allgemeinheit angekommen sind. Die vorliegende Arbeit konzentriert sich nun auf diese offensichtliche Diskrepanz und bietet ein grundlegendes Rahmenwerk, um die verbleibende Probleme automatischer Textzusammenfassungssystemen anzugehen. Wir analysieren den Stand der aktuellen Forschung und zeigen einige der wichtigsten Herausforderungen auf, die wir in drei wesentliche Problembereiche unterteilen. 1) Moderne, auf neuronalen Netzen basierende Ansätze zur Textzusammenfassung sind extrem datenhungrig. Dennoch sind qualitativ hochwertige und domänenspezifische Datensätze schwer zu finden. 2) Wir merken weiterhin an, dass sich bestehende Arbeiten überwiegend auf hochspezifische Aufgabenbereiche fokusieren und dabei nutzerorientierte Aspekte für die Generierung außen vor lassen. 3) Schließlich verweisen wir auch auf den Mangel an aussagekräftigen Evaluierungen von Textzusammenfassungssystemen. Hier sollten besonders subjektive und nuancierte Unterschiede in einer Zusammenfassung wieder stärker in die Evaluation einbezogen werden. Für alle drei dieser Schwerpunkte–Daten, Auswertung und Modellierung–leisten wir konstruktive Beiträge zur Beseitigung der verbleibenden Probleme. Wir stellen zwei neue Datensätze vor, die mehrsprachige und domänenspezifische Anwendungen im Kontext von Zusammenfassungen ermöglichen. Um Evaluationsmethoden zu verbessern, geben wir darüber hinaus einen Überblick über systematische Fehlstellungen in bestehenden Analysen. Wir bekräftigen zudem den Fokus auf die Evaluation faktengetreuer Zusammenfassung mittels einer neuartigen Metrik. Wir stellen schließlich ein zweistufiges Modell für Textzusammenfassungen vor, welches ein aspekt-orientiertes Suchsystem mit einem kompatiblen Modul zur Umschreibung als zweiter Stufe kombiniert. Wir argumentieren, dass dieses Mdoell einen stärkeren Fokus auf subjektiv anpassbare Zusammenfassungen ermöglicht, da die Generierung in Abhängigkeit der Nutzerbedürfnisse besser abbildbar ist. Wir diskutieren zudem praktischen Konsequenzen eines solchen zweistufigen Modells am Beispiel spezifischer Generierungs- und Suchaspekte.

Document type: Dissertation
Supervisor: Gertz, Prof. Dr. Michael
Place of Publication: Heidelberg
Date of thesis defense: 21 June 2024
Date Deposited: 08 Jul 2024 12:58
Date: 2024
Faculties / Institutes: The Faculty of Mathematics and Computer Science > Department of Computer Science
DDC-classification: 004 Data processing Computer science
Controlled Keywords: Computerlinguistik
Uncontrolled Keywords: Natural Language Processing, Text Summarization
About | FAQ | Contact | Imprint |
OA-LogoDINI certificate 2013Logo der Open-Archives-Initiative