Directly to content
  1. Publishing |
  2. Search |
  3. Browse |
  4. Recent items rss |
  5. Open Access |
  6. Jur. Issues |
  7. DeutschClear Cookie - decide language by browser settings

Document Meta-Information as Weak Supervision for Machine Translation

Jehl, Laura Elisabeth

German Title: Dokument-Metainformation als schwaches Überwachungssignal für maschinelle Übersetzung

[thumbnail of Dissertation_Jehl_HeiDOK.pdf] PDF, English
Download (1MB) | Terms of use

Citation of documents: Please do not cite the URL that is displayed in your browser location input, instead use the DOI, URN or the persistent URL below, as we can guarantee their long-time accessibility.

Abstract

Data-driven machine translation has advanced considerably since the first pioneering work in the 1990s with recent systems claiming human parity on sentence translation for highresource tasks. However, performance degrades for low-resource domains with no available sentence-parallel training data. Machine translation systems also rarely incorporate the document context beyond the sentence level, ignoring knowledge which is essential for some situations. In this thesis, we aim to address the two issues mentioned above by examining ways to incorporate document-level meta-information into data-driven machine translation. Examples of document meta-information include document authorship and categorization information, as well as cross-lingual correspondences between documents, such as hyperlinks or citations between documents. As this meta-information is much more coarse-grained than reference translations, it constitutes a source of weak supervision for machine translation. We present four cumulatively conducted case studies where we devise and evaluate methods to exploit these sources of weak supervision both in low-resource scenarios where no task-appropriate supervision from parallel data exists, and in a full supervision scenario where weak supervision from document meta-information is used to supplement supervision from sentence-level reference translations. All case studies show improved translation quality when incorporating document meta-information.

Translation of abstract (German)

Datengetriebene maschinelle Übersetzungssysteme konnten seit den ersten bahnbrechenden Arbeiten in den 1990-er Jahren enorm verbessert werden. Neuerdings werden Systeme vorgestellt, die isolierte Sätze ebenso gut übersetzen wie professionelle menschliche Übersetzer. Die Voraussetzung dafür sind ausreichend übersetzte Trainingssätze in der Zieldomäne, von denen ein System lernen kann. In Domänen, für die es keine übersetzten Sätze gibt, nimmt die Qualität dieser Systeme jedoch drastisch ab. Zudem beziehen maschinelle Übersetzungssysteme üblicherweise keinen Kontext über die Satzebene hinaus mit ein. Solches Kontextwissen kann jedoch notwendig sein, um einen Satz korrekt zu übersetzen. Die vorliegende Arbeit hat zum Ziel, einen Beitrag zur Lösung der oben genannten Probleme zu leisten, indem sie untersucht, wie Meta-Informationen auf Dokumentebene in Übersetzungssysteme integriert werden können. Beispiele für Meta-Informationen auf Dokumentebene sind Informationen zur inhaltlichen Kategorisierung und Urheberschaft des Dokuments oder explizite Verbindungen zwischen Dokumenten, zum Beispiel durch Hyperlinks oder Zitate. In vier kumulativ durchgeführten Fallstudien werden Methoden entwickelt und ausgewertet, mit denen solche Meta-Informationen als schwaches Trainingssignal für die maschinelle Übersetzung nutzbar gemacht werden können. Dabei werden Meta-Informationen sowohl eingesetzt, um ein System auf eine Zieldomäne anzupassen, für die passende Trainingsdaten fehlen, als auch, um Trainingsdaten auf Satzebene mit Kontextinformation auf Dokumentebene anzureichern. In allen Fallstudien kann die Übersetzungsqualität verbessert werden.

Document type: Dissertation
Supervisor: Riezler, Prof. Dr. Stefan
Date of thesis defense: 25 February 2019
Date Deposited: 11 Jul 2019 11:56
Date: 2019
Faculties / Institutes: Neuphilologische Fakultät > Institut für Computerlinguistik
DDC-classification: 004 Data processing Computer science
400 Linguistics
Controlled Keywords: Maschinelle Übersetzung, Maschinelles Lernen, Computerlinguistik
Uncontrolled Keywords: Natural Language Processing, Neural Machine Translation, Statistical Machine Translation, Domain Adaptation
About | FAQ | Contact | Imprint |
OA-LogoDINI certificate 2013Logo der Open-Archives-Initiative