eprintid: 26780 rev_number: 16 eprint_status: archive userid: 4318 dir: disk0/00/02/67/80 datestamp: 2019-07-11 11:56:41 lastmod: 2019-08-12 12:56:38 status_changed: 2019-07-11 11:56:41 type: doctoralThesis metadata_visibility: show creators_name: Jehl, Laura Elisabeth title: Document Meta-Information as Weak Supervision for Machine Translation title_de: Dokument-Metainformation als schwaches Überwachungssignal für maschinelle Übersetzung subjects: 004 subjects: 400 divisions: 90500 adv_faculty: af-09 keywords: Natural Language Processing, Neural Machine Translation, Statistical Machine Translation, Domain Adaptation cterms_swd: Maschinelle Übersetzung cterms_swd: Maschinelles Lernen cterms_swd: Computerlinguistik abstract: Data-driven machine translation has advanced considerably since the first pioneering work in the 1990s with recent systems claiming human parity on sentence translation for highresource tasks. However, performance degrades for low-resource domains with no available sentence-parallel training data. Machine translation systems also rarely incorporate the document context beyond the sentence level, ignoring knowledge which is essential for some situations. In this thesis, we aim to address the two issues mentioned above by examining ways to incorporate document-level meta-information into data-driven machine translation. Examples of document meta-information include document authorship and categorization information, as well as cross-lingual correspondences between documents, such as hyperlinks or citations between documents. As this meta-information is much more coarse-grained than reference translations, it constitutes a source of weak supervision for machine translation. We present four cumulatively conducted case studies where we devise and evaluate methods to exploit these sources of weak supervision both in low-resource scenarios where no task-appropriate supervision from parallel data exists, and in a full supervision scenario where weak supervision from document meta-information is used to supplement supervision from sentence-level reference translations. All case studies show improved translation quality when incorporating document meta-information. abstract_translated_text: Datengetriebene maschinelle Übersetzungssysteme konnten seit den ersten bahnbrechenden Arbeiten in den 1990-er Jahren enorm verbessert werden. Neuerdings werden Systeme vorgestellt, die isolierte Sätze ebenso gut übersetzen wie professionelle menschliche Übersetzer. Die Voraussetzung dafür sind ausreichend übersetzte Trainingssätze in der Zieldomäne, von denen ein System lernen kann. In Domänen, für die es keine übersetzten Sätze gibt, nimmt die Qualität dieser Systeme jedoch drastisch ab. Zudem beziehen maschinelle Übersetzungssysteme üblicherweise keinen Kontext über die Satzebene hinaus mit ein. Solches Kontextwissen kann jedoch notwendig sein, um einen Satz korrekt zu übersetzen. Die vorliegende Arbeit hat zum Ziel, einen Beitrag zur Lösung der oben genannten Probleme zu leisten, indem sie untersucht, wie Meta-Informationen auf Dokumentebene in Übersetzungssysteme integriert werden können. Beispiele für Meta-Informationen auf Dokumentebene sind Informationen zur inhaltlichen Kategorisierung und Urheberschaft des Dokuments oder explizite Verbindungen zwischen Dokumenten, zum Beispiel durch Hyperlinks oder Zitate. In vier kumulativ durchgeführten Fallstudien werden Methoden entwickelt und ausgewertet, mit denen solche Meta-Informationen als schwaches Trainingssignal für die maschinelle Übersetzung nutzbar gemacht werden können. Dabei werden Meta-Informationen sowohl eingesetzt, um ein System auf eine Zieldomäne anzupassen, für die passende Trainingsdaten fehlen, als auch, um Trainingsdaten auf Satzebene mit Kontextinformation auf Dokumentebene anzureichern. In allen Fallstudien kann die Übersetzungsqualität verbessert werden. abstract_translated_lang: ger date: 2019 id_scheme: DOI id_number: 10.11588/heidok.00026780 ppn_swb: 1671212134 own_urn: urn:nbn:de:bsz:16-heidok-267803 date_accepted: 2019-02-25 advisor: HASH(0x564e1c5ba8f8) language: eng bibsort: JEHLLAURAEDOCUMENTME2019 full_text_status: public citation: Jehl, Laura Elisabeth (2019) Document Meta-Information as Weak Supervision for Machine Translation. [Dissertation] document_url: https://archiv.ub.uni-heidelberg.de/volltextserver/26780/1/Dissertation_Jehl_HeiDOK.pdf