Can oracle-based imitation learning improveneural machine translation with dataaggregation?

Hormann, Luca

German Title: Kann Orakel-gestütztes Lernen durchImitation mit Datenaggregation neuronalemaschinelle Übersetzung verbessern?

Preview

PDF, English - main document
Download (1MB) | Terms of use

Citation of documents: Please do not cite the URL that is displayed in your browser location input, instead use the DOI, URN or the persistent URL below, as we can guarantee their long-time accessibility.

DOI: 10.11588/heidok.00030516
URN: urn:nbn:de:bsz:16-heidok-305169
URL: http://www.ub.uni-heidelberg.de/archiv/30516

Abstract

Through globalization of the industry and the collaboration of nations world wide theimportance of machine translated documents is rising. Many new ideas and conceptswere proposed in the recent years to improve the overall quality of machine translation(MT). A lot of focus in machine learning is going towards the research of alternativelearning techniques, as the basic existing paradigms such as supervised, unsupervised andreinforcement learning are not a perfect fit for every task. Imitation learning is a techniquewhich combines the exploratory aspect of reinforcement with the efficiency of supervisedlearning. Through the usage of an interactive expert, the learning model, also calledstudent, is able to obtain intermediate feedback for it’s predictions at any given point intime. Thereby the student is aware of it’s mistakes by considering the difference of it’s andthe expert’s prediction from this point. Imitation learning can improve all major problemsfor training artificial neural networks given the right expert. These are: the time it takesto train a model, the acquisition of data and most importantly the overall performancegiven some specific metric.The most common quality evaluation metric used for MT is BLEU. It is based on then-gram precision between the generated translation, given some input, and the referencetranslation. Therefore it is non-differentiable and can not be used as a loss to train a MTmodel directly. For the training usually the maximum likelihood estimation (MLE) is used,such that the likelihood of each token in the output, given the input sequence, is maximized.This creates a discrepancy between training (MLE) and validation objective (BLEU). Thisthesis tries to overcome this issue by directly learning on the differences of the expectedBLEU from the student and the expert in an imitation learning scenario. The expert isrepresented by a traditional statistical machine translation (SMT) model that should helpthe student in solving the problems mentioned above. For this a novel data aggregationmethodAggregateData using approximatedBLEUexplorations (ADBLEU) based onimitation learning was implemented. After conducting several experiments, validatingdifferent approaches of data aggregation, it is shown that it is not possible to significantlyimprove the state-of-the-art student, due to limitations of the SMT expert.

Translation of abstract (German)

Durch die zunehmende industrielle Globalisierung und der daraus einhergehenden interna-tionalen Zusammenarbeit steigt die Bedeutung von maschinell ̈ubersetzten Dokumenten.In den letzten Jahren wurden viele neue Ideen und Konzepte vorgeschlagen, um dieGesamtqualit ̈at der maschinellen ̈Ubersetzung zu verbessern. Ein Schwerpunkt im Bereichdes maschinellen Lernens liegt in der Erforschung alternativer Lerntechniken. Das hatden Hintergrund, dass die bestehenden Paradigmen, wie ̈uberwachtes, un ̈uberwachtes undverst ̈arkendes Lernen nicht f ̈ur jede Aufgabe optimal geeignet sind. Eine Technik, die denexplorativen Aspekt des Verst ̈arkungslernens mit der Effizienz des ̈uberwachten Lernenskombiniert, ist das Lernen durch Imitation. Durch den Einsatz eines interaktiven”Lehrer“ist der”Sch ̈uler“ in der Lage, zu jedem Zeitpunkt, ein Zwischenfeedback f ̈ur seine Vorher-sagen zu erhalten. Durch die Abweichung seines L ̈osungsvorschlages, zu dem des Lehrers,wird dem Sch ̈uler sein eigener Fehler bewusst. Dadurch k ̈onnen essenzielle Probleme, wiezum Beispiel die Trainingszeit, die Datenerfassung und die Gesamtleistung anhand einerbestimmten Metrik, bei dem Training von k ̈unstlichen neuronalen Netzen, verbessert wer-den.Die gebr ̈auchlichste Metrik zur Qualit ̈atsbewertung bei der maschinellen ̈Ubersetzung istBLEU. Sie basiert auf der Pr ̈azision der N-Gramme zwischen der generierten ̈Ubersetzungund der Referenz ̈ubersetzung. Dadurch ist BLEU nicht differenzierbar und kann auch nichtdirekt als Verlustfunktion f ̈ur das Training in der maschinellen ̈Ubersetzung verwendetwerden. In der Regel wird f ̈ur das Training die Maximum-Likelihood-Sch ̈atzung verwen-det, so dass die Wahrscheinlichkeit jedes Tokens in der Ausgabesequenz, entsprechend derEingabesequenz, maximiert wird. Dadurch entsteht eine Diskrepanz zwischen Trainings-und Bewertungsziel. In dieser Arbeit wird dieses Problem versucht zu umgehen. In einemImitationslernszenario wird der Sch ̈uler direkt durch Unterschiede des erwarteten BLEU-Ergebnisses zwischen sich und dem Lehrer trainiert. Der Lehrer wird durch ein SMT-Modell (Statistical Machine Translation) dargestellt, das dem Studenten bei den genanntenProblemen helfen soll. Hierf ̈ur wurde eine neue Methode basierend auf dem Imitation-slernen entwickelt: DasAggregieren vonDaten mit angen ̈ahertenBLEU-Explorationen(ADBLEU). Die durchgef ̈uhrten Experimente, in denen verschiedene Ans ̈atze der Date-naggregation validiert wurden, zeigen, dass es aufgrund von Einschr ̈ankungen bei demSMT-Lehrers nicht m ̈oglich ist, den State-of-the-Art-Sch ̈uler signifikant zu verbessern.

Document type:	Master's thesis
Supervisor:	Riezler, Prof. Dr. Stefan
Place of Publication:	Heidelberg
Date of thesis defense:	5 May 2021
Date Deposited:	16 Sep 2021 09:01
Date:	2021
Faculties / Institutes:	The Faculty of Mathematics and Computer Science > Institut für Mathematik Neuphilologische Fakultät > Institut für Computerlinguistik
DDC-classification:	004 Data processing Computer science
Controlled Keywords:	Maschinelles Lernen, Maschinelle Übersetzung, Künstliche Intelligenz, Deep learning, Sprachverstehen, Operante Konditionierung, Experte, Student, Nachamung, Unüberwachtes Lernen, Überwachtes Lernen