Neural Techniques for German Dependency Parsing

Do, Bich-Ngoc

Preview

PDF, English - main document
Download (2MB) | Lizenz:

Citation of documents: Please do not cite the URL that is displayed in your browser location input, instead use the DOI, URN or the persistent URL below, as we can guarantee their long-time accessibility.

DOI: 10.11588/heidok.00033994
URN: urn:nbn:de:bsz:16-heidok-339948

Abstract

Syntactic parsing is the task of analyzing the structure of a sentence based on some predefined formal assumption. It is a key component in many natural language processing (NLP) pipelines and is of great benefit for natural language understanding (NLU) tasks such as information retrieval or sentiment analysis. Despite achieving very high results with neural network techniques, most syntactic parsing research pays attention to only a few prominent languages (such as English or Chinese) or language-agnostic settings. Thus, we still lack studies that focus on just one language and design specific parsing strategies for that language with regards to its linguistic properties.

In this thesis, we take German as the language of interest and develop more accurate methods for German dependency parsing by combining state-of-the-art neural network methods with techniques that address the specific challenges posed by the language-specific properties of German. Compared to English, German has richer morphology, semi-free word order, and case syncretism. It is the combination of those characteristics that makes parsing German an interesting and challenging task.

Because syntactic parsing is a task that requires many levels of language understanding, we propose to study and improve the knowledge of parsing models at each level in order to improve syntactic parsing for German. These levels are: (sub)word level, syntactic level, semantic level, and sentence level.

At the (sub)word level, we look into a surge in out-of-vocabulary words in German data caused by compounding. We propose a new type of embeddings for compounds that is a compositional model of the embeddings of individual components. Our experiments show that character-based embeddings are superior to word and compound embeddings in dependency parsing, and compound embeddings only outperform word embeddings when the part-of-speech (POS) information is unavailable. Thus, we conclude that it is the morpho-syntactic information of unknown compounds, not the semantic one, that is crucial for parsing German.

At the syntax level, we investigate challenges for local grammatical function labeler that are caused by case syncretism. In detail, we augment the grammatical function labeling component in a neural dependency parser that labels each head-dependent pair independently with a new labeler that includes a decision history, using Long Short-Term Memory networks (LSTMs). All our proposed models significantly outperformed the baseline on three languages: English, German and Czech. However, the impact of the new models is not the same for all languages: the improvement for English is smaller than for the non-configurational languages (German and Czech). Our analysis suggests that the success of the history-based models is not due to better handling of long dependencies but that they are better in dealing with the uncertainty in head direction.

We study the interaction of syntactic parsing with the semantic level via the problem of PP attachment disambiguation. Our motivation is to provide a realistic evaluation of the task where gold information is not available and compare the results of disambiguation systems against the output of a strong neural parser. To our best knowledge, this is the first time that PP attachment disambiguation is evaluated and compared against neural dependency parsing on predicted information. In addition, we present a novel approach for PP attachment disambiguation that uses biaffine attention and utilizes pre-trained contextualized word embeddings as semantic knowledge. Our end-to-end system outperformed the previous pipeline approach on German by a large margin simply by avoiding error propagation caused by predicted information. In the end, we show that parsing systems (with the same semantic knowledge) are in general superior to systems specialized for PP attachment disambiguation.

Lastly, we improve dependency parsing at the sentence level using reranking techniques. So far, previous work on neural reranking has been evaluated on English and Chinese only, both languages with a configurational word order and poor morphology. We re-assess the potential of successful neural reranking models from the literature on English and on two morphologically rich(er) languages, German and Czech. In addition, we introduce a new variation of a discriminative reranker based on graph convolutional networks (GCNs). Our proposed reranker not only outperforms previous models on English but is the only model that is able to improve results over the baselines on German and Czech. Our analysis points out that the failure is due to the lower quality of the k-best lists, where the gold tree ratio and the diversity of the list play an important role.

Translation of abstract (German)

Syntaktisches Parsen hat zum Ziel, die Struktur eines Satzes basierend auf einer vordefinierten formalen Grammatik zu analysieren. Es ist damit eine Schlusselkomponente in vielen Pipelines fur die Verarbeitung naturlicher Sprache und stellt wichtige Informationen fur Anwendungen im Bereich des Verstehens naturlicher Sprache (Natural Language Understanding, NLU) bereit, wie z.B. die Extraktion von Informationen oder die Stimmungsanalyse.

Obwohl einige neuronale syntaktische Parser sehr hohe Prazisionswerte erzielen, fokussieren sich viele Untersuchungen auf nur wenige Sprachen (wie Englisch oder Chinesisch) oder studieren vorwiegend sprachunabhangige Konfigurationen. Daher fehlt es an Studien, die sich auf nur eine bestimmte Sprache konzentrieren und spezifische Analysestrategien fur diese Sprache hinsichtlich ihrer sprachlichen Eigenschaften entwerfen.

Diese Arbeit stellt die deutsche Sprache ins Zentrum des Interesses und entwickelt akkuratere Methoden fur die Analyse der besonderen syntaktischen Eigenschaften des Deutschen. Dazu werden neuartige Methoden aus dem Bereich des „Deep Learning“ und der neuronalen Netze kombiniert mit Techniken, die die Herausforderungen an die automatische Analyse addressieren, die durch die sprachspezifischen Eigenschaften des Deutschen entstehen.

Im Vergleich zum Englischen besitzt das Deutsche eine sehr viel reichere Morphologie und zeichnet sich durch eine nicht-konfigurationelle Wortfolge und Kasus-Synkretismus aus. Es ist die Kombination dieser Eigenschaften, die das Parsen des Deutschen zu einer interessanten und herausfordernden Aufgabe macht. Da syntaktisches Parsen sprachliches Wissen auf verschiedenen Ebenen des Sprachverstandnisses erfordert, schlage ich vor, die Performanz von syntatischen Parsern auf jeder dieser Ebene zu studieren, um die Akkuratheit von syntaktischen Parsern furs Deutsche insgesamt zu verbessern. Die dabei berucksichtigten Ebenen sind die (Sub-)Wortebene, die syntaktische Ebene, die semantische Ebene und die Satzebene.

Auf der (Sub-)Wortebene untersuchen wir den hohen Anteil an unbekannten (d.h., nicht in den Trainingsdaten vorhandenen) Worten in deutschen Datensets, bedingt durch die produktive Bildung von Komposita im Deutschen. Um dieses Problem zu bearbeiten, schlagen wir eine neue Art von Einbettungen (Embeddings) fur Komposita vor, die sich aus den Einbettungen der einzelnen Wortkomponenten zusammensetzen. Unsere Experimente zeigen, dass zeichenbasierte Einbettungen den wortbasierten und den kompositionellen Einbettungen beim Dependenz-Parsen uberlegen sind und Parsingergebnisse fur zusammengesetzte Einbettungen die fur Worteinbettungen nur dann ubertreffen, wennWortarten-Informationen nicht verfugbar sind. Wir schliesen daraus, dass es nicht die semantische, sondern die morphosyntaktische Information unbekannterWortverbindungen ist, die fur das Parsen des Deutschen entscheidend ist.

Auf der Syntaxebene untersuchen wir Herausforderungen fur die lokale Bestimmung von grammatikalischen Funktionen aufgrund von Kasus-Synkretismus. Genauer gesagt, erweitern wir die Auszeichnunskomponente eines neuronalen Dependenzparsers, die jedem Kopf-Dependenten-Paar unabhangig von anderen Paaren eine grammatikalische Funktion zuweist. Die vorgeschlagene Erweiterung basiert auf Long Short-Term Memory Networks (LSTM) und berucksichtigt den bisherigen Entscheidungsverlauf (decision history). Die Ergebnisse unserer Modelle zeigen signifikante Verbesserungen fur drei Sprachen: Englisch, Deutsch und Tschechisch.

Die Auswirkungen der neuen Modelle sind jedoch nicht fur alle Sprachen gleich: Die Verbesserungen furs Englische fallen geringer aus als die fur nicht-konfigurationelle Sprachen (Deutsch und Tschechisch). Unsere Analyse legt nahe, dass der Erfolg der entscheidungsverlaufbasierten Modelle nicht auf einem besseren Umgang mit langen Abhangigkeiten beruht, sondern dass sie besser mit der Unsicherheit umgehen konnen, ob der Kopf des Dependenten rechts oder links vom Dependenten zu finden ist.

Auf der semantischen Ebene untersuchen wir das Problem der Disambiguierung von PP-Anhangungen, das fur einen hohen Anteil an Fehlern beim syntaktischen Parsen verantwortlich ist. Unsere Motivation ist es, eine realistische Evaluation der Aufgabe zu liefern, bei der keine Goldinformationen verfugbar sind, und die Ergebnisse von Disambiguierungssystemen mit der Ausgabe eines starken neuronalen Parsers zu vergleichen. Nach unserem besten Wissen ist dies das erste Mal, dass Systeme zur Disambiguierung von PP-Anhangungen in einem realistischen Setting evaluiert und mit neuronalen Dependenzparsern verglichen werden.

Daruber hinaus prasentieren wir einen neuartigen Ansatz zur Disambiguierung von PP-Anhangungen, bei dem ein biaffine attention-Mechanismus genutzt wird und vortrainierte kontextualisierte Worteinbettungen als semantisches Wissen verwendet werden. Unser End-to-End-System ubertrifft den bisherigen Pipeline-Ansatz furs Deutsche um ein Vielfaches, indem es die durch vorhergesagte Informationen verursachte Fehlerfortpflanzung verhindert. Am Ende zeigen wir, dass Parsing-Systeme, die uber das gleiche semantischeWissen verfugen, generell Systemen uberlegen sind, die auf die Disambiguierung von PP-Anhangungen spezialisiert sind.

Zuletzt betrachten wir die Satzebene, wo wir das Parsen von Dependenzen mithilfe von Reranking-Techniken verbessern. Bisher wurden neuronale Rerankingsysteme nur auf englischen und chinesischen Daten evaluiert, beides Sprachen mit einer stark konfigurationellen Wortfolge und einer eher verarmten Morphologie. Wir prasentieren eine neue Bewertung des Potenzials erfolgreicher neuronaler Rankingmodelle aus der Literatur furs Englische und fur zwei morphologisch reich(er)e Sprachen, Deutsch und Tschechisch. Daruber hinaus fuhren wir eine neue Variante eines diskriminativen Rerankers ein, der auf Graph Convolutional Networks (GCNs) basiert. Unser vorgeschlagener Reranker ubertrifft nicht nur fruhere Modelle furs Englische, sondern ist auch das einzige Modell, das in der Lage ist, die Ergebnisse gegenuber den Referenzwerten fur Deutsche und Tschechische zu verbessern. Unsere Analyse zeigt, dass Rerankingfehler haufig auf die geringere Qualitat der k-besten Liste zuruckzufuhren ist, bei denen der Anteil der Goldbaume in der Liste der k-besten Parsebaume sowie die Diversitat der Liste eine wichtige Rolle spielen.

Document type:	Dissertation
Supervisor:	Rehbein, Dr. Ines
Place of Publication:	Heidelberg
Date of thesis defense:	24 February 2022
Date Deposited:	05 Dec 2023 11:17
Date:	2023
Faculties / Institutes:	Neuphilologische Fakultät > Institut für Computerlinguistik
DDC-classification:	004 Data processing Computer science 400 Linguistics 420 English 430 Germanic 490 Other languages
Uncontrolled Keywords:	natural language processing, syntactic parsing, dependency parsing, deep learning, neural networks