Translation-based Ranking in Cross-Language Information Retrieval

Hieber, Felix

Vorschau

PDF, Englisch - Hauptdokument
Download (861kB) | Lizenz:

Creative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 3.0 Deutschland

Zitieren von Dokumenten: Bitte verwenden Sie für Zitate nicht die URL in der Adresszeile Ihres Webbrowsers, sondern entweder die angegebene DOI, URN oder die persistente URL, deren langfristige Verfügbarkeit wir garantieren. [mehr ...]

DOI: 10.11588/heidok.00018696
URN: urn:nbn:de:bsz:16-heidok-186963

Abstract

Today's amount of user-generated, multilingual textual data generates the necessity for information processing systems, where cross-linguality, i.e the ability to work on more than one language, is fully integrated into the underlying models. In the particular context of Information Retrieval (IR), this amounts to rank and retrieve relevant documents from a large repository in language A, given a user's information need expressed in a query in language B. This kind of application is commonly termed a Cross-Language Information Retrieval (CLIR) system. Such CLIR systems typically involve a translation component of varying complexity, which is responsible for translating the user input into the document language. Using query translations from modern, phrase-based Statistical Machine Translation (SMT) systems, and subsequently retrieving monolingually is thus a straightforward choice. However, the amount of work committed to integrate such SMT models into CLIR, or even jointly model translation and retrieval, is rather small.

In this thesis, I focus on the shared aspect of ranking in translation-based CLIR: Both, translation and retrieval models, induce rankings over a set of candidate structures through assignment of scores. The subject of this thesis is to exploit this commonality in three different ranking tasks: (1) "Mate-ranking" refers to the task of mining comparable data for SMT domain adaptation through translation-based CLIR. "Cross-lingual mates" are direct or close translations of the query. I will show that such a CLIR system is able to find in-domain comparable data from noisy user-generated corpora and improves in-domain translation performance of an SMT system. Conversely, the CLIR system relies itself on a translation model that is tailored for retrieval. This leads to the second direction of research, in which I develop two ways to optimize an SMT model for retrieval, namely (2) by SMT parameter optimization towards a retrieval objective ("translation ranking"), and (3) by presenting a joint model of translation and retrieval for "document ranking". The latter abandons the common architecture of modeling both components separately. The former task refers to optimizing for preference of translation candidates that work well for retrieval. In the core task of "document ranking" for CLIR, I present a model that directly ranks documents using an SMT decoder. I present substantial improvements over state-of-the-art translation-based CLIR baseline systems, indicating that a joint model of translation and retrieval is a promising direction of research in the field of CLIR.

Übersetzung des Abstracts (Deutsch)

Die Menge an mehrsprachigen, benutzergenerierten Textdaten erzeugt zunehmend einen Bedarf an informationsverarbeitenden Systemen, in denen eine sprachenübergreifende Verarbeitung vollständig in den zugrundeliegenden Modellen integriert ist. Im Kontext der Suche von Textdokumenten, im Folgenden Information Retrieval (IR) genannt, bedeutet dies die Erzeugung eines Rankings über Dokumente in Sprache A, gegeben dem Informationsbedürfnis eines Anwenders, formuliert in Sprache B. Ein solches Cross-Language-Information-Retrieval-System (CLIR) besteht typischerweise aus zwei Komponenten: Einem statistischen, maschinellen Übersetzungssystem, das Suchanfragen des Anwenders übersetzt, und einem Suchmodell, das für das Ranking der Dokumente in der Zielsprache zuständig ist.

Die vorliegende Dissertation beschäftigt sich mit Ranking in CLIR-Systemen, einerseits dem des Suchmodells, und andererseits dem des Übersetzungsmodells, Statistical Machine Translation (SMT). Ich nähere mich diesem Thema daher über drei Anwendungsverfahren. (1) "Mate-Ranking" bezeichnet die Aufgabe eines CLIR-Systems direkte oder vergleichbare Übersetzungen der Suchanfrage ("cross-lingual mates") in der Dokumentsammlung zu finden. Paare aus Suchanfragen und "mates" können als zusätzliche Trainingsdaten für ein SMT-Modell verwendet werden, mit dem die Übersetzungsfähigkeit in der Domäne der Dokumente angepasst werden kann (Domain Adaptation). Da ein derartig angepasstes Übersetzungssystem wieder im Rahmen eines CLIR-Systems eingesetzt werden kann, ergibt sich eine gegenseitige Abhängigkeit von SMT- und CLIR-Modell, die ein effizienteres und iteratives Domain-Adaptation-Verfahren ermöglicht. (2) Im "Translation-Ranking" geht es darum, das Ranking der von einem SMT-System erstellten Übersetzungshypothesen für das anschließende Retrieval zu optimieren. Hierbei wird im diskriminativen Training des statistischen Modells anstatt einer Übersetzungsmetrik, eine Suchmetrik als Zielfunktion verwendet. (3) Im Verfahren des "Document-Rankings" geht es um die Optimierung der Suchergebnisse eines CLIR-Systems. Es wird ein Modell vorgestellt, das Übersetzung und Suche gemeinsam modelliert: Der Dekodierprozess der Übersetzung erzeugt gleichzeitig ein Ranking über die Dokumente in der Zielsprache. Durch eine gemeinsame Modellierung beider Komponenten können Übersetzung und Suche, gleichzeitig mit bekannten Learning-to-Rank-Methoden optimiert werden. Ergebnisse dieses Modells auf zwei großen Korpora zeigen signifikante Verbesserungen gegenüber CLIR-Modellen mit der oben beschriebenen, hintereinandergeschalteten Zwei-Komponenten-Architektur.

Dokumententyp:	Dissertation
Erstgutachter:	Riezler, Prof. Dr. Stefan
Tag der Prüfung:	23 April 2015
Erstellungsdatum:	21 Mai 2015 08:40
Erscheinungsjahr:	2015
Institute/Einrichtungen:	Neuphilologische Fakultät > Institut für Computerlinguistik
DDC-Sachgruppe:	004 Informatik
Normierte Schlagwörter:	Cross-Language Information Retrieval, Statistical Machine Translation
Freie Schlagwörter:	Statistical Machine Translation, Cross-Language Information Retrieval, Information Retrieval