Active Learning: New Approaches, and Industrial Applications

Röder, Jens

German Title: Aktives Lernen: Neue Ansätze und industrielle Anwendungen

Preview

PDF, English (Dissertation) - main document
Download (7MB) | Terms of use

Citation of documents: Please do not cite the URL that is displayed in your browser location input, instead use the DOI, URN or the persistent URL below, as we can guarantee their long-time accessibility.

DOI: 10.11588/heidok.00014379
URN: urn:nbn:de:bsz:16-heidok-143791
URL: http://www.ub.uni-heidelberg.de/archiv/14379

Abstract

Active learning is one form of supervised machine learning. In supervised learning, a set of labeled samples is passed to a learning algorithm for training a classifier. However, labeling large amounts of training samples can be costly and error-prone. Active learning deals with the development of algorithms that interactively select a subset of the available unlabeled samples for labeling, and aims at minimizing the labeling effort while maintaining classification performance. The key challenge for the development of so-called active learning strategies is the balance between exploitation and exploration: On the one hand, the estimated decision boundary needs to be refined in feature space regions where it has already been established, while, on the other hand, the feature space needs to be scanned carefully for unexpected class distributions. In this thesis, two approaches to active learning are presented that consider these two aspects in a novel way. In order to lay the foundations for the first one, it is proposed to express the uncertainty in class prediction of a classifier at a test point in terms of a second-order distribution. The mean of this distribution corresponds to the common estimate of the posterior class probabilities and thus is related to the distance of the test point to the decision boundary, whereas the spread of the distribution indicates the degree of exploration in the corresponding region of feature space. This allows for the evaluation of the utility of labeling a yet unlabeled point with respect to classifier improvement in a principled way and leads to a completely novel approach to active learning. The proposed strategy is then implemented and evaluated based on kernel density classification. The generic active learning strategy can be combined with any other classifier, but it performs best if the derived second-order distributions are sufficiently good approximations to the sampling distribution. Although second-order distributions for random forests are derived in this thesis, they do not approximate sufficiently well the sampling distribution and mainly allow only for the relative comparison of prediction uncertainty between test points. In order to combine the state of the art classification performance of random forests with the principal ideas of the first active learning approach, a related second approach for random forests is derived. It is, in addition, tailored to the demands in industrial optical inspection: bag-wise labeling with weak labels and strongly imbalanced classes. Moreover, an outlier detection scheme based on random forests is derived that is used by the proposed active learning algorithm. Finally, a new computational scheme for Gaussian process classification is presented. It is compared to two standard methods in geostatistics, both with respect to theoretical consistency and practical performance. The method evolved as a by-product when considering using Gaussian process models for active learning.

Translation of abstract (German)

Aktives Lernen ist eine Form von überwachtem maschinellen Lernen. Beim überwachten Lernen wird eine Menge von gelabelten Beispielen an einen Lernalgorithmus übergeben, um einen Klassifikator zu trainieren. Das Labeln von großen Mengen an Trainingsdaten kann allerdings kostspielig und fehleranfällig sein. Aktives Lernen beschäftigt sich mit der Entwicklung von Algorithmen, die interaktiv eine Teilmenge der vorhandenen ungelabelten Beispiele für das Labeln auswählen, und zielt darauf ab, den Labelaufwand bei gleichzeitiger Erhaltung der Klassifikationsleistung zu minimieren. Der Schlüssel zur Entwicklung von Aktiv-Lern-Strategien liegt in der Balance zwischen “Exploitation” und “Exploration”: Einerseits sollte die geschätzte Entscheidungsgrenze in den Regionen des Merkmalsraums verfeinert werden, wo sie bereits errichtet worden ist, andererseits sollte derMerkmalsraum sorgfältig nach unerwarteten Klassenverteilungen abgesucht werden. In dieser Arbeit werden zwei Ansätze zum aktiven Lernen vorgestellt, die diese beiden Gesichtspunkte auf neue Weise berücksichtigen. Um die Grundlagen für den ersten Ansatz zu legen, wird zunächst vorgeschlagen, die Unsicherheit bzgl. der Klassenvorhersage eines Klassifikators an einem Testpunkt mit Hilfe einer Wahrscheinlichkeitsverteilung zweiter Ordnung auszudrücken. Der Mittelwert dieser Verteilung entspricht der bekannten Schätzung der posterioren Klassenwahrscheinlichkeiten und steht deshalb in Beziehung zur Entfernung des Punktes von der Entscheidungsgrenze, wohingegen die Streuung der Verteilung den Grad an Exploration der entsprechenden Region im Merkmalsraum anzeigt. Dies erlaubt eine Auswertung der Nützlichkeit des Labelns eines bisher ungelabelten Punktes in Bezug auf eine mögliche Verbesserung des Klassifikators auf grundlegende Weise und führt zu einem völlig neuen Ansatz für das aktive Lernen. Die vorgeschlagene Strategie wird schließlich basierend auf Kerndichteklassifikation umgesetzt und evaluiert. Die generische Strategie kann mit jedem anderen Klassifikator kombiniert werden, aber sie ist am leistungsfähigsten, wenn die hergeleiteten Wahrscheinlichkeitsverteilungen zweiter Ordnung hinreichend gute Approximationen an die Stichprobenverteilung sind. Obwohl Verteilungen zweiter Ordnung für Zufallswälder (“random forests”) in dieser Arbeit hergeleitet werden, approximieren sie nicht hinreichend gut die Stichprobenverteilung und erlauben daher vor allem lediglich einen relativen Vergleich der Vorhersageunsicherheit zwischen Testpunkten. Um die anerkannt gute Klassifikationsleistung von Zufallswäldern mit den Grundideen des ersten Aktiv-Lern-Ansatzes zu verbinden, wird deshalb ein verwandter zweiter Ansatz für Zusatzwälder hergeleitet. Dieser ist zusätzlich auf die Anforderungen der industriellen Qualitätskontrolle zugeschnitten: bündelweises Labeln mit schwachen Labels und stark unbalancierte Klassen. Außerdem wird ein Verfahren zur Ausreißer-Erkennung basierend auf Zufallswäldern hergeleitet, das von dem vorgeschlagenen Aktiv-Lern-Algorithmus benutzt wird. Abschließend wird ein neues Verfahren zur Klassifikation mit Gauß’schen Prozessen vorgestellt. Es wird mit zwei Standardmethoden aus der Geostatistik in Bezug auf das zugrunde liegende Modell und die Klassifikationsleistung verglichen. DieMethode entstand als Nebenprodukt bei der Überlegung, Gauß-Prozess-Modelle für aktives Lernen zu nutzen.

Document type:	Dissertation
Supervisor:	Hamprecht, Prof. Dr. Fred A.
Date of thesis defense:	24 January 2013
Date Deposited:	01 Feb 2013 08:17
Date:	24 January 2013
Faculties / Institutes:	Service facilities > Interdisciplinary Center for Scientific Computing
DDC-classification:	004 Data processing Computer science 500 Natural sciences and mathematics
Controlled Keywords:	Überwachtes Lernen, Maschinelles Lernen, Mustererkennung, Qualitätskontrolle
Uncontrolled Keywords:	Aktives Lernen